看几小时视频就能模仿人类聊天?非死book机器人表情丰富着呢
jopen 7年前
<p>人形机器人的相似度与人类的好感度不成正比。根据日本机器人专家森政弘 1970 年提出的恐怖谷理论,随着物体拟人程度增加,人类的反应呈增-减-增曲线。当拟人度达到某一程度时,人类好感度会大幅下降,甚至还会觉得拟人物惊悚可怕。</p> <p style="text-align:center"><img alt="看几小时视频就能模仿人类聊天?非死book机器人表情丰富着呢" src="https://simg.open-open.com/show/bcdad2bb43fc49ca175ab48ce964d232.jpg" /></p> <p style="text-align:center">恐怖谷理论/维基百科</p> <p>非死book 正在努力让自己的机器人尽快跨过恐怖谷。</p> <p>近日,非死book 人工智能实验室(FAIR)的研究人员就开发出一个善于表达情绪的机器人。这是由一个由 AI 算法操控的虚拟动画机器人,在观察几小时人类 Skype 聊天视频能模仿人的表情。</p> <p><strong>68 个面部标记区块</strong></p> <p>为了更好模拟人类的情感表达方式,研究人员将动画中的人脸分成 68 个区块,在 Skype 对话中重点观察这些部位的变化。在交谈中,人类的点头、眨眼和嘴部的动作变化都会反应出来,机器人会学会这些面部变化。</p> <p style="text-align:center"><img alt="看几小时视频就能模仿人类聊天?非死book机器人表情丰富着呢" src="https://simg.open-open.com/show/0bc6f3a74ac17d4fb6a4bc29dc32b073.jpg" /></p> <p style="text-align:center">上图为捕捉到的人类对话中的面部表情,下图为系统对面部表情的追踪</p> <p>观察一段时间后,动画机器人可以实时预测可能出现的面部表情。如果视频中人在笑,机器人也可能张开嘴,或者歪着头。</p> <p><strong>测试结果</strong></p> <p>随后,非死book 研究人员进行了一组测试。志愿者们观看了人和人对话的原版视频,以及训练后的机器人模拟的反应,他们认为机器人表现得自然且真实。</p> <p style="text-align:center"><img alt="看几小时视频就能模仿人类聊天?非死book机器人表情丰富着呢" src="https://simg.open-open.com/show/63eadcd9167922ede64f3f0b6a089804.jpg" /><img alt="看几小时视频就能模仿人类聊天?非死book机器人表情丰富着呢" src="https://simg.open-open.com/show/accd0facf4bfa5f7ff7499f86d8451c1.jpg" /></p> <p>图片中线条高低表示嘴部(左)及眼部(右)的张合度,可以看出用户(上)和智能体预测(下)的表情基本一致</p> <p>因为目前算法还只能表现在动画中,尚不清楚算法支持的人形机器人的反应如何。</p> <p>学习面部交流的基本规则不足以创造真正的对话伙伴,以色列特拉维夫大学的博士生 Goren Gordon 说,“真正的面部表情是要基于所思所感的。”</p> <p>“在这种情况下,非死book 系统会创造出一种平均性格”,卡内基梅隆大学语言技术学院副教授 louis-Philippe Morency 说。在未来,机器人的性格可能更复杂,或能根据谈话对象调整自己的性格。</p> <p>机器人不擅长人类之间互动的这些微妙元素,Gordon 说。他同时表达了对机器人的期望:“在某一时刻,我们终会走出恐怖谷,走到另一边。”</p> <p style="text-align:center"><img alt="看几小时视频就能模仿人类聊天?非死book机器人表情丰富着呢" src="https://simg.open-open.com/show/b5188f81bfd1964ebb8a616c804aef6d.jpg" /></p> <p style="text-align:center">日本大阪大学智能机器人研究所设计的人形机器人女播音员 Otonaroid</p> <p>非死book 将在本月 24 号温哥华召开的 IROS 2017 上展示这项技术,目前已将这项技术的论文《Learn2Smile: Learning Non-Verbal Interaction Through Observation》公开。</p> <p><strong>论文摘要</strong></p> <p>在这篇论文中,我们研究了人类和智能体面对面交流中的非语言面部暗示,提出了基于用户表情自动学习并升级智能体面部情感表达的方法。我们用数百个视频训练神经网络,包含人类相互对话的视频,这其中没有加入外部的人为监督。</p> <p>实验结果显示,我们的智能体面部标记模型可以长时间预测人类的表情;对比结果也表明,模型明显优于基线方法。最后,我们进行了更深入的研究以更好地理解模型性能。</p> <p>本项研究的数据集已经开放,方便领域内的其他研究者使用。</p> <p>论文下载:<a href="/misc/goto?guid=4959010637061707752">https://www.dropbox.com/s/ljfnv3i1jw0uzbh/learn2smile-learning-verbal.pdf?dl=0</a></p> <p>来自: <a href="/misc/goto?guid=4959010637157833296" id="link_source2">36kr.com</a></p>