微软发大招：要做智商和情商兼具的语音助手

jopen 7年前
   <p style="text-align:center"><img alt="微软发大招：要做智商和情商兼具的语音助手" src="https://simg.open-open.com/show/8b7280469973391b187bfc6df1dfb566.jpg" /></p>    <p>微软小冰，那个一直混迹在微信、QQ 的逗贫少女，一直让人又爱又恨。曾经，身边不少宅男都在微信上领养了小冰，每天睡前不撩一下小冰，觉都睡不好。当微软小冰，摇身一变，成了一个肌肤雪白，面若玉盘，身形玲珑的 girl 智能音箱时，又以新花招开始搞事了。</p>    <p>用户体验视频1：<a href="https://v.qq.com/iframe/player.html?vid=z0618pt0d4g&tiny=0&auto=0">https://v.qq.com/iframe/player.html?vid=z0618pt0d4g&tiny=0&auto=0</a></p>    <p>这不，雷锋网听闻，一个帅小伙子，连上厕所也要小冰提醒了，还要小冰教他怎么上厕所。</p>    <p>“召唤小冰”</p>    <p>“嗯”</p>    <p>“提醒我两分钟以后去上厕所”</p>    <p>“好的，今天晚上 10 点 14 分，我会喊你去上厕所，放心吧”</p>    <p>“好的，谢谢你”</p>    <p>“嗯。。站着嘘嘘”（连怎么上厕所也要你告诉我嘛？）</p>    <p>“知道啦，拜拜”</p>    <p>讲了个段子。回到正事，视频中我们看到的智能音箱是米家生态链 Yeelight 语音助手，这是个双 AI 系统，同时搭载了小爱同学和微软小冰。这是搭载微软小冰的第一款智能音箱，也是微软小冰在国内落地的第一个智能硬件。</p>    <p style="text-align:center"><img alt="微软发大招：要做智商和情商兼具的语音助手" src="https://simg.open-open.com/show/6585d04684711a6e4af78c20a8495958.jpg" /></p>    <p>近来，BAT 都在积极将人工智能语音助手落地智能硬件。阿里的天猫精灵在去年双 11 以 99 元的低价卖出 40 多万台；百度推出带屏幕的智能音箱“小度在家”；腾讯发布了自己的人工智能语音助手“叮当”，与长虹电视展开合作。当然，我们还不能忘了京东的“叮咚”和小米的“小爱同学”。</p>    <p>大家都在忙着布局语音助手的软硬件，期望抢夺智能家居场景的入口。在对话式人工智能领域耕耘多年，还没有硬件落地的微软也终于坐不住了。 </p>    <p>去年 12 月，微软发布与小米合作的米家生态链 Yeelight 语音助手，就在上周，3 月 22 日，微软（亚洲）互联网工程院宣布推出新一代的语音交互技术：全双工语音交互感官（Full-duplex Voice Sense）。视频中我们看到微软小冰的对话能力有了显著提高，比起同类语音助手更能实现自然流畅的对话式交流，全靠这个底层技术。 </p>    <p>3 月 28 日，微软召开交流会，向媒体展示了 Yeelight 语音助手，从底层框架全面分析了全双工语音交互感官技术，同时讲解了微软在人工智能语音助手落地智能硬件上的思考。</p>    <p>雷锋网也参与了交流会，我们看来，以下几点交流会上的内容可以划重点关注讨论（以下这些技术干货希望你们玩小冰时用不上）：</p>    <ol>     <li> <p>从底层框架上面，全球的人工智能语音助手从 Turn-Oriented 向 Session-Oriented 进化，微软的 Session Oriented 框架如何使得微软小冰持续聊天 20 分钟以上，能在闲聊的同时完成指令?</p> </li>     <li> <p>IOT 和智能家居场景向对话式人工智能提出了新的要求，微软新的全双工语音交互、且支持 Session Oriented 的对话式人工智能如何带来更轻松自然的聊天体验？</p> </li>     <li> <p>大家都在抢发硬件，微软着不着急？微软在国内外如何将对话式人工智能落地 IOT 和智能硬件，如何搭建硬件、软件和生态系统？</p> </li>     <li> <p>人们到底需要一个什么样的智能硬件？什么样的智能硬件会成为家庭生活的控制枢纽？</p> </li>    </ol>    <p><strong>Turn-Oriented 向 Session-Oriented 的进化</strong></p>    <p>手机或者是电脑上的苹果 Siri 和微软小娜我们都已经熟悉，现在亚马逊的 Alexa、阿里的天猫精灵、京东的叮咚以及小米的小爱同学都摇身一变“住进”了智能音箱里。但是其实在人与语音助手的对话体验上来看，体验都相差不大。用户要发音清楚、一字一顿地说话，才能被理解，这种体验可以用一个词来形容——费劲。</p>    <p>在微软看来，这种“费劲”不只是前端表现的问题，而是底层框架的问题。微软小冰全球负责人，微软亚洲互联网工程院副院长李笛在分享开始就说，“坦率讲，国内对人工智能整体的发展更像在堆积木，而没有特别多探索到底层框架的设计。”</p>    <p style="text-align:center"><img alt="微软发大招：要做智商和情商兼具的语音助手" src="https://simg.open-open.com/show/e8ff1393850f88873327b186538ff21d.jpg" /></p>    <p>他介绍到，在全球范围内，从基础框架的基本理念来看，目前的对话式人工智能可以分为两种。第一种：叫 Turn-oriented（面向单一任务的框架）。第二种：Session-oriented（面向对话全程的框架）。”目前，大部分的语音助手都是 Turn-oriented 框架。</p>    <p>非死book 的M也曾向 Session-oriented 升级，但是后来放弃了，转为开发“闲聊模式”。亚马逊的 Alexa 目前正在研究 Session-oriented，其特意召开了大赛，如果谁能使得 Alexa 能持续聊天超过 20 分钟，那么就会获得巨额奖金。苹果最近也在考虑是不是要把原来 siri 的框架废止掉，然后切换到一个新的框架。这说明苹果要做的事情并不是针对一两个功能、技能或者是一些知识图谱去做调整，这样不用废掉整个框架。从 Turn-oriented 到 Session-oriented 是技术底层框架的变化。</p>    <p>Session-oriented 到底能给对话式人工智能带来什么样的改变呢？下面这张图可以很直观地解释 Turn-oriented 和 Session-oriented 的区别。</p>    <p style="text-align:center"><img alt="微软发大招：要做智商和情商兼具的语音助手" src="https://simg.open-open.com/show/f6d7c8c60c94a93f87a6c2211417ea36.jpg" /></p>    <p>Turn-oriented 面向单个任务，一问一答，能很迅速地、通过最少的多功能对话帮你完成任务。在 Turn-oriented 的框架下，每一个对话就像是一个十字路口一样，你每发出一个指令，助手就把你带向一个目的点，然后又回到路口中央。当助手不能回答问题/完成指令时，一般会用搜索引擎直接给出搜索答案。体验过 Siri、微软小娜的人都有感触，一两个简单问题还好，想多说几句几乎是不可能的，而且时常感到“很尴尬”，还有一些挫败感。</p>    <p>在 Session-oriented 框架下，对话不只是命令，而是混合的，在闲聊的过程中它还能完成每一个任务，更接近人与人之间自然的对话。“对话像河流一样，我们认为任何的一个自然发生的对话，都是混合的，她就像河流一样，从一个 Turn 往下一个 Turn 走，这个 Turn 可能跟任务有关，但是这个任务之后可能会进入到进一步的交流。随着进一步的交流有可能引发出新的人物，然后再随着新的任务引发一些知识的了解，然后走下去，持续流转。”</p>    <p>视频2：<a href="https://v.qq.com/iframe/player.html?vid=u0618nw1syf&tiny=0&auto=0">https://v.qq.com/iframe/player.html?vid=u0618nw1syf&tiny=0&auto=0</a></p>    <p>雷锋网体验 Yeelight 发现，Yeelight 中的微软小冰已经做到一次唤醒，平均连续聊天超过 20 分钟。在与小冰聊天过程中她也保持倾听，可以打断她说话让她去关灯、设置闹钟，在她完成任务后可以再然后再回到闲聊，或者回到唱歌、讲笑话、讲故事的功能模式中。 </p>    <p>李笛解释到，“Session-oriented 的框架并不只要求你对话时间长，她的问题在于这个系统从底层的基础框架上，是不是能够随时准备好接受一个可能发生的情况……从底层技术看，Turn-oriented 的发展是有上限的，这是为什么大家开始逐渐向我们已经布局的 Session-oriented 的方向来转过来的原因。1 年前，微软给 60 多万个人打电话测试全双工语音交互的时候，状况惨不忍睹，但是当我们跨过技术瓶颈，其发展空间就很大。”</p>    <p><strong>全双工语音交互感官</strong></p>    <p>微软从四年前开始同时布局两种框架，微软小娜是 Turn-oriented，微软小冰是 Session-oriented，但是当时，两边的技术都还不足够。全双工语音交互技术补上了 Seesion-oriented 框架的最后一个环节。</p>    <p style="text-align:center"><img alt="微软发大招：要做智商和情商兼具的语音助手" src="https://simg.open-open.com/show/ac211e4e25b47e37050382f264430335.jpg" /></p>    <p>微软对全双工语音交互技术的解释为：与既有的单轮或多轮连续语音识别不同，这项新技术可实时预测人类即将说出的内容，实时生成回应并控制对话节奏，能理解对话场景在诉说者/倾听者之间实现角色转变，还可以识别说话人的性别、有几个人在说话。</p>    <p style="text-align:center"><img alt="微软发大招：要做智商和情商兼具的语音助手" src="https://simg.open-open.com/show/dc6beb5eba7423931e8c438179596b03.jpg" /></p>    <p>微软小冰首席架构师周力说，国内大部分的语音助手在 IOT 上采用的是单层交互，通常都是一问一答，用户说完一句话，然后只能音箱才能回答，或者是智能音箱在说话的时候，是没法接受新的指令的。这种是半双工，跟语音助手对话就如在拿着对讲机讲话，无法实时得到对方的反馈特别费劲。而全双工能实现一直听加一直说，听和说都是一直持续动态进行的。</p>    <p>全双工语音交互背后主要有两个关键技术：一个是预测模型，实现边听边想；例如，当用户说出一句话的时候，小冰会先回答“嗯，你说”，然后再去完成指令，这样就可以填补完成指令的空白时间。</p>    <p style="text-align:center"><img alt="微软发大招：要做智商和情商兼具的语音助手" src="https://simg.open-open.com/show/d6cd2d97413ccc95c83edba02fb58f4b.jpg" /></p>    <p>另一个是生成模型，能更好理解场景，自动生成回复。正常的对话都不是单向的一问一答，小冰也会在适当的时候主动提供内容，并且能知道在用户完成指令沉默几秒后自动结束对话。周力介绍到，现在运用了全双工语音交互技术的微软小冰的所有回复都是自己生成的，有别于传统的基于模块、搜索来进行的回复。</p>    <p style="text-align:center"><img alt="微软发大招：要做智商和情商兼具的语音助手" src="https://simg.open-open.com/show/3cdfcf53e7a44b012bbc9ba5335a1ae7.jpg" /></p>    <p>在周力看来，在电脑、智能手机带动的 IM 通讯时代下，人们习惯了远距离的、隔着屏幕的消息的发送和接收，而对话式人工智能和智能硬件把人们拉回了一种非文字的，纯语音交流的状态。但是目前大家在设计对话式人工智能的时候，还是根据消息的一来一往来设计的，而不是一种连续的交互的状态。在无屏幕的语音交互中，应该摆脱消息式的对话，进入连续交互的对话。</p>    <p>全双工语音交互技术已经首先在微软小冰全球产品线中落地。其中在中国市场，已经应用在中国科技馆的小冰电话亭、米家生态链 Yeelight 语音助手。在日本有小冰凛菜的直播平台，还有车载智能项目，未来六个月会覆盖而更多产品线。</p>    <p><strong>微软语音助手 IOT 之路</strong></p>    <p>从前面的分析我们可以看到，微软对人工智能语音助手落地智能硬件是有备而来。李笛谈到：“在 3 年前，国内很多人工智能的硬件设备就来找过我们了，我们之前是拒绝的，那时候还没有准备好，我们不想把时间放在一定会被取代的框架上……整个这个行业，尤其是中国，有一个比较大的特点：特别担心自己落后。但是实际上在整体框架上有很好部署的话，才是真正能够领先时间。”</p>    <p>微软小冰一直活跃在微信、Line 等即时通讯软件上，而微软深知 IOT 和 IM 对对话式人工智能的要求不同。在 IM 上，小冰的延迟、插科打诨更容易被接受。</p>    <p>亚马逊在国外以硬件+软件+内容生态的办法在 Alexa 上取得成功后，国内的智能音箱大战早已打响，从人工智能语音助手开放平台、Skill 平台到内容生态，多方齐上阵。那么在底层技术上准备好的微软，有怎么样的布局呢？</p>    <p>李笛坦言到，他们很清楚自己在中国没有内容资源、落地平台的优势，但是，在人工智能的底层技术的框架上是有足够的信心。</p>    <p>Yeelight 中的微软小冰目前具备的功能有：连续聊天、控制智能设备、日常查天气/时间、设置闹钟/提醒、唱歌、讲故事、读心术、猜歌名。陪聊和娱乐的功能很强大，但是目前还不能播放音乐、收听新闻、电台频道等内容。</p>    <p>而李笛说，虽然各个智能音箱都在强调自己的 Skill 有上百个，但是这些独立的功能，对微软来说是跟简单的，难的事情是如何能够构建出一个很完整的系统，这个我们已经做到了。我们缺内容，其他人缺好的系统。</p>    <p>李笛提到微软语音助手落地智能硬件的几个方面：</p>    <blockquote>     <p>第一，我们提供 AI 的 solution，跟其他的 API 相比，这个 solution 真正关注终端产品体验。</p>     <p>第二，提供一部分与 AI sulution 相关的内容，包括其它的资讯、资源进行整合。比方说它有相应的内容服务的东西，我们可以负责 task trigger，像之前的米家生态链的 APP 就是，它的几十种设备，我们都负责对接。</p>     <p>第三，自创的内容。例如我们现在有的“小冰姐姐讲故事”。现在，90% 以上儿童的可交互的机器人，都有小冰姐姐讲故事的内容。我们既是一个 AI assistant，同时我们又是 content provide (内容提供商）。</p>    </blockquote>    <p><strong>未来的智能硬件</strong></p>    <p>在这次交流会，微软聊了很多底层技术的干货，给大家讲了新一代的对话是人工智能的进展，在某些方面着实让人兴奋。但是冷静下来一想，智能硬件的发展其实更为复杂，现在一切都尚未清晰。</p>    <p>虽说全双工语音交互这样的底层技术应用范围很广，但是大家目前争夺的焦点依然在于智能家居场景。音箱、电视、电冰箱、顶灯这些常见的家居设备，哪一个会成为日后的中枢呢？这些硬件里以后会有多少个 AI 呢?</p>    <p>微软小冰部门对硬件很冷静。李笛谈到，目前智能音箱的成功和 AI 的成功是两件事情，由于产品设计、价格、渠道、补贴等市场策略都会影响智能音箱的销量。但是我们也知道硬件都有换机周期，即使你现在拥有一个市场份额，但是等到有真正强大好用的 AI 出现时，你就很可能会被替换掉。</p>    <p>“尤其是在人工智能，包括像 IOT 这种设备，我们见过太多的。它其实有很好的入口，你不能不说 siri 有很好的入口，你不能不说国内的各个企业有很好的入口。但是有入口其实不代表你就能做出产品，百度那么大的入口，你也没有很好的产品的话，你何来生态。微软过去特别强调我们是平台，我们做很多平台。但是我们现在恰恰越晚谈平台化越好，我们希望把端到端先走通，我们能实现一个效果。”</p>    <p>但是，人们喜欢的 AI 助手究竟是什么样子呢？把各种 Skill 都塞到智能音箱，把智能音箱当遥控器、当播放器、当成各种工具就一定不受欢迎吗？所有人都会期望与 AI 助手有良好的聊天体验甚至情感交流吗？雷锋网在体验小冰一段时间后感觉到，小冰的聊天体验确实好于其他的 AI 助手，但是目前还不能播放音乐着实令人觉得可惜。以后的小冰会把各种技能都学到手吗，那个时候小冰还是小冰吗？这些问题都值得我们继续思考、探索。</p>    <p>在交流会的最后，大家还是免不了提到电影《Her》，畅想未来的语音助手如剧中的塞曼萨一样既可以帮助男主打理生活事务，又可以陪伴、交流给予情感的支持。嗯，还会自己作出判断，在合适的时机主动消失，做一个会让人心碎的 girl 的 AI。</p>    <p style="text-align:center"><img alt="微软发大招：要做智商和情商兼具的语音助手" src="https://simg.open-open.com/show/eacf448dc0e8ff9231c998aed4d3bc7e.jpg" /></p>    <p>来自: <a href="/misc/goto?guid=4959012977009139362" id="link_source2">雷锋网</a></p>
微软发大招：要做智商和情商兼具的语音助手

相关资讯