Siri将改变什么?

fmms 13年前
     Siri 绝不仅仅是一种精确的语音输入方式,它将是一次人机互动新革命的序章。    <p> 在10月2日的苹果产品发布会上,iPhone 4S 的技术升级幅度可谓令业界失望。然而,被苹果定义为“私人语音助理”来做压轴功能发布的 Siri 应用,仍然是抓足了人们的眼球。在很多“果粉”眼中,它被认为是替换掉 iPhone 4 的唯一理由。</p>    <p style="text-align:center;"><img title="Siri将改变什么?" border="0" alt="Siri将改变什么?" src="https://simg.open-open.com/show/6fc71108c2e97909b9c57d52f0fb2be2.jpg" width="340" height="349" /></p>    <p> 在发布会上,苹果宣称 Siri 可以支持自然语言输入与识别,用户可“命令”手机读短信、询问天气、设置闹钟等,并且可以搜寻餐厅、电影院等生活信息,甚至是直接订位、订票;另外其与 LBS 结合服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。</p>    <p> Siri 目前仍然是 beta 测试版,并且只支持英语、法语和德语。虽然互联网上一系列折磨 Siri 的视频端子曾出不穷,但被苹果这样的企业推出进行商用,已经意味着“语音识别”——这一已经不算新鲜的科技,进一步实现了人工智能化进而向“语义识别”又迈出了一大步,同时意味着第一款基于它的改变大众生活的消费级产品已经诞生。</p>    <p> 语义识别是人机交互的再一次里程碑,虽然数十年间它的研究进展仅限于对自然语义识别的精确度的提升,但它一直被视为是人类实现非接触式控制机器的第一步。</p>    <p> 巧合的是,进入信息时代以来,键盘(命令行)到鼠标(快捷键),鼠标到多点触控——这两次人机交互的里程碑式的革命都是由苹果公司所引爆。如果此次 Siri 真的能够如苹果所说,在精确识别自然语义的基础上,其智能化程度能够达到替用户精确分析、选择而真正成为助手的地步,那么苹果公司将再次激发人机交互的伟大革命。</p>    <p> <strong>语义识别的历史</strong></p>    <p> 使机器识别语言是人类早已有之的科技幻想,并且早有实践足迹。早在1920年,美国一家公司所出品的名为“Radio Rex”玩具狗便可以“听从”主人的话而执行走或者停的任务。</p>    <p> 不过在这之后相当长的时间里。这项科技的进展仅限于如何更多、更精确地识别各种口音,进而执行诸如文字显示等十分简单的任务。</p>    <p> 1952年,贝尔实验室的 Davis 等人成功研究出了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在进入了上个世纪70年代以后,在孤立词和小词汇量句子的识别方面取得了实质性的进展。</p>    <p> 进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。此时语音识别的研究思路也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路,亦即开始了跨学科的人工智能研究道路。</p>    <p> 进入90年代以后,语音识别的研究并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展,诸如听写机等基于语音的信息输入设备此时大量出现。</p>    <p> 由仅限于定义为输入法功能的语音识别,向包含后台数据分析的语义识别转型的关键推动力量,是美国的 DARPA (Defense Advanced Research Projects Agency)计划。</p>    <p> 显然,语义识别技术蕴含着着人机互动的远大前景,也因此拥有各方足够高的评价和期许。但它几十年来却缺乏足够的表现。而正是苹果公司往日给社会带来巨大变革的一系列消费级产品,使得当语义识别技术和苹果公司联系到一块的时候,人们不得不重新给予其重大期盼。</p>    <p> 实际上,苹果公司对类似工作的开展也不可谓不早。早在1987年,苹果就展开了类似的研究工作。如果你曾经读过李开复的自传《世界因你不同》,就可能会对在《今日美国》节目中,苹果出品的实验性语音识别设备 Casper“调戏”女主持的情节记忆犹新。</p>    <p> Siri 是从斯坦福大学的 SRI 国际人工智能中心(International Artificial Intelligence Center)剥离的一个项目,该研究中心隶属于 DARPA 的 CALO 子项目。实际上,Siri 的联合创始人兼工程副总裁 Adam Cheyer 正是 CALO 项目的首席架构师,而 CTO Tom Gruber 也是出身斯坦福大学的人工智能、语义网专家。同样孵化于斯坦福 SRI 的还有知名的语音识别开发公司 Nuance。</p>    <p> 2010年初,苹果收购 Siri,收购价据称是2亿美元。</p>    <p> <strong>Siri 的无限可能</strong></p>    <p> 当苹果刚刚收购 Siri 之时,人们评价它只是一个更好的语音识别工具。然而,事实并非如此。</p>    <p> 多年以来,大众所能接触到的语音识别技术,每年都以缓慢的步伐进步着,不过这种进步的含义仅限于识别准确率,换句话说,它们仅是一种不断提高准确率的输入法。</p>    <p> 实际上,在多年以前,IBM 的语音识别软件在 PC 上就有不错的识别率了,而微软名为 Tellme 的项目也持续了多年。腾讯最新推出的 QQ2011 版开始支持语音输入,而中国科大讯飞出品的“讯飞语音输入法”更是 Android 设备用户所追捧的热门工具应用之一。</p>    <p> 然而,即使达到100%的准确率,仅限于输入法功用的语音识别也无人机互动的意义,它并不是革命性的。</p>    <p> 而 Siri 所展示出的在准确语音识别的基础之上,进行语义的智能分析判断,并且实现系统功能和后代数据(包括个人偏好和历史记录)的调用,实现所答即所问与服务即所想——真正实现助理的功能,从识别,执行,再到互动之间的飞跃,这些才是 Siri 的革命性所在。</p>    <p> 与谷歌的 Voice Actions 等相似应用不同,Siri 使用户可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,它会结合上下文结构去分析判断,它甚至能理解许多含义模糊或者引申的语义。</p>    <p> 要做到这一点,搜狗 CEO 王小川认为需要五个方面的配合:一是对自然语言理解,归纳为“懂”;二是在人机交互的过程中,需要反问确认来降低误差,这个过程称为“问”;三是人机交互还需要根据上下文进行判断和推测,这可以理解为“猜”;除此之外,整个软件系统还需要具备持续的学习能力和良好的扩展能力。</p>    <p> 虽然苹果没有公开 Siri 更多的技术细节,但是一些实用的例子已经体现出了 Siri 不仅仅是个语音识别的软件。比如在一段 Siri 被苹果并购前的演示视频显示,当用户说“ I like a romantic place for Italian food near my office”(我想在办公室附近找一个浪漫的意大利菜餐厅)。</p>    <p> Siri 则回答:“I am looking for a Italian restaurants which reviews say are romantic near your wok in San Jose(从大家评论的结果来看,在你公司附近最浪漫的餐厅在圣何塞)…”</p>    <p> 这个回答说明 Siri 听懂了 romantic 是个形容词,知道 near my office 是个地方。并且,找到了以前存储的用户的工作地点。更关键的是,他知道怎么判断一个餐馆是否 romantic!——通过 Yelp.com 的食客评论。</p>    <p> Siri 的这种革命将会改变诸多既有格局,并且进一步解放科技力量。首先,从产品的科技属性上说,Siri 将肩负起苹果公司引爆第三次人机互动革命的重任。我们完全有理由想象:在键盘、轨迹球相继在移动终端上消失之后,虚拟键盘也即将消失,甚至菜单功能项也一并会消失了。</p>    <p> 其次,从产业格局上说,Siri 将会成为使苹果公司继续保持优势的利器。目前,从 Android 4.0 和 Windows Phone 7(WP7)的芒果系统来看,谷歌和微软在移动终端领域正在缩小与苹果的距离,而苹果的 iPad 2 和 iPhone 4S 却相继使“果粉”失望。这其实也是不可避免的,毕竟硬件的持续创新是有一定极限存在的。</p>    <p> 此时,Siri 被苹果所适时地祭出,有望再次提高 Android 和 WP7 设备和 iOS 设备进行竞争的门槛。谷歌的 Voice Actions 也是具有后台功能调用的类似应用,然而,当硅谷编辑们打开 Voice Actions 时会说 “send a text to Mike”,而拿到 iPhone4S 时他们则会用“ I Love You”在测试 Siri 的强大功能。在这一点上来看,被用户开心“调戏”的 Siri,其实已经领先其他的产品进入智能的阶段。</p>    <p> Siri 的威力还将从谷歌的核心业务——搜索中抢夺地盘。比如,你可以通过吩咐 Siri 来打开 Yelp 的 Reviews 与进行 OpenTable 的预定,那还要 Google 搜索干什么?从这个意义上说,Siri 并不是社会化搜索引擎(比如 Google 收购的 aardvark),却胜似社会化搜索引擎。</p>    <p> 更为重要的是,Siri 将为苹果带来巨量的用户数据。而这些数据是其他竞争对手所无法得到的。也正是基于此,对于苹果公司来说,Siri 有望强化它的三个弱项——云计算、社交、家庭娱乐设备。</p>    <p> 如果苹果的10万名开发人员在 Android 开发人员之前得到这些数据,Android 和 iOS 竞争的结局便可想而知。可以肯定的是,Siri 将不仅仅是一个应用程序,它同时也是一个自然用户界面系统,它使得服务器端可以整合来自大量开放 API 的数据。甚至,由于占据用户与数字设备和互联网的第一触点,一个“应用导航”甚至“Siri App Store” 也不是不可能出现——当你说:“我要看关于奥巴马的新闻”,Siri 调用出的会是谁的新闻网站或者是新闻应用?这将是很有意思的事情。</p>    <p> 在苹果发布 Siri 之前,Siri 的联合创始人 Norman Winarsky 在接接受媒体采访时如此预言 Siri 的未来图景:</p>    <p> “毫无疑问,苹果的虚拟个人助理是开创性的,这是一个改变世界的事件。在技术方面,Siri 至少领先竞争对手2年,因为这不是个语音识别软件,而是真正的、可商用的人工智能技术。”</p>