Google的伟大征程之三:语音控制及 Google Now
译者注:
在《Google 的伟大征程之二知识图谱》中,我们聊了知识图谱的起源,发展以及背后存在着的重大意义。现在,让我们再来看看其他的两个科技产品:语音控制及 Google Now。它们究竟会给 Google 的明天带来怎样的曙光呢?
瞄向未来的「语音控制」
在意识到数字移动科技将席卷全世界的趋势之后,Google 在自身搜索领域做出了一个不起眼,但是绝对意义重大非凡的举动。Google 不再将搜索关键词作为指引系统进行下一步的指令,它将所有的输入都当做是人机对话的一部分。本·葛默思(Ben Gomes)拿起自己的手机开始解释:「很明显,当你拿着这样的数字设备时,语音控制会变得非常重要。人们说话比打字会更加自然,也更加符合人性化的需 要。」
这种变动不仅仅让搜索引擎处理搜索请求的方式大大不同,它还意味着改变我们用户本身的使用习惯。我们现在要试着对空白的搜索区域说话,无论是电脑还是手机,你要将其当成一个人来似的说话。
想要做到这样的转变需要两个先决条件。第一点,Google 的搜索引擎必须在语音识别上下大工夫。它必须要做到像人一般的去理解与文字相比更加混乱暧昧的口语,准确的将语音分解成正常的语法结构并且解读之;第二 点,当人们对着手机说话,又或者机器将语音转化成文字的时候,系统能够了解到之前人们之前在谈论什么。即当时的语境是怎样的。曾经 Google 就在语音识别领域尝试了一番。项目经理耶叔华表示:「我们在很多年之前就相信语音、自然语言处理都将是非常重要的科技领域。它们都有一些技术瓶颈制约着发 展,需要几年时间去开花结果。所以那个时候我们就已经投入到其中了。」
曾经就有一个名为 Google 411 的服务,它做的事情就类似于电话黄页公司。用户拨打了电话,就能找到比如某个餐馆或者联系人的联络方式,当然这也是收费的。在这个过程中,Google 将数百万的电话录音收集起来,然后将这同一种语言(英语)转化成不同国家和地区的语言以及各种各样的口音。这项技术在后来被证明是非常有用的。之所以当时 并没有受到人们的重视,主要是因为 Google 在当时还没有采集到 2500 个左右的短语,这些短语会帮助它从语法上对语音进行逐句的解析。那个时候公司派出去很多小组,去往全世界各个地方,告诉那里的人们公司准备采集语音样本。 无论是在香港街头,还是巴黎的地铁站,都能看到 Google 小组成员忙碌采集语音样本的身影。
这样的付出是有回报的。Google Search 现在可以处理 159 种语言,语音搜索能够处理其中的 58 种语言。Google 还宣布其 app 应用的「单词错误率」已经下降到了 8%。辛格尔的助理本·戈米斯(Ben Gomes)很骄傲的见证了 Google 在此处的进步。之前公司曾经找来一个专家,一个能够操持最标准的美国口音的家伙来给 Google 语言识别做测试。而戈米斯是断然不敢上前去做什么口音测试的。因为出身印度的他的口音非常不标准,甚至 R 这个音都发不出来。现在,公司已经不需要那个标准美国口音的男人来做测试了,而戈米斯也能够欣然走上前来,对着机器做语音识别测试。Google 识别语音的水平由此可见达到了什么程度。
在手机对人进行反馈的时候,Google 也有自己的看法。这种反馈是应该倾向于以 Siri 为代表的拟人化,似乎具有人格特征的方式呢?还是要如机器人一般的语调,提示给人们别忘了你们是在跟一个机器,或者一个系统进行交流而非人 类?Google 选择了后者。Google 的搜索设计负责人威力表示,如果你真的想让机器表现地跟人一样,你必须掌握如皮克斯在动画世界里的大师一般的高超技艺才可以做得到。而反观 Google 本身在计算领域做出的对人的语言和行为的了解来看,已经让人们感受到足够舒服就可以了,不需要较真那么多。
当「语音控制」与「知识图谱」相遇
在 Google 的研发团队中,享有「荣誉科学家」美称,在自然语言处理领域研究了三十年的资深专家费尔南多·皮尔瓦(Fernando Pereira) 表示:Google 在如何识别搜索请求,以及将其与网络及其他地方而来的资料进行比对分析上已经到了非常高精尖的程度。但是加入诸如知识图谱这样的数据到搜索引擎中,既带来 了机遇又带来了挑战。「你很难保证你所使用的语言和当时设计的数据库能完全匹配上。」他这么说道。
这是很困难的。比如 Google 得到了这样的搜索请求:「巨人队在哪里比赛?」为了解答这个问题,系统必须事先了解很多事实。比如这牵扯到体育,一支在主场进行比赛的队伍。同时它还得做 出判断,这个「巨人队」到底是垒球队还是足球队?用户是想知道这支球队经常比赛的场地呢?还是在下个星期的比赛场地?Google 会利用用户曾经的上网搜索行为对这个答案进行进一步地修正。皮尔瓦说道:「所有这些推断而来的信息,所有校准之后的信息,这都是我们几年前不曾做到的 事。」
当然这一切还并不完善。当这一切障碍全部扫清的时候,Google 的自然语言处理系统就会将「知识图谱」提升到另外一个台阶上。戈米斯表示:这就让「知识图谱」有能力自行了解发掘这个世界。在搜索请求发出一半、又或者是 模糊不清的时候,Google 就能够猜到用户想问的是什么。戈米斯拿大卫·卡梅伦(David Cameron) 举例。如果一个人对着手机说出「大卫·卡梅伦」这个名字,系统已经知道这个词曾经被无数次的说出,这个名字的主人是个男性。所以在接下来的搜索结果中会使 用「他」这个代词。另外,如果手机就算没有正确捕捉到卡梅伦的发音,从模糊识别的角度出发,知识图谱会意识到你有可能在说的是英国首相。
如果用一句话来总结的说,那就是 Google 被使用得越多,它就越了解你。
现在,轮到 Google Now 登场了。
在 2004 年,我曾经采访过拉里·佩奇(Larry Page)以及谢尔盖·布林(Sergey Brin)。我问他们关于 Google 搜索的远景是什么。他们说,其远景就是当人们开始在想某件事,但是对这件事又不是很了解的时候,你会自动的得到这些信息。」
在 2010 年,巴里斯·格特金(Baris Gultekin) 以及安德鲁·柯斯米(Andrew Kirsme)这两位工程师就是在这样远景的鼓舞之下,开始了名为「百分之 20」的项目,这个项目在之后成为了 Google Now。
哥特金是这么介绍的:「这个项目之所以能够开启,是因为我们相信现在的手机还不是足够智能,但是它们都是能够升级成足够智能的版本的。如果你能将这些具有超强硬件水平的移动数字设备和 Google 的强大结合到一起了呢?」
换句话说,Google Now 会代替你来回答你要么出于懒,要么出于忙而没有机会问出来的问题。这个功能所涵盖的领域是如此的宽泛,需要集合多个领域的知识才能解决某一个摆在人们面前 的棘手难题。哥特金当时在开发这样一个系统的时候就立刻感觉到老虎吃天无处下爪。但是很快,他和他的伙伴就开始将所能提供解答服务的范畴缩小到了一个领 域:即人们通勤途中。不过即便范围如此明确单一,但是要完美地实现上述功能仍然需要大量信息进行支撑,比如家和办公的具体位置,两点之间最优的路径选择, 往返路途中的交通工具。当然知道如何正确导航的 Google Maps 在开发过程中起了很好的推动作用。很快,他们有了一款非常了不起的移动应用能够帮助人们更好地选择上下班的时间、路径和方式。但是古特金表示,他们当时不 想将这个移动应用做成简简单单的通勤 App,他们要将其开发成一款能够主动发挥作用的生活助手,帮助用户处理多个生活情境中的问题。
于是,在 2012 年的 7 月,Google Now 正式上线,其中包含了 7 大生活情境:上下班、飞机航班、体育赛事、查看附近地点、旅游、交通枢纽、以及天气。现在它已经从这 7 个领域扩展到了 70 多个。
Google Now 的作用就体现在将对世界万物信息的归纳汇总,所有 Google 搜索所能够提供的信息(其中也包括了知识视图),与大量存在着的个人信息进行连接。难怪会有人声称 Google Now 就是未来 Google 在现实中的提前映射。每一次 Google Now 都会在人们最需要的时候,及时地推送出来一张「卡片」。这个服务是建立在 Google 多项服务基础之上。一个标准的卡片包括了私人信息中的邮件、日历、联系人信息、公众运输系统、交通流量、以及天气。
人们往往都不太清楚 Google Now 的能力极限到底在何处。打个比方,当你把车停靠下来,Google Now 就会在那个特定的时刻记录下来你停车的地点,以防止你忘了找不到车停哪儿了,如果你的邮件显示你正在找附近能够住宿的房间,Google Now 就能够推送目前在你附近存在的空房,以便你挑选哪个才是今晚理想的过夜居所。当 Google Now 不断演进,它从之前的名字「20% 项目」演进成了全天候的服务项目。但是 Google Now 的开发在 2011 年获得了极大地推动,原因在于那个时候 Apple 推出了 Siri,这在 Google 公司内部造成了些许的震动。在这之后,Google Now 已经开始飞速进化,最终将让所有个人定制化的信息全部都能够在登陆后的界面中显现出来。古特金表示:「搜索和 Google Now 是两个相辅相成的服务。我们在你搜索之前就给你必要的信息,但是还有很多情况我们不知道你什么时候需要。搜索服务能够极大的帮我们弥补这一点,让我们更加 了解你。」
与旧版的搜索服务相比,Google Now 只有在你全面地使用 Google 的各项服务之后才能发挥最大的作用。拉里配奇曾经说过:「搜索就是理解你的需求,将你所需要的一切推送到你的面前。」这是一个属于 Google 完整的生态系统,将邮件、日历、地图、词典、Google Now 等各个服务全部整合到一起。如果你想使用 Google Now,而 Gmail 并不是你的首选邮箱,你估计不太可能充分享受到 Google Now 甚至 Google 搜索的最大化价值。
Google 很有目的性地设计 Google Now,避免让它成为一个独立的产品。它的 app 并没有贴上所谓「搜索」的标签,而是仅仅将其称之为「Google」。这也就能看出 Google Now 对于 Google 来说是具有多么重要性的产品了。
另外要指出的是,Google Now 的这款服务是一项可选择开启或者关闭的服务。每个人都可以在开启它之前会考虑一下后续所牵扯的个人隐私问题。这个产品所提供的服务无所不在,无时不在,很 难不让人担心起这个大公司在窥视着每个人隐私生活的点点滴滴。当 Google 对我们的个人生活和信息越来越了如指掌,人们开始觉得不安。这在欧洲体现地尤为明显。在那里,政府不断推出法案,开罚款甚至发出禁止从业的威胁来阻挡 Google 前进的脚步。Google 这家公司的雄心壮志很有可能被人们对隐私的担心而受到阻挠。即便是对于那些信任 Google 公司的人来说,斯诺登一案的出现,显示了政府离每个人隐私生活是多么得近。是啊,如果 Google 都能知道你的车在哪儿停着,那联邦探员有什么理由不知道呢?
阿密特·辛格尔表示:搜索的第一个时代是将人机交互的视觉化,但是人机之间仍然具有某些无形的「墙」作为主要特征。而现在的新时代,我们所逐渐 进入的这个全新的时代,人与机器更加交汇融合,曾经无形的「墙」开始消弭。我们期待搜索在针对个人信息给出的答案的有效性、准确性、及时性将等同于甚至超 过曾经的那个从无数的网页、文件以及公共数据库中挖掘信息的传统互联网时代。
辛格尔表示:「我认为搜索本身就是所有计算形式的交互界面。当所有的科技设备变得越来越小,越来越隐藏于人们的沈国里,你该如何与它们交互呢? 绝大多数的时间里,你需要采取某个行动,也许简单如播放一下音乐,简直复杂如写一个提醒告知处在杂货店附近的我去买牛奶,又或者发出诸如「我老婆的航班准 时吗?」以及「巴拉克·奥巴马究竟有多高?」这样的提问。
有些人会对这样的改变习以为常,视之为理所当然,还有一些人会开始抱怨 Google 已经不是从前他们所熟悉的那个 Google 了。所谓众口难调的涵义就体现在这里吧。辛格尔承认还有很多问题需要解决,但是他现在能骄傲的宣布,当再有孩子问出“天空为什么是蓝色”这个简单的问题的 时候,父母们不会再翻书,也不会趴在电脑跟前查找答案,Google 本身就能自动给出那个让幼小的好奇心满足的答案。
Google 的征程然而并非在此打住,在下一章节,我们会看到 Google 是以怎样夸张的方式来探寻人们的信息需求的。Google 不仅仅渴望了解整个世界,它更渴望了解人们的内心……