Google的伟大征程之二:知识图谱
在上一章节《Google 的伟大征程之一:如何攀登移动互联网这座高山》中,我们看到了 Google 曾经的辉煌,如今隐隐显现的危机,以及自身不断做出的努力。在这一章节,我们将详细介绍它其中的一款具有战略性意义的产品:知识图谱。
三叉戟
Google 在大的方向推出了三个实质性的科技突破,正是这三者,将继续确保 Google 的霸主地位。其一就是 Google 所开发的「知识图谱」(Knowlege Graph),这是 Google 从世界范围内将数据进行全面整合之后的产品。一旦有了它,你就会更加深切、直观、全面地了解这个世界。其二则是 Google 的语音控制功能。辛格尔面向我,抬起他手腕上的三星智能手表给我说道:「为什么要开发这个功能?因为我无法在这款手表上打字。就是这么简单。后来我们觉得 在预测人们想要问什么的背后是应该由一些成系统的学问的,所以我们又开发出来了 Google Now,这样人们不用老是问来问去了。」而 Google Now,就是第三款产品了。
知识图谱在一个超级大的数据库中重新整合世界的信息。语音搜索功能彻底将「说话」纳入到了搜索领域。而 Google Now 能够让人们在还没来得及提问的时候就已经给了人们想要的答案。这三者的出现绝对不是巧合,完完全全与 Google 瞄准移动互联网的发力有关。尽管整个公司研发战略上并不仅仅就包括这三者,但是我们已经看到了曾经的巨人,那个曾经只能给出「十行蓝色链接」的搜索引擎, 单凭这三点内容就开始蜕变成另外的主宰者。它的功能表现不能再用计算机来形容,而更像是一个由信息组成的「智能蜂巢」,一个能够解读并且满足你的信息需求 的强大工具。当你还没有注意到它的时候,它就已经布局完成。
知识视图的起源
在 2010 年,Google 收购 MetaWeb 公司的时候,大家都没怎么注意。但是如今看来,当年的那次收购确确实实影响了如今搜索领域中很多重大的改进,在曾经简单的「十行蓝色链接」之上附加了丰富 的类似于卷宗档案一样的内容,涉及人物、地点、物品等等,一应俱全。
MetaWeb 是当时著名的计算机科学家及创业者丹尼·希尔斯(Danny Hillis)在 2005 年创建起来的。他曾经的公司叫做 Applied Minds,在这个公司丹尼·希尔斯曾经开发了很多创新项目,然而其中有一个项目尤为让他觉得意义重大,以至于准备开设另外的一家公司独立运作这个项目, 这也就是 MetaWeb 公司的起源。它于 2007 年创建。该公司在当时被称之为「语意网络」中进行首次重大探索
说这么学院派大家也许还是一头雾水,简单点儿来说,就是用某种方式将多个数据库进行加工,将其整合到一种格式中。在这个格式下的信息会非常容易 解读,就像是所有的东西都被收集打扫到一个巨大的贮藏室里一样。希尔斯表示:「我们正在创建世界的数据库,一个能够容纳世界全部信息的地方。」鉴于那个时 候 AppliedMinds 已经开始扫描互联网来提供问题的解答服务,不少人认为 Metaweb 都是 Google 最强有力的竞争者。但是过了几年,该公司融资了 5000 万美金之后,希尔斯意识到他头脑中那个绝妙的、宏伟的想法只可能成为一个更加强大的公司中的一部分,它只能在那个公司的羽翼下才能破茧成蝶。那个公司,名 叫 Google。
那个时候,其实 Google 也在为问题提供一些直接了当的答案。比如,如果你打美国总统巴拉克·奥巴马的生日,它很快就能响应,在搜索结果的最上方显示正确的日期:「1961 年 8 月 14 日」。但是,当 Google 在 2010 年的 7 月份,在其博客上宣布对 Metaweb 的收购时(其中也包括收购 Metaweb 的那包括了 1200 万条容纳人物、地点、事物信息的数据库),它的搜索引擎还没有回答复杂问题的功能。你如果打出类似的问题:「西海岸那些学费低于 3 万美金的学院有哪些?」又或者「至少获得一届奥斯卡奖,现在已经年过 40 岁的演员都是谁」,Google 是没有办法给出答案的。同时,Google 在博客上向外界宣布,对 Metaweb 的收购会有助于提升这个功能,届时 Google 将会针对这种极其复杂的问题给出非常准确的答案。
Google 曾经的产品经理艾米丽·莫克斯利(Emily Moxley)接受采访时表示:「当 Google 收购了 Metaweb 的时候,Google 是非常明白收集所有信息对于搜索是多么重要的一件事。在人们所关心的问题上,它能够给出最快的摘要和最准确的信息,这是最明智的选择,当时我们都是这么认 为的。」
开始不断成熟的知识图谱及其背后的意义
在 2012 年 5 月,Google 推出了从 Metaweb 中衍生而来的东西,它的名字就叫做 Knowledge Graph(知识图谱),它从 1200 万个条目已经暴涨到了 5 亿个条目。这个产品会给你搜索的内容提供另外一种附加的衍生出来的结果。当你搜索某些关键词后,如往常一样下面出来了很多排列好的链接,但是在最右边,它 会针对你所提供的关键词给出一组信息,这些信息与你所查询的词高度相关,往往对你来说更加有用。
那么到底哪些搜索字词能够触发这个知识图谱呢?哪些搜索字词值得触发呢?莫克斯利是这么解释 Google 的做法的,她拿在维吉尼亚州,位于 Rickmond 的洲际高速公路来做比方。如果是从东北方向而来,要去向弗罗里达州的游客们应该都知道,就在 Richmond 的北边,路线 95 的岔口那儿会有一个标示,告诉司机们你可以选择走南北方向的主干道,直接穿过市中心,又或者选择上 295 号线,这条线围绕城市一圈,然后再与 Richmond 南边的 95 号线汇聚起来。
具体到搜索领域,当你开始查询一个字词,Google 会将其扩展为具有高度相关性的一组字词还有同义词,然后对这些衍生出来的词语进行一次算法测试,看是否符合知识图谱上的结果。这就相当于提前在 295 号线上转了一圈,在选择 295 号线还是 95 号线的时候,系统已经给出了最具价值的路径,如果绕着 295 号线能看到更多有趣的风景,那么系统自然会给你呈现出知识图谱的相关内容了。
自 Google Search 将知识图谱完全整合进来之后的两年多的时间里,公司一直持续地改善这款产品。当然,Google 官方并不会说搜索字词到底有多少的比例会触发知识图谱的内容,但是大致上我们可以估计得出来应该起码有 25%。一开始,知识图谱只是一些简单的数据,但是这个产品开始不断的自我进化,复制了 Google Search 中自我学习功能,开始分析用户的上网习惯。
举个例子吧。如果你询问:「谁在《星球炮弹》这部电影中扮演了 Barf 这个角色?」因为系统已经在你发问之前看到无数人都提出类似的问题,它就会自动给出一个图表,里面有演员的姓名 John Candy,电影名称还有演员的照片。你也可以自己去试试这个把戏,打出「某部电影里的某个角色是谁扮演的?」看看系统是多么快地给出答案。
知识图谱同样还在另外一个重要领域带来进步。那就是信息的及时性。鉴于 Google 往往是对一个问题仅仅提供一个正确的答案,那么这唯一的一个答案一定要保证是最新出现的,否则它就不可能称之为最正确的答案。由于信息的不及时所导致的后 果,还不如用户压根不去搜索。莫克斯利表示:当知识图谱在 2012 年第一次出现之前,大众汽车如果决定聘请一名新的 CEO,系统估计需要两个星期的时间才能把这个消息反馈在互联网上;而如今知识图谱的出现,整个系统在处理接收这些新闻,做出及时调整上只需要几分钟就能 做到。但是知识图谱并非能够满足所有人的需要。信息传递时也会出现误差。比如大众公司已经决定聘请某某成为新 CEO,可是这哥们儿在后面的几个月一直没有到位入职,所以知识图谱所显示的仍然是现任 CEO 的信息,这对于很多想要查找新 CEO 信息的人们来说就极为不方便。
除此之外,知识图谱还在不断增加新的知识领域。最近它将汽车领域、视频游戏领域、雨果奖获奖人员信息全部纳入其中。Google 不仅仅满足于向人们提供简单的事实,它已经不再仅仅是追求更快的搜索相应速度,给出一些高度相关的信息,它要给出更加复杂,高度集合化的搜索结果。莫克斯 利表示:「人们往往关心的不仅仅是事实本身。他们更关心一些主观的意见看法。比如这个电视剧是不是好看。这些意见会让知识图谱更上一层楼的。」这样做,似 乎 Google 是不想让你觉得它只是一个随手一番的字典或者查询极其,它更想扮演一个天上地下无所不知的先知,不仅仅是了解天文地理这些客观的知识,不仅如此,这个先知 还精通人世间所有的文化。
知识图谱目前也是存在短板和缺憾的
但是知识图谱还有相当长的路要去走。大家从知识图谱上所获得的满足催发出了更高的期待值,然而这些期待不断落空,转化成失望和沮丧。莫克斯利就 曾经非常气恼,因为她发现知识图谱虽然知道某个电视剧,但是它却不知道这部电视剧最新季的信息以及它们什么时候会播出。她说:「我其实就是想要它给我一个 提醒,告诉我本周我所喜欢的电视剧的新集开播啦!我同样也想知道在哪个网站能看到它。但是目前知识图谱还做不到。」不过她表示最终 Google 能彻底解决这些问题。
说到令人失望的部分,估计还有曾经提到过的 Google 信誓旦旦所做的保票。它曾说:以后你只要提出诸如:「西海岸那些学费低于 3 万美金的学院有哪些?」又或者「至少获得一届奥斯卡奖,现在已经年过 40 岁的演员都是谁」这样的问题,Google 能给你一个圆满的答复。但是直到四年之后的今天,Google 仍然没有办法做到这一点。
在下一章节,我们将介绍另外的两个产品:语音搜索及 Google Now,敬请关注。