在这个多语言的世界里,知道你要搜什么吗?
所有类似 Google 这样的搜索引擎,核心处理过程都一样:从言辞寥寥的模糊问题中解读出最可能的涵义,从问题中推测出用户的意图,进而根据以上推测决定最优搜索结果,反馈给 用户。互联网的语言种类越来越多,丰富的语言多样性使得搜索的过程更为复杂。由于同一主题的相关搜索词汇在不同国家的语言中大不一样,宏观社会层面的搜索 数据的尝试遇到了挑战。本文中我将探讨 Google Trends 试图解决多语言问题作出的尝试以及其使用的方法的局限和冲突产生之处。
我们可以想象用户用 Google 搜索「pizza」的过程:用户可能想知道附近有多少家披萨店 (第一次来到这片区域),可能想知道今天的特价午餐列表 (用户已经知道附近的餐厅,正决定去哪家吃午餐) 或者披萨菜谱 (正准备亲自下厨)。用户也可能是一个正在准备论文的学生,想知道披萨的历史以及它对全球的影响,再或者,用户是一个尝试推行新菜品的厨师,想要了解最近 的披萨的趋势。Google 必须判断这些可能的情况,选择最相关的信息反馈给用户。每一种不同的情况得到的搜索网页将大不相同。
你如果扫一眼 Google Trends 的「pizza」搜索条目页面底部的相关搜索,就能够感受到当中的复杂程度。从「附近的披萨店」、披萨优惠券到披萨菜谱,各个方面的信息在搜索列表中一应 俱全。从搜索条目时间轴可以很明显的看出,全球范围的用户对披萨的搜索量在过去的十年中呈现近乎完美的线性增长。以下的搜索量分布地图显示美国、加拿大、 澳大利亚和新西兰成为披萨搜索榜的领先国家,而披萨的产地意大利却排名较靠后。
出现这个现象的原因可想而知,「pizza」很明显是一个英文单词,所以搜索结果地图上仅显示了使用英语的网友。想要更准确地了解世界范围内披萨 的搜索热度,我们必须将同词义的各国语言词汇都纳入搜索。为了帮助理解多语言环境下的某一主题,Google Trends 针对每个独立的标签构建「主题」,即用预先定义的标题对所有相关的词汇、替代拼写和其他语言的名称进行分组。Google 给了一个例子,主题「东京」——日本首都,同义词有東京, Токио, Tokyyo, Tokkyo,还有相关词汇比如「日本首都」。搜索主题「pizza」——而不是英文单词「pizza」——得到了同样的搜索时间轴,但是地理分布图却大 不一样。地图显示搜索量主要集中在意大利和欧洲而不是美国(虽然美国的搜索量也很多)。
可见主题的功能非常强大,它能够将多种语言的相关词汇集中起来。另一方面,同一个单词在不同语言中涵义不同即语言重叠会让主题搜索变得混乱。以下 的折线图证明了这一点,可以清楚的看出,美国对英文词组「united nations」的搜索量在过去十年中稳速下滑,世界范围内的搜索趋势亦是如此。
阿拉伯人或日本人可能不会使用英文词汇「united nations」,Google 创建了主题「united nations」来将它在其他语言中的拼写和相关词汇集中在一起。美国国内对主题「united nations」的搜索相对稳定,主要是因为该主题收录了「united nations」常用的首字母缩写。然而,下图中显示的全球范围内对「united nations」的搜索趋势几乎与美国国内的趋势相反,搜索热度呈现线性增长。
是什么导致了这种现象呢?主要原因是 Google 把「un」作为同义词收录到了 united nations 主题下。从以下地图中各国对 united nations 主题搜索热度情况来看,拉脱维亚排第一,靠前的排名几乎都被法国和讲西班牙语的国家占据。
拉提维亚、法国和西班牙语国家都将「un」作为常用的冠词, 类似于英语中的「the」。事实上,在 Google Trends 上搜索单词「un」会得到和搜索主题「united nations」一样的结果。
我们进一步看,即使是美国人也会将「un」作为西班牙语使用,比如说搜索「Darte un Beso」——2013 年的一首热歌,「como hacer un」(一本指南书名) 以及人名「Kim Jong Un」。事实证明不仅是 united nations 主题可能会因为收录「un」而产生不准确的搜索数据,即使将搜索数据限制在某一国家范围之内也无法消除语言的不同,因此辨别模糊的语义必须从语言本身来判 断,而不是依靠地理或政策。
问题出现的潜在原因是主题全球词汇的编辑由机器学习或者人工编辑们预先完成。这个过程本质是在做一个复杂的布尔或命题,命题没有包含语义丰富的上 下文消除歧义,给定的单词在问题中怎么用,问题的语言,以前的问题等等,因为难以消除歧义得到真正的涵义。在主题编辑的过程中词汇和语义的关联主要由它们 的最常使用方式决定而不是上下文语境,故而不管你是用英文还是拉脱维亚语搜索,「un」都被当做 United Nations 的缩写。Google Trends 存在的问题是没有提供给用户一种简单的方式来查看相关主题的完整词条列表,以及主题和词条的隶属关系,进而根据自身领域知识来移除一些有错误的词条。
这不仅仅是语义上的主题使用混乱。如果使用 Trends 搜索「美国总统选举,2016」并将搜索结果缩小到美国用户,结果显示搜索热度在 2012 年美国总统奥巴马连任数月后急剧增长。另外,2004 年 10 月对「2016 选举」的搜索热度要高于现在。
查看相关搜索列表,可以很明显的看出主题包含许多「选举」、「总统选举」、「选举民意调查」这类的词汇,这些都是通用词汇,不单指 2016 年选举,这些词条的收录可能解释了搜索热度在 2004 年出现了高峰的原因。然而,相关度排名第二的词汇是「2016」,主题中还收录了 2016 年奥运会,2016 年的各种车型以及其他与 2016 相关重大事件,总统选举仅占据相关搜索的一部分。进一步看,与 2016 相关的所有搜索趋势都呈现相似的增长,这证明了「2016」是导致相关上涨的原因。仅针对「选举」的搜索则呈现相对稳定的结果,在 2015 年的热度相对过去几年没有显著的增长,目前的搜索水平也没有超过往年的峰值。
那么关键问题是,哪一个搜索结果是正确的呢?「2016 年选举」的搜索热度真的在 10 年前达到了峰值?并且在奥巴马连任后突然性的增长?亦或者,搜索热度一直稳定,相对过去十年没有增长?除非把「2016 选举」这个主题收录的所有词条一一列出逐条分析它们的搜索热度趋势图,否则我们不可能知道哪一张趋势图是正确的。事实上,大数据分析常常基于这样预定义的 聚合和过滤操作,在很大程度上是不透明的,难以洞察其中的真实规律。
我们的研究工作中有两个主要问题——多语言的网络环境造成的搜索准确度的降低以及数据过滤的不透明性对分析结果的实质影响。Google 使用预定义的主题来管理不同语言中的相关词汇,走出了冲破全球语言壁垒的一大步。另一方面,主题中语言歧义可能导致搜索结果混乱不清,原因有两个,一是词 汇在不同语言中表意不同;二是主题词条收录的问题,比如总统选举的主题下有一些和 2016 年高度相关的词条,这显然是不合适的。Google 如果想让主题管理词条的方式为主流所接受,必须提高数据过滤过程的透明度。Google 可以添加一个展示主题下所有的词条的界面,每个词条附有其对搜索结果的影响以及它们语义、地理、学术方面的上下文,并且提供编辑和移除词条的功能,这对解 决以上问题有很大的帮助。
互联网起源于学术工作者小范围的信息交流,如今已经成长到一个覆盖全球语言的信息网络。上文中搜索混乱的问题仅仅只是信息搜索技术全球扩张和成长过程必然的阻碍,在未来,语言将不会成为我们了解世界的阻碍。
本文来源: Forbes 译文创见首发 由 TECH2IPO/创见 尘大大 编译 转载请注明出处