Google的PageRank算法无所不能?
英文原文:How Google's PageRank Quantifies Things (Like History's Best Tennis Player) Beyond The Web
1998 年,两个名不见经传的研究生,Larry Page 和 Sergey Brin,第一次在学术论文上介绍了 Google 这个搜索引擎,而关键创新点就在于他们发明的名叫 PageRank 的算法(PageRank 是 Larry Page 的 Page,而不是网页的意思)。Google 正是依据 PageRank 算法将搜索到的网站进行排序,正如他们二人所说的:PageRank“带来了网页新秩序。”
PageRank 将网站的链接和超链接作为指标,衡量其重要性和权威性。然后 Google 根据此信息来排列搜索结果。Page 和 Brin 发表的分析结果,并不只是当时现有数学的一个新的应用,学者们认为,他们找到的是一个全新的方法,虽然可能有借鉴一些前人的成果。
虽然 Google 对 PageRank 提供搜索结果的依赖程度到底有多少,只有公司内部的人才知道,但是,可以肯定的是,该算法对 Google 现在数千亿的市值起到了不可磨灭的作用。
而 PageRank 在网页之外,也具有惊人的大范围的实用性,几乎涵盖所有领域,从体育团队的排名到大脑内部交互联结的分析。
普渡大学的计算机学家 David Gleich 这么评价道:“它有点像是 Google 发明的镜头。如果你有各种不同的镜头随机组合,你就可以观察到各种不同的系统——就像是你同时有了显微镜,望远镜,数码相机等等。但你还是需要有自己独特的视角。”
自动论文发表以后,十六年来,Gleich 一直在研究 PageRank 算法在其他领域的应用。他已经发现了数十种可以使用该算法的具体案例。他的做法并不是深入研究每一个实例的具体实现,而是为了证明 PageRank 确实拥有广大的适用范围。
他说,只要有图谱,就有 PageRank 的用武之地。它是一种数学的思维方式,代表了一组事物的关系或流程,研究对象可以是 Web 页面,办公室工作人员,非死book 的用户,基因,蛋白质或者交通情况。“PageRank 就像各种图谱一样,无处不在。”
以下是一些有趣的使用案例。目前,这些对 Google 的商业或社会影响并没有产生什么作用,但也不排除会有这么一天。
文学作品
最重要的文学作品是什么?PageRank 算法可以帮助回答这个看似很主观的问题。Nebraska 大学的一位文学教授开发了一款软件,使用了 PageRank 和其他的算法。他的研究对象是十九世纪的文学作家。经过分析了近 3600 部长篇小说,软件得出了结论:简·奥斯丁和沃尔特·司各特是那个年代最有影响力的作家。
体育运动
在特定的运动项目中,谁是历史上最好的球队或球员?这个问题如果交给球迷,那必将吵得不可开交,因为评判标准同样是主观的。有一则论文利用 PageRank 分析了 1968 年之后的所有职业网球比赛,它将相同的两个对手之间的比赛结果进行匹配,以“声望得分”为基础构建了一个网络。得出的结论是,在网球界,Jimmy Connors 是史上最好的球员。就像 Gleich 说的,这些排名背后的基本思想是:假设一个粉丝会追随着一只球队或球员,直到他被打败,而后他会继续追随胜利的一方,直到结果出现。这类似于网上冲浪者在 网站链接中做出选择。
神经科学
Gleich 在他的论文中写道:“人类的大脑是一个重要的网络,可我们对它的了解少的可怜”。PageRank 当然也适用于此。最近,它被用来评估不同大脑区域之间的联结和重要性,以及随着年龄的变化结果会如何改变。
癌症研究
在一篇名为“Google Goes Cancer”的论文里,研究人员开发了一种基于 Google 算法的“新型计算方法”,该算法帮助他们确定了七个与遗传有关的肿瘤基因,这将帮助医生更好的指导癌症治疗的过程。
交通网络
PageRank 的另一应用是用来预测城市里的交通流量和人流动向。有一项研究依赖于该算法的一个关键因素:一个叫做 teleporting(传送)的概念,它模拟了人类的决定:开始或中止行程,或者在既定的街道停车。这有助于交通运输研究人员更好的创建测量模型,模拟 道路的车流量和人流量。