谷歌大牛Jeff Dean是如何成为互联网战神的
英文原文:The Optimizer.How Google’s Jeff Dean became the Chuck Norris of the Internet.
“光在真空中的速度曾经是大约每小时 35 英里,然后 Jeff Dean 花了一个周末优化了基础物理学。”——出自“关于 Jeff Dean 的事实”
其实,“关于 Jeff Dean 的事实”这个G+ 帖中描述的并非是真实的。不过有人大费周折为他建立了一个类似于“关于 Chuck Norris 的事实” 这样的网站,这倒是件不同寻常的事。这是因为 Jeff Dean 是一位软件工程师,而软件工程师们通常是不会像武术界的战神 Chuck Norris 那样的。一方面,他们不是独行侠,软件开发从本质上来讲是一个协作过程。另一方面,他们也从来不会像这个视频里面的 Chuck Norris 那样用冲锋枪来打牛仔。
注:Chuck Norris(查克·诺里斯)是空手道世界冠军、美国电影演员。他有另一个更为人所共知的译名“罗礼士”,出自功夫名片《猛龙过江》。 他发展电影事业初期,在李小龙执导的武打电影《猛龙过江》中饰演一名空手道高手 Colt,与李小龙在罗马斗兽场决斗,公认是经典的武打场面。(摘自维基百科)
Jeff Dean
然而,在 2007 年的愚人节,一些慕名而来的年轻谷歌工程师觉得应该给 Jeff Dean 制作一个网站,来赞扬他在编程方面的成就(译者:以下都只是玩笑,并不是真的)。例如:
- 编译器不会向 Jeff Dean 给出警告的,Jeff Dean 会给编译器警告的。
- Jeff Dean 是直接写二进制代码的,然后他写了源代码,作为给其他开发人员看的文档。
- 当 Jeff Dean 考虑人体工程学的问题的时候,这是为了保护他的键盘。
- 有一天当 Jeff Dean 在优化一个功能时,他被迫发明了异步调用的 API。这样的话这个功能可以在它被调用之前就可以返回结果了。
关于 Jeff Dean 的一个真正的事实是:你必须是一个计算机高手,才能了解人们说的很多关于 Jeff Dean 的笑话。(对此有兴趣的读者,Business Insider 网站提供了一些关于他的比较流行的笑话的解释。) 如果你没有计算机科学的背景知识,那么你就很难理解那些玩笑中谈到的那些他的虚假成就,更不用说理解他在工作中真正的成就了。Dean 亲手打造的系统,例如,MapReduce、BigTable、Spanner 等,对于众多 Google 用户来说并不知道是来源于 Goolge 的。但是,这些程序都是 Google 和现代互联网存在的基石。他现在所工作的一些项目,很有可能会再次为信息技术带来革命。
当你在思考是谁创造了当今互联网的时候,你可能会想到很多公司的创始人和 CEO,比如:蒂姆·伯纳斯 – 李(Tim Berners-Lee)、马克·安德森(Marc Andreessen)、拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin),也许是马克·扎克伯格(Mark Zuckerberg)。这是有道理的,这些人中的每一位都发明了一种产品或框架,塑造了我们今天使用互联网的方式。
同时,在这些已从繁重的日常工作中解脱出来的巨人阴影下,是一帮不知名的开发人员,在键盘上每日敲打出来给我们使用的产品和系统。同其他行业不 同的是,在高科技行业,这些人通常是不可替换的。一个出色的会计可能会帮你节省5% 的个人所得税。一个出色的棒球选手的上垒率也就比一般球员高出那么一点点(译者:棒球运动中一般会用上垒成功率,击球成功率等来衡量球员的水准)。但是一 个出色的软件开发人员在一周中的工作可能需要一支近 10 人的团队花几个月才能完成。这种差异是指数级别的。这个并不是一个关于 Jeff Dean 的事实,而是硅谷的高科技行业的常识,也就是为什么最好的公司会花如此大的代价来吸引顶尖人才。
在 Dean 1999 年中加入 Google 的时候,他已经拥有了美国顶尖年轻计算机科学家的荣誉。在家用计算机刚开始普及的时候,Dean 说他总是在寻找能够在一台给定的机器上不断追寻极限性能的方法。当他还是一个高中生的时候,他编写了一个软件来分析大量的流行病数据。据他说,他的软件比 是当时专业软件快 26 倍。这个系统称之为 Epi Info,被美国疾病控制中心(Centers for Disease Control)采纳并翻译成 13 种语言。当他在读计算机科学博士的时候,他研究的是编译器,用来将程序源代码翻译成计算机能够执行的语言。他说到,“我总是喜欢运行得快的代码”。
不过 Dean 并不是安于现状的人,他也不想把一辈子都花在编译器上,所以他后来离开了学术界。三年不到,他加入了当时只有 20 个人的 Google。(根据 Steven Levy 的《In the Plex》一书, 作为搜索初创企业的 Google,当时觉得 Dean 是一个来之不易的人才。)他为早期的 Google News 和 AdSense 做出重大贡献,其中 AdSense 这一广告产品改写了互联网公司的游戏规则。在此之后,他转而关注了公司核心的问题之一:扩展性。
Google 公司基础算法的最初想法来自于 Page 和 Brin, 他们两在当时都算是顶级的开发人员。在 90 年代末,他们创造了 PageRank 算法, 一种在用户给定搜索查询的时候返回最相关搜素结果的算法。对于搜索结果相关性的专注让 Google 一举超越了 Yahoo, AltaVista 以及当时处于领先地位的其他各个搜索引擎。不过随着 Google 变得越来越成功的同时,它也碰到了一项巨大的技术挑战。Dean 回忆道,“我们不能足够快地部署更多的机器来响应需求”。
所以 Dean 和他的同事们,包括另一位出色的程序员 Sanjay Ghemawat 一起找到了解决方案。这个问题就像他在高中时对待 Epi Info 一样,看起来象是一个硬件问题。Ghemawat 帮助带领了一个团队开发了谷歌文件系统(Google File System, GFS),使得超大型的文件能够分布地被存储在众多廉价的服务器上。然后 Dean 和 Ghemawat 一起开发了一个称之为 MapReduce 的编程工具, 来帮助开发人员有效地使用这些机器并行处理庞大的数据集。正像编译器帮助程序员在编写程序的时候不用考虑 CPU 是如何处理该程序一样,MapReduce 使得 Google 的开发人员在调整搜索算法或者增加新功能的同时不必担忧如何将这些运算并行化,也不必担心如何处理硬件的故障。
Dean 和 Ghemawat 的方法如此之强大,当他们在2004 年的一个会议上发表了一篇研究论文之后,这个方法马上就变成了业界的标准。直到今天,MapReduce 成为了众多其他项目的重要基石,其中之一就是著名的开源框架 Hadoop。而正是 Hadoop, 造就了业界中新的流行语“大数据”。从在线旅行到能源勘探等不同的领域中都会用到大数据的方法。而正当 Google 开始在一些核心的应用中从 MapReduce 进一步扩展到其他新的编程模型时,Dean 说他还是看到许多夏季实习生到 Google 后开始新项目的时候,都会大量地开始使用 MapReduce。
MapReduce 正是 Google 的创始人之一 Page 所说的10 倍效应的一个好例子。10 倍效应说的是比原来的好 10 倍,而不是比原来做得好 10%。MapReduce 并没有使得某一种特定类型的运算更快一点,而是帮助了 Google 的每一位开发人员可以做到他们以前做不到的事情。
Dean 的其他几个项目也有类似的指数效应。在谷歌文件系统的基础上,他和 Ghemawat 创建了一个分布式数据库系统,名为 BigTable。 BigTable 可以处理 1PB 的数据(1 PB=1 千万 GB。)( 译者:开源社区也有类似的项目, 基于 Hadoop 之上的 Hive)之后他们又进一步开发了被称之为世界上最大的单一数据库的 Spanner 系统。连线杂志(The Wired)的 Case Metz 说,通过使用创新的时间同步方式,Spanner 的物理存储虽然跨越了全球不同的数据中心,但操作起来就像是在一个地方。换句话来说,它能够使得全球的数据中心中不同的信息保持一致,即使一个特定的更新请求可能会需要不同的时间达到不同的数据中心。Metz 又说道,在 Spanner 被报道之前,从来没有人觉得这种系统是能够搭建出来的。
现在看起来,这些关于 Jeff Dean 真正的事实看起来有点像是假的一样。Dean 自己也会对这种情况笑起来,说这个有点尴尬,但同时也一种被恭维的感觉。但他又说,要记住的是,他的这些工作上真正的成就,总是通过和不同的人共同合作得来的。
几乎每天早上,他都会到位于加利福尼亚州,Mountain View 的 Google 总部上班,而且总是坐下来和同一伙人一起喝咖啡。他估算到,这些年来我们大概一起消灭了 20,000 杯卡布奇诺吧。这些人并不总是在一起工作。事实上,有些人已经搬到了 Google 园区另一边不同的办公室里。不过当他们聚在一起讨论他们正在做的事情的时候,一些人的问题总是能激励其他人的新想法。这些咖啡闲聊使得 Dean 把他在优化、并行计算、软件架构等方面的经验运用到众多不同类型的项目中去。这些使得他产生了足够的雄心和自信心。作为他长期合作伙伴的 Ghemawat 说,“他总是对于我们能做到什么程度充满了热情和乐观,没有什么能够阻碍他”。
他最近的工作可以很好地说明 Google 接下来会做什么。去年,他和斯坦福大学机器学习领域的专家、Coursera 创始人之一的 Andrew Ng 一起,帮助了 Ng 的研究生 Quoc Le 进行了一项前所未有的无监督机器学习的试验。这个属于 Google 公司秘密的 Google X 臭鼬项目下(译者:指秘密的创新项目)的试验,将 16,000 个处理器用于对 油Tube 视频进行无人干摄的学习,来得出如何识别一只猫的方法。这个看起来是用了很多计算机来得出一个非常基本的结果,但是这个试验能够帮助我们为下一代的人工智能技术打下基础。未来的人工智能技术将在许多的潜在应用中发挥作用,这些包括使用了个人助手技术的 Google Now,以及对 Google 眼镜项目(Project Glass)会有很大帮助的图像搜索功能等。
Jeff Dean 可能正的会发明一些不可思议的东西,就像“关于 Jeff Dean 的事实”中提到的只有 0 和 1 的特殊键盘(译者:这种键盘是不存在的,这个网页上的文章在开玩笑说 Jeff Dean 是直接用二进制的机器代码写程序的。)Jeff Dean 承认他并不是机器学习的专家,不过他乐于使用它在搭建可扩展、高可用系统方面的经验来帮助这一方面的研究。
和“关于 Jeff Dean 的事实”说的相反的是,Dean 说在很多情况下解决问题的最佳方法并不是简单地一坐下来就开始写程序。他的方法总是在开始的时候需要进行一些简单的计算,来找到对于特定过程的质量和速度 之间的最佳平衡点。他说,从机器翻译到搜索质量的许多领域,你总是试图权衡你能够对每一个查询所做的计算量。也许你不能找到最理想的解决方案,但是我们总 是可以通过某种近似的方式,通过1% 的计算,得到 98% 的好处。
Dean 经常做这类计算,以至于他给出了一个“每个计算机工程师都应该知道的数字列表”。 其中包括诸如在光速情况下,从加利福尼亚到阿姆斯特丹发送一个网络包要花多少毫秒,(150 毫秒)。将这些数字牢记在心, 在 20 分钟内,你就能从白板上区分在 3 个设计中哪一个会是最好的。他又说到,如果你不能快速地进行计算?把所有这些数字近似地转换为 2 的次方吧,这样做乘法的时候会比较容易。
如果 Dean 真的拥有超人的力量的话,那么这种能力并不能在瞬间就把事情做到完美。这是一种能够根据事情的不同级别进行权衡、优化,及处理问题的能力。换个角度来说, 它是一种能发现机会,并把事情在很短的时间内做到尽可能好,而不是一开始就尽全力追求完美的能力。在硅谷,这可比拿着冲锋枪向牛仔们扫射酷多了。
翻译: 伯乐在线 - Lex Lian 译文链接: http://blog.jobbole.com/47726/