谷歌大数据工具衍生新开源平台Drill

openkk 12年前
   <div id="news_body">     <p style="text-align:center;"><img border="0" alt="谷歌大数据工具衍生新开源平台Drill" src="https://simg.open-open.com/show/80f12f09768ddc44aaa01259885a0eeb.jpg" width="550" height="412" /></p>     <p style="text-align:center;">硅谷创业公司 MapR 已经发布了一个名为 Drill 的开源项目,寻求模仿谷歌所开发的一个十分有效的数据分析工具。</p>     <p>        北京时间 8 月 22 日消息,《连线》杂志编辑凯德·梅茨(Cade Metz)近日在这份杂志的网络版上撰文称,谷歌的大数据工具 Hadoop 已经衍生出了两个开源平台,这两个平台分别是由硅谷创业公司 Cloudera 和 MapR 所构建的。其中,MapR 已经发布了一个名为 Drill 的开源项目,寻求模仿谷歌的数据分析工具。</p>     <p>        <strong>以下是这篇文章的全文:</strong></p>     <p>        在硅谷邱吉尔俱乐部(Churchill Club)最近召开的一次会议上,迈克·奥尔森(Mike Olson)和约翰·施罗德(John Schroeder)共用了一个讲台,但这两人的观点并不完全一致。</p>     <p>        奥尔森是一家名为 Cloudera 的硅谷创业公司的首席执行官,施罗德则是 MapR 的首席执行官,这家公司很明显是 Cloudera 的竞争对手。两家公司都在开源云计算软件平台 Hadoop 上经营自身业务,这个平台以数据中心技术为基础,这种技术为谷歌占据互联网市场主导地位的搜索引擎提供支持。但在构建各自业务的问题上,这两家创业公司是 从两个十分不同的方向靠近这个平台的。</p>     <p>        Cloudera 与开源 Hadoop 项目密切合作,目的是增强这个平台免费向全世界提供的软件代码;而与此相比, MapR 则决定从头开始重新建设这个平台,而当这项工作完成以后,这家公司会将新的代码作为专有软件出售。在上个月专为 Hadoop 召开的一次专题讨论会上,奥尔森和施罗德登上讲台,就哪家公司的方法最有意义进行了面对面的辩论。正如开源项目成为讨论主题的许多时刻那样,他们两人之间 的争论也引发了听众们的热议。</p>     <p>        施罗德表示,MapR 不一定非要反对开放式的开发。他解释称,这家公司之所以保密其所开发的代码,至少有部分原因在于那些推动这个开源项目的人不愿迅速地作出 MapR 希望作出的改变。“在开源社区中有很多政治性的问题需要考虑。”他说道。“情况会因你所处的状况而有所不同。”</p>     <p>        似乎是为了证明他的这一观点,MapR 已经推出了另一个开源项目,旨在将其作为 Hadoop 平台的重大补充。MapR 最近向阿帕奇软件基金会(Apache Software Foundation)——负责管理 Hadoop 的非盈利开源组织——提出了一个项目,其目标是模仿 Dremel,这是一种由谷歌开发和使用的十分有效的数据分析工具。这个项目名为 Drill,管理该项目的 MapR 负责人托莫·希兰(Tomer Shiran)表示,该项目适合完全开放式的开发,这是该公司最初的 Hadoop 项目所不具备的特点。通过 Hadoop 平台,MapR 以往的作法是与一个根深蒂固的开发者社区就一个现有的项目展开合作。而在有了 Drill 以后,这家公司正在开创某种新的东西。</p>     <p>        希兰表示,MapR 之所以将 Drill 的开发对外开放,其原因在于该公司希望将这个平台变成能迅速分析在 Hadoop 上所存数据的业界标准。这家公司希望能促进 Drill 的应用程序接口(API)的使用,允许用户将其他工具嵌入这个平台。</p>     <p>        “这是一套新的应用程序接口,这是一个新的系统。”希兰说道,他此前曾供职于惠普和 IBM 旗下的研究部门。“如果这些新的应用程序接口是开放的,那么肯定会有助于提高使用量。”</p>     <p>        通过建设开放式的 Drill 项目,这家公司可能还希望赢得全球开发者和 IT 经理的某种认同;在构建自己专有版本的 Hadoop 平台时,该公司失去了这种认同。希兰对此作出了否认,但开源社区中的政治性问题会在许多不同的地方出现——正如上个月在邱吉尔俱乐部召开的主题讨论会所明 确表明的那样。当时,施耐德表示 MapR 对开源“意识形态”问题并不感到担心,因此招来了激烈的质问。开源软件代码的理由几乎从来都不明确,但很明显的一个问题是,在当今的软件市场上,保持代码 的开源性正日益成为从事相关业务的重要组成部分。</p>     <p>        这不仅有助于扩大软件代码的使用度,同时还能有助于传播商誉——而商誉对于一家公司来说也是非常重要的。</p>     <p>        当 MapR 从 2009 年开始致力于在 Hadoop 平台上进行开发工作时,这个平台已经在整个互联网范围内被广泛使用。基于描述了 MapReduce 和谷歌文件系统(Google File System)——这是两个意义深远的软件平台,它们重新创造了谷歌构建自身搜索索引的方式——的研究报告,Hadoop 被雅虎、非死book 及其他公司作为使用数以千计的廉价服务器来运算海量数据的工具。作为这种工具来说,Hadoop 是非常有效的——一名 非死book 工程师曾将其比作我们所呼吸的空气——但从某种程度上来说,象雅虎和 非死book 这样缺乏工程专业知识的公司并不太适合使用这种工具。</p>     <p>        MapR 解决了许多缺陷——其中包括曾困扰谷歌文件系统的一个显而易见的缺陷等——但据施耐德和公司联合创始人斯莱瓦斯M.C. Srivas(M.C. Srivas)称,那些推动开源项目的人不愿象 MapR 所希望的那样迅速地作出这些改变。因此,MapR 自己对文件系统进行了重新构建,并在 2011 年发布了自己专有版本的 Hadoop,决心为其所做的工程工作谋求财务利益。</p>     <p>        正如奥尔森所指出的那样,开源 Hadoop 项目已经解决了许多同样的问题;而且他相信,从长期来看保持这个平台的核心代码的开放性是一种好得多的解决方案。“最重要的一个问题在于,你想要开源软 件,因为这种软件能突破厂商的封锁。”他在上个月召开的主题讨论会上说道。“你可以把厂商踢出去,而且我们无法关闭数据的可获得性,无法关闭分析信息的可 获得性,也无法关闭数据库的可获得性。”</p>     <p>        但施耐德则极力主张,奥尔森和 Cloudera 同样也提供专有软件——以 Hadoop 管理工具的方式——而且他还指出,所有软件公司都必须找到某种方法来利用自己的代码赚钱。有许多方法能做到这一点,而在推出 Drill 项目以后,MapR 也已经证明,这家公司同样也看重开放式开发的价值。</p>     <p>        希兰指出,第三方开发者已经表现出自己对这个项目的兴趣。在 MapR 向阿帕奇软件基金会提交的 Drill 计划中,两名第三方开发者——分别是一家名为 Concurrent 的公司的创始人兼首席执行官克里斯·温瑟尔(Chris Wensel)和 Drawn to Scale 的工程副总裁赖安·罗森(Ryan Rawson)——被列为这个项目的核心开发者。</p>     <p>        虽然希兰指出 MapR 已经对 Hadoop 平台及其各个姊妹项目作出了开源贡献,但 Drill 则有所不同,原因是这家公司计划开放式地构建整个平台。按希兰所说,这样做是有必要的。虽然谷歌在 2010 年发布了一份描述 Dremel 的研究报告,但 Hadoop 社区仍有待复制其相当惊人的数据分析技术,而 MapR 则希望确保能以“正确的方法”做到这一点。希兰表示,这是 MapR 无法通过 Hadoop 做到的事情。</p>     <p>        没错,Hadoop 已经被作为一种数据分析工具来被人们使用,这种使用应归功于 Hive 和 Pig 等姊妹项目;但 Hadoop 是一个“批处理”工具,这意味着数据请求需要相当长的一段时间才能完成。而与此相比,Drill 的设计目的则是效法 Dremel,对海量数据进行几乎实时的分析。据谷歌基础设施专家乌尔斯·霍泽尔(Urs Holzle)称,Dremel 能在大约三秒钟时间里处理 1 拍字节(petabyte,PB,1PB 等于 1024TB)的数据。</p>     <p>        “你拥有一种类似于 SQL 的语言,能让制定专设的查询请求变得非常简单——而且,你不需要做任何编程工作,只需将查询请求输入到命令行里即可。”霍泽尔在上个月向我们说到,他所指 的 SQL 是 Structured Query Language(结构化查询语言),这是传统数据库用来处理数量少得多的数据的一种语言。</p>     <p>        希兰表示,Drill 的设计目的是为 Hadoop 提供补充,而并非取代后者。他指出,就转换一个庞大的数据集而言,Hadoop 是一种最好用的工具。举例来说,你可以通过海量的网页集合来建设一个搜索索引;但 Drill 则允许你从同一个数据集中非常迅速地抽取一小部分信息。</p>     <p>        “(Hadoop)能对一拍字节的数据进行运算,将其变成新的数据。”希兰说道。“通过 Dremel 或是 Drill,你能对一拍字节的数据进行分析,然后得出一拍字节或少于一拍字节的数据。”他表示,MapR 的一些用户已在将该公司专有版本的 Hadoop 平台与谷歌在线服务 BigQuery 配合使用,后一种服务能让谷歌以外的公司使用 Dremel。</p>     <p>        希兰称,Drill 这个名称是由一名谷歌员工提议的,MapR 曾与这名员工合作开发 BigQuer。MapR 的联合创始人斯莱瓦斯也曾在谷歌供职,当时他曾是谷歌搜索基础设施建设团队的成员之一。就谷歌官方而言,这家公司并未正式参与 Drill 项目。通过这些庞大的基础设施平台,谷歌倾向于去做自己的事情。</p>     <p>        MapR 也一直都以做自己的事情而著称,但这一次则并非如此。</p>     <div id="come_from">     来自: 腾讯科技     </div>    </div>