分布式大规模数据库系统 HadoopDB 简介

fmms 13年前
     <p><span lang="EN-US">HadoopDB</span>是<span lang="EN-US">Abadi</span>领导的开发团队利用不同的组件,包括开源数据库、<span lang="EN-US"><a href="http://www.open-open.com/lib/view/open1322486974499.html">PostgreSQL</a></span>、<span lang="EN-US">Apache Hadoop</span>数据分类技术和<span lang="EN-US">Hive</span>(<span lang="EN-US">非死book</span>公司开发的内部<span lang="EN-US">Hadoop</span>项目)开发出的新型数据库。</p>    <p class="MsoPlainText"><span lang="EN-US">HadoopDB</span>的查询是利用<span lang="EN-US">MapReduce</span>或常规的<span lang="EN-US">SQL</span>语言完成的。<span lang="EN-US">MapReduce</span>是<span lang="EN-US">Google</span>公司发明的<span lang="EN-US">Hadoop</span>的祖先,这一软件架构用于大规模数据集(大于<span lang="EN-US">1TB</span>)的并行计算。<span lang="EN-US">Hadoop</span>是<span lang="EN-US">Apache</span>软件基金会所研发的开源并行运算编程工具和分布式文件系统,与<span lang="EN-US">MapReduce</span>和<span lang="EN-US">Google</span>档案系统的概念类似。</p>    <p class="MsoPlainText">另一方面,<span lang="EN-US">HadoopDB</span>的数据处理部分是利用<span lang="EN-US">Hadoop</span>完成的。<span lang="EN-US">Abadi</span>表示,其中部分是利用了分布在无分享计算机群集中的许多节点上的不同的<span lang="EN-US">PostgreSQL</span>实例完成的。“实质上,<span lang="EN-US">HadoopDB</span>是<span lang="EN-US">MapReduce</span>和并行数据库管理系统技术的混血儿。但是与<span lang="EN-US">Aster Data</span>、<span lang="EN-US">Greenplum</span>或<span lang="EN-US">Hive</span>等已经开发出的项目和厂商不同,<span lang="EN-US">HadoopDB</span>不是简单地在语言<span lang="EN-US">/</span>接口层面上的混合,它是更深的系统实现层面上的集成。”<span lang="EN-US">Abadi</span>说。</p>    <p class="MsoPlainText">因为集两种技术的精华于一身,<span lang="EN-US">HadoopDB</span>可以取得<span lang="EN-US">MapReduce</span>等大规模并行数据基础设施的容错性。在这些基础设施中,服务器故障对整个网络的影响非常小。<span lang="EN-US">Abadi</span>表示,<span lang="EN-US">HadoopDB</span>可以执行复杂的分析,速度几乎与已有的商用并行数据库一样快。</p>    <p class="MsoPlainText"><span lang="EN-US">HadoopDB</span>的源代码现已公布。虽然其目前的解决方案还是试验性的,但对<span lang="EN-US">Web 2.0</span>企业和方兴未艾的“<span lang="EN-US">NoSQL</span>”运动的其他成员却非常具有吸引力。有专家认为,它最终可能吸引那些寻找代替甲骨文数据库、<span lang="EN-US">IBM DB2</span>或微软<span lang="EN-US">SQL Server</span>的更便宜、更具伸缩性数据库的企业。</p>    <p class="MsoPlainText"><span lang="EN-US">Abadi</span>在<span lang="EN-US">2009</span>年<span lang="EN-US">4</span>月曾参与撰写了一篇论文,该论文指出对于大多数的用户和应用而言,关系型数据库仍然超过<span lang="EN-US">MapReduce</span>和<span lang="EN-US">Hadoop</span>。<span lang="EN-US">Abadi</span>日前表示,目前的研究并没有否认以前的看法,但是随着数据库技术的演进,<span lang="EN-US">HadoopDB</span>这样的新兴数据库系统将具有比并行数据库更好的可伸缩性。</p>    <p class="MsoPlainText">另外,<span lang="EN-US">HadoopDB</span>虽然基于<span lang="EN-US">PostgreSQL</span>构建,但同样可以使用其他数据库作为引擎。<span lang="EN-US">Abadi</span>表示,其团队已经成功地使用了<span lang="EN-US">MySQL</span>,并计划尝试使用像<span lang="EN-US">Infobright</span>、<span lang="EN-US">MonetDB</span>等柱状数据库来改进处理分析性工作负载时的性能。<br /> <br /> </p>    <p><strong>项目主页:</strong><a href="http://www.open-open.com/lib/view/home/1327799544717" target="_blank">http://www.open-open.com/lib/view/home/1327799544717</a></p>