大数据处理一定需要Hadoop吗？

dy223 10年前

大数据处理一定需要Hadoop吗？

Google强大的搜寻引擎每天处理庞大的搜寻数据，靠的是数十万的伺服器同时作工。然而一般企业并无法使用Google所用的内部搜寻引擎工具，所以，拥有处理大数据工具的分散式运算平台Hadoop应运而生。

但问题是Hadoop使用上有难度，数据处理公司Cloudera决心要解决这个问题。

过去的公司企业仰赖传统的关联式资料库和数据仓储就可应付所需，然而，今日电子商务、社交媒体和行动运算不断成长使得资料量暴增，许多企业便开始使用Hadoop等的工具处理数据。现在，Cloudera现在更针对Hadoop平台推出类Google的搜寻引擎：Cloudera Search。

搜寻引擎让Hadoop更平易近人

Cloudera希望客户能在Hadoop壮大之前就将资料储存进去，并将之整合入平台。但使用Hadoop平台与资料互动必须要懂得MapReduce运算技术，也就是说你得会写Java语言，这对许多使用者来说并不方便。

虽然Hadoop已经推出许多工具让使用上更便利，但Cloudera希望更进一步建立一个Hadoop的搜寻引擎。产品经理泽德勒维斯基（Charles Zedlewski）说：「数万开发者可能知道怎么用MapReduce，执行SQL指令，但会使用搜寻引擎的人有数十亿人。」

Cloudera Search能够与Hadoop分散式档案系统（HDFS）或资料库系统Hbase整合，使用者可以输入搜寻字串后就找到一串搜寻结果。这项搜寻工具是以Apache Solr搜寻器为基础。

市场研究公司RedMonk分析师欧葛瑞迪（Stephen O’Grady）表示：「每多一项数据处理工具对Hadoop都有好处……从写MapReduce程式到支援SQL语法的Hive或Pig等套件，每项工具都让数据处理更有效率。」

所有大数据都该放入Hadoop吗？

这对改善Hadoop可用性的确帮助不少，但问题是：客户是否真的有需要将它们所有的数据都放入Hadoop？微软今年稍早发表一份报告，主张大多数的公司只需要增加丛集伺服器的使用数量，不须尝试用单台伺服器处理数据，报告指出，甚至雅虎和脸书两家最需要数据处理效能的公司，也是透过增加伺服器丛集解决效能问题。

但许多公司正面临数据不断增长的问题，一开始就加入Hadoop是不错的选择，RedMonk过去也是Hadoop的使用者，但最近转用BigQuery等其他的Google资料库工具，原因是他们的数据在量上本质就比较小，而且成长的速度也没有分析师原本预测得快。

但欧葛瑞迪说：「如果我们能够更快速地获得数据，就一定会使用Hadoop！」

谢谢台湾大数据专家:Grood的投稿。转载请注明来源！

</div> </div>