破解迷雾：关于大数据与Hadoop的九大误区

jopen 10年前

原文 http://developer.51cto.com/art/201506/481064.htm

这些毫无根据的印象涉及所需技能储备、技术方案类型以及技术匹配方式等多个层面，盲目偏信只会将大家引入歧途。

大数据分析目前已经成为技术业界的主流趋势，每一家企业都开始将此类方案视为实现自身差异化优势的核心甚至是求得生存的关键所在。有鉴于此，关于大数据的各种误解也开始不断涌现。这些误区不仅可能将大家引入歧途，甚至会让各位把宝贵的资源投入到根本走不通的发展路线当中。另外，此类误区的存在当然也会导致大家错过将预算资源投向更具意义的业务实践方法的机会。

在今天的文章中，我们将一同了解九大千万不可轻易着道的大数据与Hadoop相关认识误区。

误区一：我们能够轻松雇用到数据科学家

最近，我们公司某合作企业的一位售前工程师提到了寻找一位数据科学家到底有多困难。出于好奇，我详细询问了他们列出的合格人员条件，但答案实在是……他们需要需要一位数学博士，拥有计算机科学与MBA教育背景，此外还需要在这几大领域当中拥有实践经验。看到这里我不禁要问：“你们要招的这位得有多大年纪，九十岁？”

下面来看实际情况：

• 优秀的数学家往往倾向于使用Python，而且通常需要业务人士为其提供帮助。

• 优秀的计算机科学人才确实拥有一定程度的数学认知。

• 优秀的计算机科学人才在处理一定数量的问题后能够理解企业业务。

• 业务型人才了解数学知识。

• 专业人士往往拥有很强的知识指向性。

• 领导者应负责将上述人才汇聚起来并协同工作。

由于前面提到的这家企业找不到合适的数据科学家人选，因此只能建立起拥有跨学科专业知识的工作小组。而这也是大部分企业必须采取的解决思路。

误区二：关于大数据的一切都是新生事物

技术人员总是喜欢抛弃过去，而他们所宣扬的首选工具要么前所未见、要么会产生大量后续问题。但这种印象与实际情况并不相符。

举例来说，Kafka分布式消息系统被广泛描述为一款大数据必需的新型工具产品。不过与其它消息系统比较起来，它的功能集显得非常孱弱而且还远称不上成熟。要说其中真正的新生事物，Kafka在架构方面专门针对Hadoop平台而且在设计思路中引入了大量分布式概念。如果能够接受其种种缺陷，那么 Kafka确实具备相当的实用性。

也就是说，有时候我们需要使用更为复杂的路由及保障手段。在这类情况下，我们可以使用ActiveMQ或者其它更为稳定可靠的选项。

误区三：机器学习才是解决问题的正道

我估计约有85%的朋友会将机器学习视为一种简单统计方案。但事实上，我们的常见问题往往只需要通过简单的数学与分析机制即可解决，因此不要好高骛远、先从这里起步比较好。

误区四：你很特别

正如哲学家Dirden曾经说过，“你没什么特别。你并不像雪花那样精致而且独一无二。”这里要向大家公布了项调查结果。目前技术业界当中，约有半数从业者忙于编写同样的ETL脚本，旨在为大部分同类数据源进行同样的自定义分析处理。而且在任何规模的企业当中，都有很多部门可能在重复着这方面的工作。

不用说，好好咨询一下是着手推进大数据工作的最佳前提。

误区五：Hive速度极快

Hive速度并不快。它并不能在速度上给人留下深刻的印象。没错，其新版本已经得到了显著改善，但它仍然没办法带来良好的性能水平。它的规模扩展能力出色，不过大家可能需要准备好多种工具来将Hadoop与SQL加以匹配。

误区六：我们可以使用少于十二节点的集群

Hadoop 2+几乎已经能够运行在十二节点集群之上——但如果节点数量进一步减少，那么大家恐怕会面临漫长到令人抓狂的启动时间。另外，我们在其上运行的任何任务都会极为缓慢——有时候甚至根本无法完成。（当然，在十二节点集群上运行个‘hello world’还是不成问题的。）Hadoop 2运行所需要的线程更多，这意味着我们需要为其提供更多节点与更大内存容量。

由于可以将数据集驻留在内存当中，Spark能够将HDFS载入时间控制在最低水平。

误区七：数据节点的解决方案在于虚拟化

来自供应商的答案是“错”。IT团队亦会在这个问题上犹豫不决。在这里我们要强调，不，大家不能在SAN上部署数据节点。而且如果将管理节点放在虚拟机系统当中，那么日志写入、任何记录延迟状况乃至数据节点的低IOPS或高延迟都有可能成为整套体系的性能瓶颈。

也就是说，Amazon Web Services以及其它同类方案能够在解决这些问题的同时，继续保持管理工作拥有合理的性能水平与可扩展能力。当然，大家也可以或者说需要将其从内部文件服务器及外部企业宣传网站当中剔除出去，同时有效管理自己的硬件与虚拟化资源。

请记住：吞吐能力与延迟呈正比关系。HDFS会在不同场景下对二者作出权衡。

误区八：每个问题都属于大数据问题

如果大家打算在数TB级别的数据集当中将数个字段与数条状态进行匹配，那么这并不能算是大数据问题。千万不要把每一种分析需求都先入为主地划分到大数据范畴当中。

误区九：我们没有什么大数据

尽管大数据在定义上确实是对庞大数据机进行处理——不太准确，但也可以这么表达——但大数据解决方案对于小规模数据集也同样拥有良好的处理效果。因此，千万不要在处理小数据时想当然地将大数据分析机制排除在外。大家完全可以在面对数GB规模的数据时，仍然享受到Hadoop或者其它大数据技术成果所带来的便利——当然，具体情况要具体分析。

此外，我们往往拥有着一些自己并不知晓的大数据资产。很多在习惯上会被企业直接丢弃的数据当中，实际包含有大量有价值信息。任何一家员工在五十名或者以上的企业都有可能拥有大数据——即使是规模更小的公司，也可以利用大数据思路进行资产管理（例如财务数据等）。

原文链接：

http://www.infoworld.com/article/2936947/big-data/debunked-9-big-data-and-hadoop-myths.html

破解迷雾：关于大数据与Hadoop的九大误区

误区一：我们能够轻松雇用到数据科学家

下面来看实际情况：

误区二：关于大数据的一切都是新生事物

误区三：机器学习才是解决问题的正道

误区四：你很特别

误区五：Hive速度极快

误区六：我们可以使用少于十二节点的集群

误区七：数据节点的解决方案在于虚拟化

误区八：每个问题都属于大数据问题

误区九：我们没有什么大数据

相关资讯