什么是Hadoop即服务(Hadoop-as-a-Service)
什么是Hadoop即服务(Hadoop-as-a-Service)
转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese
介绍
两周前的VMworld 2014大会上,EMC演示了一段基于EMC Hybrid Cloud混合云架构之上的HaaS(Hadoop-as-a-Service,Hadoop即服务)和Virtual Data Lake(虚拟数据湖)的应用实例,并发布了EMC Hadoop Starter Kit快速部署套件。对于了解大数据的人肯定不会对Hadoop陌生,那到底什么是Hadoop即服务(HaaS)呢?本文将带你来一探究竟。
更多信息
HaaS出现背景:
开源大数据框架Apache Hadoop已经成了大数据处理的事实标准,同时也几乎成了大数据的代名词,虽然这多少有些以偏概全。根据Gartner的估计,目前的Hadoop生态系统市场规模在7700万美元左右,2016年,该市场规模将快速增长至8.13亿美元。
但是在Hadoop这个快速扩增的蓝海中游泳并非易事,不仅开发大数据基础设施技术产品这件事很难,销售起来也很难,具体到大数据基础设施工具如Hadoop、NoSQL数据库和流处理系统则更是难上加难。客户需要大量培训和教育,付费用户需要大量支持和及时跟进的产品开发工作。而跟企业级客户打交道往往并非创业公司团队的强项。此外,大数据基础设施技术创业通常对风险投资规模也有较高要求。
种种这些就催生了众多Hadoop作为一种服务(HaaS)提供商的诞生。HaaS为不堪重负,渴求Hadoop,但又缺乏相应的内部资源或专业知识的数据中心管理员们提供了一个绝佳的机会。
HaaS的价值
与直接在物理机上部署Hadoop相比,很明显HaaS可以做到按需购买、按需使用,并且只为使用时间付费。同时,和其他“…即服务”的模式一样,如果你不再需要Hadoop环境了,现有的资源可以被用于其他的工作负载。
在物理机上部署Hadoop通常还需要专项的资金投资、数据中心的机柜空间、精密空调、电力和其他各种技术问题。而对于HaaS,用户需要考虑的只是管理一些额外的虚拟设备,或者投入一些资金在设备群集上。
HaaS标准:
用户需要什么样的HaaS呢?每家服务提供商之间的差别是巨大的。HaaS供应商们提供一系列的功能和支持,从基本的访问Hadoop软件到虚拟机,从“自行运行”(RIY)环境软件的预配置到包括工作监督和调整支持的全方位服务支持。对于HaaS的任何评价都应该考虑到如何更好的让每一项服务能够满足您的业务目标,同时尽量减少Hadoop和基础设施的管理问题。下面我们列举五个标准,也许可以帮助您区分不同的HaaS备选方案。
· HaaS应同时满足数据科学家和数据中心管理员的需求
数据科学家们花费了大量时间进行处理数据,整合数据集及应用统计分析。这些类型的数据用户通常会希望有一个功能丰富且强大的环境。理想情况下,数据科学家们应该具备通过Hive、Pig、R、Mahout及其他数据科学工具运行Hadoop YARN作业的能力。数据科学家一登录到服务,相关的计算操作就应立即可用,并开始工作。集群启动和重新加载数据的延迟是低效和不必要的。“永远在线”的Hadoop服务,避免了数据科学家必须在开始工作之前从非HDFS的 数据存储集群和负载数据部署出现的令人沮丧的延迟。而对于系统管理员,少即是多。他们的工作就是进行一系列的相关管理工作。管理控制台应简化,使他们能够 迅速的通过执行数量最少的步骤就能完成这些任务。如果管理员必须配置一组参数,那么就应该同时避免这些参数被暴露,又要避免参数被HaaS 供应商管理。同样的,低层次的监控细节应由HaaS 供应商管理。管理界面应该能够简单明了的反应管理平台的整体状况和是否遵从了SLA。
· HaaS应该在HDFS存储“静态数据”
HDFS是存储在Hadoop的数据的原始格式。当数据需要被持久的以其他格式存储时,其必须被加载到HDFS中。持久地在HDFS中存储数据,避免了延误,以及将数据从另一种格式转换到HDFS的成本。
· HaaS应该提供弹性
当企业用户在考虑是否选择某家HaaS供应商,并进行相关的评估时,弹性应成为考虑的中心要素。而在考虑是否选择某家HaaS供应商时,需要考虑进行评估的另一个因素是HaaS供应商根据服务管理需求提供弹性的难易程度。特别是,必须考虑到服务处理不断变化的计算和存储资源需求的透明度。
· HaaS应支持不停机操作
在有固定工作负载的生产环境中,系统管理员可以调整操作系统和应用程序来优化这些工作负载的处理。他们可以通过各具特色的配置参数的最佳设定和监控操作的关键指标,以确保工作按预期运行,实现不停机操作。
· HaaS应该是自配置
使用HaaS的优点是,其最大限度地降低对Hadoop专家的需求。HaaS本身能够自行配置最佳数量和类型的节点。数据科学家们深谙统计和机器学习何时可能需要应用特定的统计测试或使用特定的机器学习算法,但对于一个Hadoop集群的配置来保持他们的工作流程的运行则可能并没有很深的造诣。
参考
EMC大数据博客文章:Hadoop-as-a-Service: An On-Premise Promise?
Chuck博客文章:Offering Your Users Hadoop-As-A-Service
应用于
Hadoop-as-a-Service