Strata+Hadoop World 2015见闻
原文 http://www.csdn.net/article/2015-03-19/2824266
Strata+Hadoop World(SHW)是世界最大的大数据盛会,它为各种技术提供了深度交流的机会,参会者在这里能看到最领先的技术、最广泛的应用场景、最有趣的用例教学,以及最全面的大数据行业和趋势探讨。
SHW的演讲不仅涵盖了全世界大数据领域顶尖技术专家,同时还有各种大数据应用场景的经验介绍,包括金融、多媒体、零售、物流等。2月17-20 日在美国加州San Jose举行的Strata+Hadoop World 2015汇聚了超过200场技术分享,150家展商以及5000名参会者。
本文中,我将为读者带来这次大会的见闻以及硅谷大数据界的最新动向和发展趋势,下面分五个部分展开。
政府与大数据
“Understanding and innovating with data, has the potential to change the way we do almost anything for the better.”——Barrack Obama
这是美国总统奥巴马,为本次SHW大会送来祝词中的一句话。
总统亲自出马,为大会助阵,是因为美国政府刚刚任命了DJ Patil作为政府的首席数据科学家(Chief Data Scientist),这也是美国政府内部首次设立“数据科学家”这个职位,之后将开始组建数据科学相关的新机构。此外,美国政府近期发布了 135,000组政府数据,免费提供给民众和科研机构、商业公司下载使用,并会在未来保证数据的更新以及增加公开数据的种类。
这两项举措,都显示出了美国政府对于大数据时代以及其背后巨大潜力的重视,并将其作为未来政府执政的重要组成部分向全美推广。
随后,在DJ Patil的演讲中,他也向大家介绍了美国政府对于大数据的部分规划。
利用政府的庞大数据库,创造价值回馈于广大民众。比如利用数据分析,帮助医疗卫生系统工作,预测天气变化及灾害,管理交通预防拥堵等。
在政府内部推行大数据使用,从而提高政府效率,将资源用在最需要的地方。
大力扶持数据科学产业,通过政府牵头带动数据科学的更快发展,保持领先地位。同时也从教育出发,培养数据科学人才。
建立官方大数据行业标准,对大数据行业的发展进行有效管理和监督。
不得不说,美国政府对于大数据的重视超出我的预料,美国政府拥抱大数据的态度值得全世界学习。
大数据科技
Strata+Hadoop World大会的主题仍然是最前沿的数据科学与技术。而这些技术中间,Hadoop与Spark自然是最受关注的明星。
Cloudera CTO Amr Awadallah在演讲中介绍了未来Hadoop的发展,其中着重提到了今年Cloudera的主题是“Flexibility”——也就是灵活性。 Hadoop希望成为“智能手机”一样的角色,不仅能管理和存储多种类型的数据,还可以在上面部署各种各样的应用,对存储和管理的数据进行处理和使用。
此外,Hadoop还将加强安全建设,Cloudera安全架构师Eddie Garcia也在随后做了详细介绍。
去年夺得了最佳创业公司(Data-Driven Startup)的MemSQL,在今年的大会上已经成长为极具竞争力的一家新型数据库公司,并且在Keynote上发表了题为“Close Encounters with the Third Kind of Database”的主旨演讲。而在今年的创业公司评选环节,获得头名的是一款名为Snowflake的SQL数据仓库。Snowflake是一款弹性数 据云服务平台,能在一个系统内处理半结构化和结构化数据而不需要转换存储结构或者设置统一的操作模式。
同时多家大数据架构或工具厂商也都在演讲中表示未来将会更好地支持非关系型数据库。
大数据与商业
这次的SHW大会上也出现了一些传统企业,介绍大数据技术的实际应用。在商业领域,对于大数据的需求主要有三点。
时效性:随着大数据技术在商业领域不断普及,传统行业对于大数据技术的要求已从“能用”向“好用”转变,其中很重要的一点就是对实时性的要求正在不断提高。
易用性:不只是用起来简单,还包括对多种工具、开发架构的整合,多种开发环境的支持以及跨平台的一体化要求。
安全性:随着大数据深入到企业更深层,安全性也是企业在应用大数据技术时需要考虑的重要部分,除了保证数据不会泄露、被盗取之外,还应该保证数据不会因为故障或意外而丢失。VISA公司就分享了有关Hadoop应用中的安全保障问题。
中国大数据市场
本次SHW大会,恰逢中国的春节,而中国元素也成为其中非常亮眼的一部分。在大会上,中国企业华为和腾讯,先后发表了题为“大数据如何改变电信的 运营和商业模式(How Big Data Transforms the Way Telcos Operate and Do Business)”以及“腾讯的Spark应用与优化(Usages and Optimizations of Spark at Tencent)”的主题演讲,并在现场和会议期间得到了热烈的反响。此外,同样来自中国的SequoiaDB(巨杉数据库)在Session环节发表了 “SequoiaDB加速你的数据(Accelerate your data with SequoiaDB)”的演讲。
总的来说,现场观众和硅谷媒体,对中国企业和中国大数据市场很感兴趣。他们也惊异于中国在大数据技术上并不落后于硅谷的大数据巨头们,中国的技术 圈也开发出了性能和功能都很有冲击力的NoSQL数据库产品。同时,他们也看到了中国大数据市场潜力巨大,却又有特色,这就赋予本土大数据产品广阔的发展 空间。
新型数据库
数据库作为底层数据存储和管理工具,是大数据生态系统中不可或缺的一环。传统关系型数据库已经存在了几十年,虽然有其适合的场景,但对于大数据应 用,存在诸多局限。新型数据库是本届SHW大会的焦点话题之一。高性能、高可用、灵活的数据结构等特性,都让其成为大数据存储分析的不二之选。
大会不仅有多家参加演讲和展示的数据库厂商,更有许多数据库资深研发人员和架构师来到现场。为此,我总结了有关数据库的资讯,并对未来该领域发展做出了预测。
新型数据库不断壮大
众所周知,关系型数据库已出现了近40年,并且在很长一段时间里是数据库领域当之无愧的王者。如今,新型数据库,包括NoSQL以及NewSQL两种主要类型,正在进入越来越多的应用领域。
多家新型数据库厂商参加了本届SHW,其中有NoSQL界的佼佼者,如Couchbase、Aerospike、Marklogic和 SequoiaDB等,也有NewSQL的许多厂商,如MemSQL、VoltDB、ScaleDB和CitusDB等。这些企业在现场和 Cloudera、Hortonworks这些大数据领头羊一样,得到了广泛的关注。
随着“大数据时代”的到来,在高并发、大数据量、分布式及实时性的要求之下,传统的关系型数据库,因为其数据模型及预定义的操作模式,在很多情况 下不能很好地满足以上需求,所以新型数据库在大数据场景下,正取代传统关系型数据库成为主导。正如MemSQL的CEO Eric Frenkiel在Keynote演讲中说道:“We need a new kind of database to do things we have never done before!”
SQL与Hadoop集成遇到了挑战
值得注意的是,除NoSQL等新型数据库技术外,传统的数据库厂商也在寻求能让关系型数据库完美对接Hadoop等大数据架构的方法,但尚未找到完美的解决方法。
展会上,IBM工程师分享了他们在SQL与Hadoop结合上进行的尝试。其中提到,SQL和Hadoop对接的难点之一是SQL语句如何在 Hadoop上执行,因为Hadoop文件系统HDFS的设计并不能有效运行SQL。IBM则正在探究如何更好地解决这个核心问题。大会上IBM分享了基 于IBM BigInsight的BigSQL实现SQL与Hadoop对接。
同样作为传统RDBMS领头羊的Oracle也在大会上发布了最新版的Oracle BigDataSQL以及Oracle NoSQL等大数据产品。
大数据架构加强对NoSQL的支持
NoSQL在数据库领域的影响力日渐壮大,领头羊MongoDB、Cassandra和Redis已在DB-Engine的数据库排名上进入了前十。大数据架构、平台也都在越来越强化对于NoSQL数据库的支持。
Amr Awadallah也提到Hadoop未来很重要的一点就是加强对NoSQL数据库的支持:“We will improve the integration with NoSQL database to make Hadoop more versatile”。
无独有偶,在另外一场主题演讲中,Databricks CTO Matei Zaharia也介绍了Spark在2015年的发展方向,包括新增机器学习的流水线功能,R语言集成,当然也包括了更好地支持NoSQL数据库。
可以看到,NoSQL数据库在大数据生态系统中的作用和地位正在不断提升。
总结
作为一名大数据技术从业人员,我参加这次大会的收获主要有以下几个方面。
- 在现场与众多世界大数据界顶尖专家进行深度交流,了解最前沿的技术和想法。
- 在厂商的分享中,了解了更多大数据应用场景和应用方向,这是大数据行业未来的趋势。
- 在展示和演讲中,来自中国的工程师也向硅谷展示了中国的大数据技术和发展。
希望未来能有更多中国厂商和技术专家参与这样的国际技术大会,促进国内外技术交流,将先进的技术和发展方向带回中国。
作者介绍:王涛,巨杉CTO,毕业于加拿大卡尔加里大学计算机科学专业。曾就职于IBM多伦多实验室。