IBM携手Spark,拥抱机器学习的下一个世代

jopen 9年前

Spark 是目前相当受欢迎的开源丛集运算架构,相较于 Hadoop,Spark 拥有敏捷快速的效能和便于应用的优势,因其采用内存储存数据资料,使它拥有高效运算;而通用的 API 协助使用者编写复杂的平行运算程序,让 Spark 程序更容易开发和理解。凭藉高效能优势,Spark 已成为机器学习的重要工具。 IBM 日前宣布加入 Spark 社交,IBM 期望和 Spark 社交暨其核心关系企业 Databricks 合作,共同引领海量资料及机器学习领域迈向未来发展。

强化 Spark 的机器学习能力、创新演算法开发

台湾 IBM 软件事业处商业分析业务协理胡育铭表示,IBM 美国旧金山 Spark 技术中心有超过 200 位的技术人员正在将 Spark 技术具体实现在企业应用中。同时,也将 Spark 嵌入 IBM 领先业界的分析和商务平台,让 Spark 成为 IBM Bluemix 平台上的服务之一。另外,IBM 在全球十多个实验室将投入超过 3,500 名研发人员展开与 Spark 相关的专案,并让 Spark 开放生态系能使用 IBM 研发超过十年的机器学习技术–SystemML,IBM 的认知运算系统 Watson(华生)便整合许多 SystemML 机器学习的功能。此次 IBM 与 Databricks 合作,即是希望结合 SystemML 的功能,让 Spark 具有更强大的机器学习能力,以及让资料科学家更专注于演算法的应用,而非专注于枝微末节的技术。

Open Data Platform(ODP)是众多资讯企业联合成立的 Hadoop 资料平台,然而对大部分企业用户而言,开源并不代表可直接使用,所以在开源之上又推出 Hadoop 资料平台。希望在选择 Hadoop 资料平台中的核心元件时,大家可以选用公共、统一的代码。如此,透过使用 Hadoop 资料平台,使用者可不再受限于特定厂商的开放源代码,既利用开源的好处,同时也让企业用户不再备受束缚。胡育铭进一步表示,IBM 一直致力于将企业客户的需求与最新技术进行有效衔接,然而新技术很多,很可能会出现讯息孤岛的情形,我们能将新的技术为企业需求真正合而为一,将所谓的单点和孤岛进行整合。IBM 对企业应用的丰富经验是许多商业分析解决方案供应商无可比拟的,例如新元件一直出现以及重要技术持续变化,透过 Open Data Platform (ODP)开放平台,让多家资讯公司在平台上贡献经验与想法,为企业客户提供服务。

IBM 专精于分析探勘语言及 SQL 关联式数据库领域已长达 30 多年,具备大量的优化技术。此外,SPSS 的许多预测分析产品的演算法也可与 Spark 相互结合,因为 SPSS 得以让 Spark 大幅提升处理资讯的资料量、速度与能力。未来 IBM 将陆续推出 Spark 系列产品,包括 Watson Analytics、DataWorks、PuerData 以及其他解决方案。

全球 IBM 投资超过两百五十亿美元,培养 Spark 技术人才

Spark 具备敏捷快速、便于应用的特性,而其开源属性可在全球持续改进,未来 IBM 的专家将与 Apache Spark 开放社交合作,推动先进机器学习技术,并加快智能创新业务应用开发的速度。IBM 在开放源代码创新领域已经耕耘多年,我们深信开源的力量是客户创造价值的根源,IBM 将全力支持 Spark,将其作为推动分析的基础技术平台,从根本上加速推动业务创新,协助客户部署和运用 Spark 推动商业分析策略,实现业务转型和差异化竞争优势。

除支持 Spark 之外,IBM 透过向下扎根方式与大中华区大专院校合作,如宣布投资 1 亿美元,在大中华推动“U100”计划;在台湾,IBM 已在政大、台大、交大等多所大专院校开立商业分析(Analytics)课程,期望能培养更多未来的资料科学家,截至目前为止,全球 IBM 在商业分析领域已投入超过 250 亿美元。

来自: technews.cn