阿里云观察2014
文/刘江
引言:在阿里巴巴集团的上市招股书中,Cloud 一词出现达 80 多次,云计算俨然成为集团战略的重要组成部分。阿里云这一年有很多重要的突破和转折点,飞天 5K 项目的成功是阿里云乃至阿里巴巴历史上重要的里程碑。阿里成为世界上屈指可数的具备这一能力的公司之一,中国在前沿性的关键技术上少有地站到了世界领奖台 上。从 IT(信息技术)进入到 DT(数据技术)时代,互联网+数据取代了计算机+软件,云计算是将更多行业乃至全社会数据化的平台和前提。由于阿里等互联网公司积极向各行业渗透,加上 国内许多公司的 IT 系统并不成熟,全社会又具有改革惯性,中国的云计算发展有可能超越美国,这既是阿里云及其同行的机遇,也是重重的责任。
—————————正文————————
2011 年和 2012 年,我先后两次对话阿里云的负责人王坚博士,先后在《凌云》杂志发表了《追寻凌云梦》和《阿里云观察》两篇文章,记录了阿里云和王坚本人不同发展阶段的酸 甜苦辣。在后一篇文章的结尾,我这样写道:“全球范围内,Amazon 云计算对整个新兴产业的发展无疑举足轻重。对于中国来说,阿里云的成败也有类似的份量。”
我没有想到的是,此后一年多,国内外云计算的形势很快就发生了较大变化。
最引人瞩目的故事,是 Amazon 在 2013 年 3 月获得美国中情局 6 亿美元的大单,强力攻入企业级市场的核心地带――政府。更有戏剧性的是,IBM 为此不惜把中情局告上法庭,仍然未能挽回局面。
而在总体格局上,微软和 Google 先后放弃只做 PaaS 的战略,开始在 IaaS 市场发力,引发一系列连锁反应。2012 年 6 月 6 日,微软首次公开自己的 IaaS 服务的时候,还用混合云的名义来遮掩。而同月 Google 在I/O大会上发布 IaaS 平台 GCE(Google Compute Engine)则高调多了,剑锋毫不客气地直指 AWS。等两家 IaaS 正式上线开放服务,已经到了差不多一年后 2013 年的 4 月和 5 月。总体上,它们比 Amazon 要晚上 5 年以上。以至于去年 8 月 Gartner 的数据估计,AWS 的计算容量是后面 14 家竞争对手总和的 5 倍。
但是,两大巨头毕竟实力雄厚(技术实力毋庸置疑,又握有数以百亿计美元的现金),只要公司顶层下了决心(解决了我所说的“一把手工程”问题), 无论产品还是市场上都追得很猛。2014 年 1 月,Google 负责基础设施的高级副总裁乌尔斯·霍泽尔(Urs Hölzle)给全公司发送了一份令人震惊的备忘录,表示自己的团队将对公司内部包括搜索和 Gmail 这样的“客户”减少关注,将大部分精力转向公司以外的新客户,大力打造公共云计算。2014 年 2 月,微软原来负责云业务的 Satya Nadella 成为新的 CEO,他很自然地将云定为公司的两大核心战略,Azure 无论在产品还是市场力度上陡然加大。
巨头竞争最大的利器,是大把在固定资产上投钱(每年投入在数十亿美元),然后展开血肉横飞的价格战。2014 年 3 月,Google 首先发起一轮大规模的降价,各项服务降幅达 32% ~85% ,Amazon 第二天就马上跟进,微软的降价通知也不过再等了几天,但降幅比 Google 都要小一些。价格战的直接结果是“神仙打架,百姓遭殃”,RackSpace 这样的独立云厂商首先撑不下去了:他们拒绝跟进降价,继而在一片收购和私有化传闻中,几个月内的股价跌去一半,不得不在今年 5 月宣布退出纯 IaaS 市场,主推绑定服务的托管云。即使是 Amazon 也开始感到吃力,第二季度的财报发布时,他们的 CFO 公开承认价格战影响了公司的财务表现,股价也应声而落。
到 7 月份,一些国外的分析机构和媒体已经在讨论:如果把 SaaS 加进来,到年底微软的云业务收入会不会超过 Amazon?
形势现在很清楚了,在美国,公共云计算市场已经成为巨头的角斗场所。只有既有资源,又有技术实力的公司才能继续生存。Amazon 虽然一开始战略对头,选对了从 IaaS 开始,成为长期的领跑者,至今仍然有较大优势,但 Google 和微软一旦发力,这场长途征战,鹿死谁手,还很难预料。三巨头之外,还有哪些公司能拿到所剩无几的船票?Apple、IBM、非死book、 Oracle、Intel、Cisco、EMC/VMware……候选人的名单很长,但胜出的概率却很小了。
国内的情况呢?从某些方面看,与前几年的美国 Amazon 一马当先,微软和 Google 还在犹豫,但 AWS 之上的云生态已经方兴未艾的确非常类似。中国市场上,阿里云的行业领导地位已经基本确立,腾讯云虽然也有比较完整的产品线,但对外似乎并不急于发力,百度 云更是一直战略方向都没有定下来,电信运营商和其他较大的 IT 公司也同样心不在焉。
而各类创业公司则一派欣欣向荣的景象。某种程度上,正是在阿里云不断地通过双十一、余额宝和去 IOE 等大动作震撼业界、教育市场的东风下,中国云计算生态的确有了很大起色。越来越多的移动游戏、互联网、电商、金融、在线教育、企业软件服务规模性转向云计 算。与之相对应的,从 2013 年 1 月开始,国内连续出现多起云计算领域投资案例,一扫之前的阴郁,包括 IaaS 层面的七牛、又拍、QingCloud、UCloud、UnitedStack、道里云、群核、监控宝、云杉网络、多备份、VisualOps、华云数 据、刻通云、巨杉等,SaaS 层面的 Tower、Worktile、明道、纷享、Teambition……以至于常参与讨论的云计算行业微信群里,在我的持续观察之下,除我之外的其他人在一 年多的时间里几乎都拿到投资,成了土豪。有些 IaaS 公司融资高达数千万美元,意味着他们的收入很可能可以达到数千万乃至过亿人民币的水平。
在《阿里云观察》一文中,我曾经说过:“阿里云在国内目前没有真正的对手,2013 年将继续享受较长时间的机遇窗口。”事实上,阿里云的确很好地抓住了这个机遇,打了好几个漂亮仗,几乎一直主导着云计算方面的业界话题。
2013 年 5 月 17 日,阿里集团最后一台 IBM 小机在支付宝下线,7 月 10 日,淘宝最后一个 Oracle 数据库在广告系统中下线,“去 IOE”取得关键性成功。与此同时,“去 IOE”也引起 IT 界热议和思考,技术重新选型蔚然成风。
2013 年 6 月 13 日,余额宝在阿里云的支撑下推出,一年后用户过亿,规模达到近 6 千亿,使背后原本默默无闻的天弘基金成为业界领导者,震撼了中国基金业乃至整个金融业,互联网金融成为社会热点。
2013 年 11 月 11 日,双十一再创纪录,单日成交额达到 362 亿,而建构在阿里云之上的聚石塔处理了 75 % 的订单量,无一故障。而双十一巨大的成交量,让零售业感受到了前所未有的变革压力。
2013 年 11 月 27 日,代号“聚宝盆”的金融云服务推出,阿里云成为金融行业 IT 架构的一个新选择。次年 5 月媒体报道,使用阿里云服务的金融机构超过 100 家。
2014 年 2 月 27 日,阿里与海南签订规划总投资 50 亿元的“未来城市”计划。此后,阿里云在政务与民生领域的新闻不断地见诸报端:中国气象局、广西、贵州、宁夏、河南、河北……
2014 年 3 月 4 日从 CDN 正式商用起,新的产品和服务也在密集推出,仅在6、7 月就连续开放大数据处理服务 ODPS、日志服务 SLS、搜索 OpenSearch、BI 服务 DPC(采云间)和可用区。
2014 年 3 月 31 日,联合高德等推出代号“聚无线”的移动云平台。
2014 年 4 月 29 日,北京数据中心开放。5 月和 9 月香港和深圳数据中心又陆续开放,节点总数达到 5 个。
2014 年 7 月 15 日,开始免费试用四款入门产品的活动。
2014 年 8 月 19 日,发布“云合计划”,要以2:8 分成的政策招募 1 万家云服务商,与之前成立的云栖小镇联盟,组成完整的生态系统。
……
2014 年 5 月,阿里巴巴集团的上市招股书中,Cloud 一词出现达 80 多次,显示云计算成为集团非常重要的组成部分。另外,业界也从中得知,阿里云计算等互联网基础设施收入 2013 年超过 1 亿美元。虽然量级与美国仍有差距,但也打破了云计算的泡沫之论。而近百万用户数量,更是令人鼓舞。
而对阿里而言,这一年多最重要的突破和转折点,却是不太为外界注意的飞天 5K 项目的成功。
飞天是阿里云的核心系统,它本来的设计目的就是将成千上万台服务器组成一台超级计算机,对外提供通用计算服务。早在 2012 年初,王坚就表示过,“从战略上来说,他们(阿里云)想做的事情实际上可以解读为 Amazon + Google 并有所超越”。将单一集群做到数千乃至更高,技术上是国家和企业竞争力的标志。阿里云必须攻克这道难关。只不过,从 2009 年才起步的飞天,一直没有机会冲击这一目标。
2013 年,这个机会来了。一季度做预算的时候,大家发现,阿里集团内部数据处理的两套系统――基于 Hadoop 的云梯 1 和基于飞天的 ODPS(云梯2)随着单集群规模不断扩大,都到了几千,面临 5000 集群规模和跨机房的门槛。如果分别继续投入、重复建设,开发和维护成本很高,浪费巨大,必须舍弃一个。怎么办?
当时技术团队内部的争论非常厉害,甚至当着马云的面也不掩饰。Hadoop 作为大数据的标志性开源项目,本身更加成熟,在技术人员心目中地位很高,感情很深,而且 Hadoop 集群的规模本身更大。但是可控性、安全性的问题可能更会在长期成为过不去的坎儿。阿里技术保障部负责人刘振飞的一句话透出了这场争论背后的本 质:“Hadoop 的定位就是陪太子读书,而太子就是 ODPS。”飞天 5K 项目因此启动,另一方面 ODPS 往 5K 规模升级,一方面 Hadoop 不再发展,处理负荷向 ODPS 迁移。
以唐洪为首的飞天核心研发团队历经 4 个月艰苦努力,对盘古、伏羲等组件进行了深入优化,并全新开发了自动故障处理模块华佗(细节可以参考本期相应的文章)。到 2013 年 8 月 15 日,这个任务胜利完成,新的基于飞天 5K 的 ODPS 生产集群规模达到 5000,而且实现了跨机房,并经受了整机房断电的严苛考验。平台计算 100TB 排序只需 30 分钟,远超 Yahoo ! 在 7 月刚刚创造的 71 分钟世界纪录。阿里成为世界上屈指可数的具备这一能力的公司之一,也是第一个对外提供这种能力的公司。多年来,中国在前沿性的关键技术上少有地站到了世界 领奖台上。
从各方面看,飞天 5K 都是阿里云乃至阿里巴巴历史上重要的里程碑。到今天,支付宝的所有数据处理、淘宝的数据仓库、阿里小贷的贷款业务等越来越多的集团关键应用,都已经由 ODPS 和飞天 5K 支撑。据刘振飞透露,阿里云终于借此在集团内部证明了自己。在此之后,阿里内部关于做不做云计算、到底用 Hadoop 还是用 ODPS、甚至王坚和阿里云靠谱不靠谱的争论都结束了。飞天 5K 项目为此划上了一个休止符。此后,阿里云作为集团的统一技术平台,已经成为上上下下的共识。最近,几千台的 HBase 集群也在往 OTS 上迁移。淘宝、天猫、支付宝的负责人,现在已经主动提出,要将核心系统迁移到阿里云提上日程。
在这背后,集团副总裁王文彬(花名菲青)在 2014 年初接任阿里云总裁,他原在淘宝天猫负责开放平台与商家业务,技术和生态建设背景均很资深,而且他领军的聚石塔是之前淘宝系基于阿里云所做的最重要的项目 之一,对阿里云也有比较深的了解。同时,以集团副总裁章文嵩、传奇技术专家蔡景现(花名多隆的他刚刚成为阿里集团的合伙人)等为代表的许多原淘宝系技术精 英也进入阿里云,负责主要产品的研发,大大增强了阿里云的技术实力。2014 年 9 月原 Oracle 全球副总裁喻思成加盟,以集团副总裁出任阿里云技术业务总经理。再加上以刘振飞为首的猛将如云的阿里技术保障部在基础设施和运维的全力支持(参见本期文章 《阿里技术保障部:阿里云的幕后英雄》)。至此,阿里云的阵容空前强大。
2013 年 9 月,在王坚卸任阿里云总裁的消息发布之后,媒体有各种不明内情的解读。10 月阿里云开发者大会,在会场附近的绿地上,我和其他云栖小镇联盟的成员一起见证了飞天 5K 纪念碑的揭幕仪式,王坚非常动情地张罗着众多还在阿里云或者已经离开的同事一起与刻着大家名字的纪念碑合影。我知道,这个纪念碑其实主要是王坚自己与小伙 伴们几年在云计算核心技术自主研发上筚路蓝缕的阶段性总结,他的云计算之路远没有结束。此后,由于有了更多强有力的帮手,他得以从具体业务抽身,更多地将 精力转到云计算和大数据战略思考、客户沟通与布道上,在更大的范围内发挥自己的影响
事实上,王坚自己一直认为,阿里自己的业务用不用阿里云,对阿里云而言并不是最重要的事情。阿里云要成为全社会的通用计算平台,这个难度无论从 技术还是服务上,比支撑阿里内部要大得多。只不过阿里云如果做得好,阿里内部也会用,这是一个附带的成果。这一年来,他与各种类型的客户交流,感触很深。 他说,无论是政府、金融还是中小企业,一旦转到云计算,所能释放出来的创新能力,远远超出了他的想象,经常令他心潮澎湃。而客户对云计算的态度很大程度上 已经转变,越来越多人对云计算是乐于接受的。反过来,云平台的挑战也越来越大。这么多客户要用,你的能力够不够,你接不接得住?就拿铁道部网站的问题来 说,这其实不完全是政府相关部门的问题,更多地是围绕铁道部的那些企业的问题。很多事情解决不好,中国的企业不能老是赖政府,企业也有自己的责任。云计算 企业要尽快提升自己的能力,否则很多客户会不得不去做一些不正确的事情,比如大规模地自行建设数据中心,用非常传统的技术架构。“最怕的事情是,五年后专 家们不断呼吁要扶持国产云计算。”王坚说自己经常有时不我待的紧迫感。
与此呼应,王文彬在介绍阿里云工作重点时说,今年的主要目标是在提升既有产品稳定性和体验、推出更为丰富的新产品的基础上,扩大阿里云的影响和 市场份额,提升阿里云的口碑。产品和服务都是重中之重。他希望与更多合作伙伴一起提升用户体验。云计算本身似乎存在一个悖论,就是为了竞争和扩大规模,必 须不断降价,而这又会最后使平台自身无利可图。Amazon 最近的财务表现似乎证明了这一点。微软的云负责人在阐明自己优势时,说的是除了云平台本身的收入之外,微软还有其他软件授权收入,言下之意也是云计算本身 不太挣钱。这也是许多其他巨头尤其是主营业务利润率比较高对此看不清楚,而迟迟没有真正投入的重要原因之一。
对此王坚表示,现在关于云计算还是有很多似是而非的认识。一方面,阿里、淘宝平台还有公共电力行业的发展历史,都证明了平台本身最后能够成为大 生意,而且并不困难。由于杰文斯效应(Jevons effect),技术的进步会增加对技术的消费量,只要到了一定的规模,盈利是迟早的事情。另一方面,我们实际上已经从 IT(信息技术)进入到 DT(数据技术)时代,互联网 + 数据取代了计算机 + 软件,云计算是将更多行业乃至全社会数据化的平台和前提,它的价值不只是平台本身的盈利,而更在于作为基础设施,将数据的价值释放出来。这个意义要大得 多。最近的几次谈话中,他举了非常多让自己感动和惊讶的云计算用户案例。“用户用阿里云在做的事情,才是阿里云的价值所在。”他举例说,美国电力科学研究 院(EPRI)的数据表明,一部 iPad 如果每天完全充电一次,一年所耗费的电费只有 1.5 美元,而用户拿它去干的事情则不知道会多么伟大。王文彬也非常强调阿里云上推出 ODPS 这种大数据服务的意义,这也是阿里云目前的重要特色之一。
从很多方面来看,中国的云计算发展有可能超越美国。由于阿里等互联网公司积极向各行业渗透,具有比美国同行更大的影响力,加上国内许多公司的 IT 系统并不成熟,全社会又具有改革惯性,完全有可能直接跨越一个阶段,基于云计算平台构建新的核心 IT 系统。这既是阿里云及其同行的机遇,也是重重的责任。