大数据也有西大荒——这个行业有点乱
英文原文:The big data Wild West: The good, the bad and the ugly
大数据已经发展到了一个关键阶段。到 2017 年,整个大数据市场将增长到 500 亿美金,但很不幸 55% 的大数据项目都是失败的。与机遇同在的是炒作和不实的信息,我们正处在大数据的西大荒阶段。大数据行业正处于一略僵持的局面之中:理解它的人通投资该行业 采集、存储大数据并从中获益;然而另有人抱着半信半疑的态度为之买单,同时不晓得大数据将怎样影响他们的生意。
良性失灵
大数据允许出错率,这也许听起来违背常识,可失灵也是有良性失灵和恶性失灵之分的。
云里雾里?且听解释:“测试和学习”的方法是可以用在原始状态大数据上的。公司得通过提出假设然后验证的方式发现这些失灵的情况。这让企业能够通过深挖大数据发展出真正连贯的战略方案来。
这些“错误”其实是发现正确解析结果的必要过程,它为各行各业创造了可观的机会,如精准推荐、风险管理、设备故障预测和简化物流管理流程等等。
在一些乐观的案例中,这些企业正在利用大数据得出的判断开发新产品,开辟新的收入来源甚至造就了大数据驱动的企业文化。要进化到这个阶段,企业 必须打破僵化的量化和成本控制思路,发展灵活机动的解析和判断方法,逐渐通过大规模自动化预测解析实现企业最优发展。只有这样它们才能真正通过大数据找到 有利可图的商业模式,依托数据开发出新产品来。
在大数据利用的早期,速度是个关键因素。通过数据完成项目和积累组织专业技能的速度越快,就能越快创造价值,以及在新的高度上更精细地利用大数据。
Quantcast 完美诠释了成长为大数据公司的四步走模式。第一步,它只是提供免费网站流量监测服务。随着市场认可度的提高——它每天的计算结果由数以千计增长至 10 亿级的水平,Quantcast 很快超越了传统的数据库技术。而业务一步步的扩张又赋予它提供更高质量的解析和判断能力,更好地凭借受众分析为企业增值和维护客户关系。
Quantcast 很快看到了投资大数据科学的必要性,因为在海量的活动数据中发现人口数据和兴趣图谱分布状态是极具挑战性的。紧接着,Quantcast 测试了许多产品和服务,其中非常成功的一个项目叫做 Lookalikes,它帮助广告商找到那些跟现有客户具有高度相似性的新客户。Quantcast 现在每年收入达 1 亿美金,其灵活性使其能够及时应对大数据发展过程中的机遇。
Quantcast、Google、 非死book 和 LinkedIn 都是大数据公司的先行者,它们已经经历了这些发展阶段。当大数据业务在互联网公司中越发成熟时,也正是其它企业拥抱大数据创造价值和积累竞争力的时候。例 如,大型 IT 供应商正在利用精细化的科技产品数据和交易数据生成解析预测模型,以达到提高推荐效果、优化交易体验的目的。
恶性失灵
很不幸,许多企业仍然停留在非常僵化的模式中,他们还是一味地从成本控制和存储可扩展性的角度来利用大数据。也许他们还在观望“灵活分析”(agile analytics)——打破传统节约思维、灵活运用数据的方法。
这意味着,许多探索大数据的公司正在错失改进业务、优化服务的机会,同时他们也在错失利用大数据而非臆断开发新产品的机会。他们正在进入大数据发展的停滞期——学会了存储数据,但却不能够从中提取价值。
大数据需要人力和资源的投入——从人的层面讲就是,需要更多的掌握这门科技的人才,而传统的成本节约方法要求的是裁员。对大数据公司而言,情况 刚好相反。要实现大数据上的突破,企业就得舍得投人投钱。不能快速应对变化、及时投资的企业将会让更灵活的小型企业夺去更多机会。
不堪的失灵
没有什么比前面说的 55% 的失败率更让人难堪的了?失败的原因何在呢?其中一种想法是,西大荒时代有太多开空头支票的骗子,夸下海口却看不见他们的成果。他们意识到身边炒作大数据 的风气便也跟风模仿。尽管缺乏资质认证,那些遗产顾问和系统集成商硬是把自己定位为这方面的专家。
同样地,许多传统商人竟把上个时代的模式当作“大数据”来兜售。他们之中很多还在不联网的电脑上使用 SAS(始于 1976 年的 Statistics Analysis System)——这能是大数据?!另有其他们则是专注于数据挖掘和汇报,提取、转化和加载一些小型数据库的内容。这些商人通常使用一些与开放源码并行运 算编程工具(如 Apache Hadoop )脱节的专用软件。
我们正处在大数据发展的关键点上——需要源源不断的数据结果来保证持续增长。而企业把过时的技术或技能想像成大数据,最终因解析能力跟不上而受 伤的还是他们的生意。如果他们的项目不幸失败或者提供信息不准确,那么他们将失去战场,将机会拱手让给真正懂数大据技术的竞争对手。