大数据大规律

jopen 9年前

大数据正在改变我们的生活，影响我们思考和解决问题的方式，为了适应时代的潮流，组织必须学会用数据说话，如果坐拥大量的数据却束手无策或无动于衷，那和没有数据是一样的。但是，在进行数据分析时，完全的自我创造是不可取的，因为有大量可以遵循和借鉴的经验能节约大量的时间和成本。最近， OrionX.net 的联合创始人 Shahin Khan 就发表了一篇文章，介绍了他的团队从大数据、物联网和云计算市场上总结的经验和规律。

保留数据的成本要比删除数据的成本低。另外，还要有多个备份。正因为保留了足够多的数据，大数据才成为可能，因此无论如何都不要删除数据，因为你不知道什么时候会用到它，删除这些数据会有哪些法律风险。保留数据的成本很低，另外，如果将来发生了什么事情，你也能从这些数据中找到证据。
无论开始收集数据的动机是什么，它们都会导致你收集更多的数据。大部分数据收集工作关注于正在进行的活动，但一旦知道了如何使用这些数据，获取更多数据的意愿就会增加。
大数据系统开始较小，但慢慢会变大，没有中间大小。很少有中等规模的大数据系统，一旦某个项目的理念被证明是有前景的，那么它很快就会变大，并在迅速发展的同时孵化新项目。
数据必须流向有价值的地方，要考虑功能的上下文有什么价值。未使用的数据是一种闲置的资产，很有可能会造成价值的贬值。如果将大数据看做是工作流，那么必须将数据流向最有价值的地方。
永远都不要假设你知道原因是什么，有什么影响。大数据的大部分应用场景都是有价值的，值得付出努力，但是它的因果关系非常复杂，数据的不完整、用户的偏见不可避免。
有关数据与无关数据之间的比率将逐渐趋向于零。数据有很多，但通常情况下大部分都是无用的，只有一少部分有价值。收集的数据越多，这种现象越明显，也就是说无关数据的增长速度要远高于相关数据的增长速度。
分析的最终目的是合成。分析完成之后便需要合成，当然这需要引入机器学习和认知算法。
时间=金钱=数据。数据是一种资产，虽然它可以升值，但大多数时候随着新数据替代老数据，历史数据的价值会越来越低，因为它的相关性会越来越差。所以必须知道数据的“利率”，知道它贬值的速度有多快。
容量大—速度快—种类多—价值密度低 vs. 不可再现—不相关—不完整—不正确。数据的质量直接影响数据挖掘的质量。
给你足够的数据，你就能证明事物的“正反两面”。数据量越大，从中找到有价值信息的难度就越大，数据的复杂性、不合理的动机和无知都可能会造成无效的结论；但另一方面，数据越多，支持假设的证据就会越充分，通过完全科学的方法，有时这种支持率甚至会逐渐接近100%。
大数据的结论开始通常是有趣但无用的，但最终会变成有效且有用的。在新媒体时代，有趣但肤浅的内容要比深刻有见地的内容多得多，价值挖掘需要对数据有深刻的理解，但这需要时间。
随着数据量的增长，大数据和高性能计算（HPC）需要结合在一起。

如果有200行数据，可以使用电子表格；但如果有20亿行数据，就必须使用HPC。此外，随着数据量的增长，还需要数学和科学的知识将数据转换成模型。

</li> </ol> </div>
来自： http://www.infoq.com/cn/news/2015/12/big-rules-of-big-data

大数据大规律

相关资讯