大数据到底是啥重要玩意儿?另:超多数据资源分享

jopen 9年前

“datos, données, Daten, tiedot, デ ー タ,”

Data – / deɪtə / DAY-tə / dætə / DA tə, or / dɑːtə / DAH-tə

Data – a collection of facts (numbers, words, measurements, observations, etc) that has been translated into a form that computers can process

数据-由事实信息的集合体(数字,词语,度量衡,观察等等)转化而成的计算机能够处理的信息。

无论你从事于哪个行业,又或者你的兴趣何在,你将几乎肯定面临遇到一个情况:“数据”是如何改变我们的世界的面貌。它可能帮助我们去治愈疾病,提高公司的收入,使建筑更安全和节能,甚至于你所看到的那些有针对性的广告,其背后也是数据在支持着。

36大数据专稿,本文由36大数据翻译组-罗达志翻译,任何不标明译者和出处以及本文链接http://www.36dsj.com/archives/42130 的均为侵权。

一般情况下,数据只是信息的另一个称呼。但在计算和商业领域(大部分你在新闻中读到的东西,当涉及到数据 – 尤其是如果它是关于大数据),数据指的是机器可读的,而不是人类可读的信息。

大数据到底是啥重要玩意儿?另:超多数据资源分享

人类 VS 机器

人类可读(human-readable)的(也称为非结构化数据)是指,只有人类可以理解并且解释的信息,诸如图像或文本块的含义。也就是说,如果一个信息需要人来解释它,那么信息是人类可读的。

机器可读(machine-readable)(或结构化数据)是指计算机程序可以处理的信息。程序是一组用于处理数据的命令集合,当我们把数据纳入到程序中,我们就得到软件。为了使程序对数据执行特定操作,该数据必须具有某种统一结构。

例如,美国的海军军官马修·莫里,将大量的历年手写航运日志(人类可读)转换成一个坐标路线的集合(机器可读)。接着,他将这些航线做集体处理分析,通过分析得到的新路线以及航路知识,能够将船舶的平均航程降低33%。

大数据到底是啥重要玩意儿?另:超多数据资源分享

新闻中的数据

当我们谈到在出现福布斯文摘和麦肯锡报告中的结构化数据,有几个不同类型的数据往往会得到最多的关注…

个人资料

任何数据,只要它对你来说是个体特定的,如年龄,电话等,都可以认为是个人数据。它涵盖了你的个体资料,你的方位,你的电子邮件地址和其他能够识别你的数据。当它被泄露(如阿什利麦迪逊丑闻)时,它往往会被披露在新闻中,又或者它被用于更加有争议的事情上(如Uber通过个人乘车资料能够推断出谁有外遇)。

大数据到底是啥重要玩意儿?另:超多数据资源分享

许多公司正在收集你的个人信息(尤其是社交媒体网站),这些情况多发生在你需要提交你的电子邮箱地址或者信用卡信息时,因为这个时候你往往也发送出了你的更多个人信息。通常情况下,他们将利用这些数据来为您提供个性化建议,以鼓励你更多参与他们的业务。 例如,非死book分析您的个人信息,并基于人以类聚的技术思想,向您推送您可能喜欢的内容。

此外,有些业务还专注于个人数据的收集,然后将其出售给其他公司,这些公司主要将其用于广告目的。这就是为什么你有时能得到有针对性的,但你从来没有听说过的公司的广告和内容。

大数据到底是啥重要玩意儿?另:超多数据资源分享

交易数据

交易信息,意味着任何收集信息的行为,例如,你点击一个广告,完成了一项网络购物,浏览了一个特点网址。

几乎每个你访问过的的网站,都会收集某种形式的交易数据,其通常是通过谷歌分析,或者其他第三方系统或自己内部的数据采集系统来完成这种收集行为。

交易数据对企业来非常重要,因为它可以帮助他们揭露市场变化和优化企业运营。通过分析大量的数据,我们可以发现隐藏的关联模式,而这些模式可以创造竞争优势,并引导企业发展更有效的营销方式,从而增加商业收益。

网络数据

Web数据是你可以从网络上获得的任何类型数据的一个总称。它可能是你的竞争对手正在销售什么样的商品,公示的政府数据,足球比分等,包罗万象。

大数据到底是啥重要玩意儿?另:超多数据资源分享

网络数据的重要性体现在,它是企业从外部获取信息的主要途径之一。当创建商业模式和作出重要的商业智能决策时,企业需要对其内部情况和外部市场情形了如指掌。

网络数据可以用于监测竞争对手,跟踪潜在客户,跟踪渠道合作伙伴,创造商机,搭建应用程序,等等。随着将非结构化数据转化为结构化数据的技术不断提升,它的新用途正在在不断被发掘。

我们可以通过编写web检索程序来收集网络数据,或使用现成检索工具进行收集,又或者雇用第三方机构来进行 web 检索。一个Web检索程序是一个计算机程序,它接受一个URL作为输入,并将网络上的数据以结构化格式下载到本地,这通常是一个JSON或CSV(两种常用数据格式)。

传感器数据

传感器数据是由物理对象产生的,其常被称为物联网。它涵盖了万事万物,从您的智能手表测量测得的心跳率到建筑物外部传感器测得的天气数据。

大数据到底是啥重要玩意儿?另:超多数据资源分享

到目前为止,传感器数据大多被用来帮助优化流程。例如,亚航使用GE传感器以及相关技术,以帮助降低运营成本,提高飞机的使用率,这为企业一年节省了3000万到5000万的运营成本。通过测量物体周围的物理情况,机器可以作出智能化的行为以提高生产率,并在它们需要维护时对人们做出提醒。

大数据到底是啥重要玩意儿?另:超多数据资源分享

从何时起数据成为大数据?

从技术层面讲,上述的所有类型的数据组成了大数据,而 对于“大”的度量,并没有一个官方的定义 。这个术语仅仅代表不断增长的数据量以及数据种类。

随着越来越多的信息被转移到网络上并完成数字化,这意味着分析师可以开始直接使用它作为数据。急剧增加的社交媒体,在线图书,音乐,视频和传感器使得可为数据分析师所用的数据以惊人的速度增加。

从前我们区分“常规数据”和“大数据”,所用的标准是其在所使用的搜集,存储,分析工具上的区别,而如今这些标准都随着急剧增多的数据量而改变。使用市场上最新的数据分析工具,我们再也不用依靠抽样调查。相反,我们可以一次性处理全部的数据集,并由此获得我们周围世界的一个更为全面的了解。

大数据到底是啥重要玩意儿?另:超多数据资源分享

21世纪最性感的职业?

所有这些数据,在我们能将其用于更深处的分析决策之前,都需要被处理和解释,而做这种事情的人,就是数据科学家。

现如今,数据科学家最受追捧的职位之一。谷歌公司的一位前高管甚至竟然把它称为“21世纪最性感的工作。”

要成为一个数据科学家,你需要在计算机科学,数学建模,统计学,分析和数学方面有着坚实的基础。而让他们获得这样一种有别于传统工作的头衔的,是他们对于商业过程的理解以及和商业人士以及IT领导者有效沟通的能力,在某种程度上,这可以影响一个企业走向商业奇迹的道路。

Data resources

数据资源

如果你对学习大数据有着浓厚兴趣又或者你想学习如何好好利用大数据,以下的博客,会议,公司,数据资源将对你有很大帮助。

大数据博客

Flowing Data –  Dr. Nathan Yau的博客,包括教程,资源,书籍推荐以及对于工业难题的有趣的讨论。

FiveThirtyEight 来自Data-wiz公司的 Nate Silver 的博客,内容主体为针对政治,文化,体育运动以及经济热点的大数据分析。

Edwin Chen – Dropbox 顶级数据科学家 Edwin Chen 以自己名字命名的博客,该博客提供由浅入深的算法技巧以及分析技术。

Data Science Weekly –该博客定期发布对于大数据科学的最新动态和新鲜资讯。

No Free Hunch ( Kaggle ) –该博客的作者是许多预测模型比赛的主办方,他们的比赛以及大数据科学博客,覆盖了几乎所有和体育有关的大数据项目。

SmartData Collective –由 Social Media审核的一个网络社区,该社区提供对于商业智能和大数据管理的最新动态。

KDnuggets – 任何对大数据科学社区有兴趣的人,都不应该错过这个综合性资源的集大成者。

Data Elixir – 提供全互联网和大数据有关的新鲜资讯,你也可以订阅其服务以定时收到他们推送的资讯。

36dsj.com 一个关注大数据创业及大数据产业链的网站,有超多的大数据应用案例和入门教程。

Marcus Borba (CTO Spark) – Marcus Borba力主将复杂互联网概念可视化,并且为大众提供多种典型的非关联式数据管理方式。

Lillian Pierson (Author, Data Science for Dummies) –作者在其推ter 上链接了许多大数据相关文章,其中包括最新的企业利用大数据的案例,以及在大数据科学和商业上有影响力的人物的博客。

Data conferences

大数据相关会议

Strata + Hadoop World – New York, NY (Sept. 29 – Oct. 1) – focuses specifically on Big Data’s implications on big business.

Data Summit 2016 – New York, NY (May 9-11) – 将政府部门,公共结构,前沿商业联合一起,利用新的技术和策略使混合式大数据服务于普罗大众的日常生活中。

Big Data Tech Con 2015 – Chicago, IL (November 2 -4) – a major “how to” for Big Data use that will prove to be very instructive in how new businesses take on Big Data.

Big Data Innovation Summit – Las Vegas, NV (January 21-22) –从 Hershey,Netflix,以及 Department of Homeland Security 处得到经验和知识,并知晓如何让你的数据更加具有执行能力和有效性。

Data courses

大数据资源

Udemy – 部分付费的在线课程,内容丰富多样,旨在传授大数据知识

Code School –在线编程课程,课程内容循序渐进,理论结合操作

Decoded – 对解锁数字世界巨大潜力感兴趣吗?这门课程就是对 Decoded 的基本介绍以及入门

Data Camp – 大数据科学领域的基础课程,同时该课程能进一步强化你的 R 语言编程能力。

Coursera – 世界名校以及教育机构的精品课程皆于其中。

W3schools – 学习基础编程和数据分析方法?该网站是你的不二选择。

Data tools

数据分析工具

OpenRefine – 一个数据清理软件,你可以使用它来预处理你的待分析数据。

WolframAlpha – 提供技术搜索和复杂计算的帮助。对于商业用户来说,它能提供信息图表,对价格波动记录,商品信息分析,以及种类概述任务来说,该软件是优良之选。

Import.io该软件能够帮助您将网页上的非模块化数据转换为模块化数据。

Trifacta – 清理和鉴别你在 Excel 中不能处理的数据,文件以及数据集,其提供大量可靠的统计学分析工具。

Tableau – 一个优秀的可视化工具,为您提供观察数据的新视角。

Google Fusion Tables – 一个多用途数据分析工具,能完成大规模数据集的可视化和数学映射工作。

Blockspring – 该软件能帮助您获得实时街景数据,创建交互式的数学映射,执行图像识别,并且能保存到 Dropbox 中。

Silk.co –用户创建,公开发布以及分享优质的数据可视化项目提供了一个很好的平台。

Plot.ly –助您的数据可视化工作一臂之力,让你更快获得市场趋势分析结果和商业洞察力。

Luminoso –帮助您确认数据中的关键词和概念的关联映射,让您对产品有更深刻的洞察。

BigML – 针对您的市场情况构建模型,可定制您需要的变量如产品价格,产品特性以及地域方位。

来自: http://www.36dsj.com/archives/42130