为吸引人工智能专家雅虎公布13.5TB用户数据

1 月 15 日，外媒报道称，为了‍‍‍‍‍吸引人工智能领域的顶级人才，雅虎公布大量用户的互网络行为数据。

周四，雅虎宣布，公司将公布最大规模的互联网行为数据，数据涉及浏览雅虎体育、雅虎财经、雅虎新闻、雅虎地产和其他版块的 2000 万匿名用户。雅虎仅面向大学机构公布数据，这些数据将让研究人员切实了解大量用户的互联网行为方式。

由于多年停滞不前，雅虎正面临严重的人才流失难题。人工智能领域快速增长，而且竞争异常激烈，雅虎希望吸引该领域的学术研究人员。

雅虎此举正值科技公司争相与学术界加‍‍强合作之时，而科技公司尤为关注人工智能领域。人工智能涉及机器学习和深度学习技术，这类技术可训练机器挖掘海量数据，旨在回答复杂问题或预测用户行为。

非死book 和谷歌已经招募顶级人工智能研究人员。例如，2013 年燕乐存（Yann LeCun）加盟非死book，他继续运营纽约大学数据科学中心。

卡内基梅隆大学计算机学院院长安德鲁·穆尔（Andrew Moore）表示：“无论你拥有多少人才，管理者总是希望招募更多的人才。这些大型科技公司总觉得缺少某类研发人才。”

海量数据是机器学习的必备要素。利用这些数据，电脑可分析复杂的模式，根据雅虎的情况给出科学的建议，例如哪种标题或设计更加吸引纽约地区的年轻女孩。大型互联网公司一般严格控制这类数据，外部人士极难获得。雅虎此次公布的数据体积为‍‍‍‍‍13.5 TB，相当于美国国会图书馆数据体积的2/3。

穆尔表示，绝大多数学术计算机科学家未曾接触如此庞大的用户数据，学者可能要把数据存储到大学外部的服务器，他们可能选择亚马逊或谷歌的云计算中心。

去年，雅虎和卡内基梅隆大学签署一份为期 5 年的合作合同，雅虎将为卡内基梅隆大学提供 1000 万美元研究资金，目的是基于用户数据开发个性化应用。

加州大学圣地亚哥分校电子与计算机系教授格特·兰克利（Gert Lanckriet）表示：“公司外部人士难以获得数据。”

专家认为，雅虎数据的规模使其极具价值。相较针对少量数据设计的算法，针对海量数据设计的算法具有本质区别。雅虎的数据可以让研究人员开发大型算法，这种算法尤其适合企业。

自 2006 年以来，雅虎已经发布了 50 多个数据集，包括 2014 年的 1 亿张 Flickr 照片缓存。此前，雅虎公布的最大数据集为 413 GB。谷歌和亚马逊公布的数据集相对较小。

数据科学初创公司 Fast Forward Labs 创始人希拉里·梅森（Hilary Mason）表示，一方面，科技公司要吸引人才和催生新理念。另一方面，它们要保护用户隐私和保持竞争优势。这种矛盾正逐渐加大。

梅森称，众多大型科技公司正尝试打造同样的功能，例如无人驾驶汽车、图像识别和个性化服务。公布用户数据之后，雅虎承担些许暴露商业秘密的危险，但雅虎认为吸引人才能带来更大回报。

尽管数家公司曾面向研究人员公布用户数据，但结果令人失望。2006 年，AOL 向研究人员公布用户数据，但意外泄露用户的搜索记录。2009 年，Netflix 公布大量用户的电影推荐和日志，并提供 100 万美元奖金，以奖励改进电影推荐算法的开发者。在两个例子中，外部人员都利用数据推测用户的身份，这种侵犯隐私的行为招致集体诉讼。Netflix 被迫取消该奖项。

2014 年，非死book 和康乃尔大学共同研究和操纵用户的情绪。研究过程中，非死book 调整用户信息流的内容，旨在研究用户的情绪反应，此举引发了巨大争议。随后，非死book 不得不限制用户数据的使用范围。

梅森表示：“自从 2006 年 AOL 遭遇隐私灾难，科技公司一直害怕公布数据。”

雅虎数据的敏感度似乎较低，其中仅包括城市、性别、年龄等基本人口统计信息，以及用户与雅虎网站相关的交互信息。

雅虎实验室首席研究科学家贝泽·耶茨(Ricardo Baeza-Yates) 表示，这次公布的数据集能够有效地防止个人追踪用户。例如，雅虎移除了来自人口稀少地区的用户信息。

来自: 腾讯科技

为吸引人工智能专家 雅虎公布13.5TB用户数据

相关资讯

为吸引人工智能专家雅虎公布13.5TB用户数据