为吸引人工智能专家 雅虎公布13.5TB用户数据
1 月 15 日,外媒报道称,为了吸引人工智能领域的顶级人才,雅虎公布大量用户的互网络行为数据。
周四,雅虎宣布,公司将公布最大规模的互联网行为数据,数据涉及浏览雅虎体育、雅虎财经、雅虎新闻、雅虎地产和其他版块的 2000 万匿名用户。雅虎仅面向大学机构公布数据,这些数据将让研究人员切实了解大量用户的互联网行为方式。
由于多年停滞不前,雅虎正面临严重的人才流失难题。人工智能领域快速增长,而且竞争异常激烈,雅虎希望吸引该领域的学术研究人员。
雅虎此举正值科技公司争相与学术界加强合作之时,而科技公司尤为关注人工智能领域。人工智能涉及机器学习和深度学习技术,这类技术可训练机器挖掘海量数据,旨在回答复杂问题或预测用户行为。
非死book 和谷歌已经招募顶级人工智能研究人员。例如,2013 年燕乐存(Yann LeCun)加盟 非死book,他继续运营纽约大学数据科学中心。
卡内基梅隆大学计算机学院院长安德鲁·穆尔(Andrew Moore)表示:“无论你拥有多少人才,管理者总是希望招募更多的人才。这些大型科技公司总觉得缺少某类研发人才。”
海量数据是机器学习的必备要素。利用这些数据,电脑可分析复杂的模式,根据雅虎的情况给出科学的建议,例如哪种标题或设计更加吸引纽约地区的年轻女孩。大型互联网公司一般严格控制这类数据,外部人士极难获得。雅虎此次公布的数据体积为13.5 TB,相当于美国国会图书馆数据体积的2/3。
穆尔表示,绝大多数学术计算机科学家未曾接触如此庞大的用户数据,学者可能要把数据存储到大学外部的服务器,他们可能选择亚马逊或谷歌的云计算中心。
去年,雅虎和卡内基梅隆大学签署一份为期 5 年的合作合同,雅虎将为卡内基梅隆大学提供 1000 万美元研究资金,目的是基于用户数据开发个性化应用。
加州大学圣地亚哥分校电子与计算机系教授格特·兰克利(Gert Lanckriet)表示:“公司外部人士难以获得数据。”
专家认为,雅虎数据的规模使其极具价值。相较针对少量数据设计的算法,针对海量数据设计的算法具有本质区别。雅虎的数据可以让研究人员开发大型算法,这种算法尤其适合企业。
自 2006 年以来,雅虎已经发布了 50 多个数据集,包括 2014 年的 1 亿张 Flickr 照片缓存。此前,雅虎公布的最大数据集为 413 GB。谷歌和亚马逊公布的数据集相对较小。
数据科学初创公司 Fast Forward Labs 创始人希拉里·梅森(Hilary Mason)表示,一方面,科技公司要吸引人才和催生新理念。另一方面,它们要保护用户隐私和保持竞争优势。这种矛盾正逐渐加大。
梅森称,众多大型科技公司正尝试打造同样的功能,例如无人驾驶汽车、图像识别和个性化服务。公布用户数据之后,雅虎承担些许暴露商业秘密的危险,但雅虎认为吸引人才能带来更大回报。
尽管数家公司曾面向研究人员公布用户数据,但结果令人失望。2006 年,AOL 向研究人员公布用户数据,但意外泄露用户的搜索记录。2009 年,Netflix 公布大量用户的电影推荐和日志,并提供 100 万美元奖金,以奖励改进电影推荐算法的开发者。在两个例子中,外部人员都利用数据推测用户的身份,这种侵犯隐私的行为招致集体诉讼。Netflix 被迫取消该奖项。
2014 年,非死book 和康乃尔大学共同研究和操纵用户的情绪。研究过程中,非死book 调整用户信息流的内容,旨在研究用户的情绪反应,此举引发了巨大争议。随后,非死book 不得不限制用户数据的使用范围。
梅森表示:“自从 2006 年 AOL 遭遇隐私灾难,科技公司一直害怕公布数据。”
雅虎数据的敏感度似乎较低,其中仅包括城市、性别、年龄等基本人口统计信息,以及用户与雅虎网站相关的交互信息。
雅虎实验室首席研究科学家贝泽·耶茨(Ricardo Baeza-Yates) 表示,这次公布的数据集能够有效地防止个人追踪用户。例如,雅虎移除了来自人口稀少地区的用户信息。
来自: 腾讯科技