史上最大机器学习数据集，雅虎对外开放了

云淡锋轻 9年前

【导读】：数据是机器学习研究的命门。访问真正的大规模数据集，是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权，然而大多数学术研究人员缺无法触及。2016年1月14日，雅虎实验室对外发布了发布史上最大机器学习数据集，达 13.5 TB。

数据集主页： http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75 。下面是对雅虎实验室官博文章的翻译。

数据是机器学习研究的命门。访问 真正的 大规模数据集，是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权，然而大多数学术研究人员缺无法触及。

雅虎实验室的科学家们长期浸淫于面向顾客产品的大规模机器学习问题研究。这使得我们在诸如搜索排名、计算广告、信息检索以及核机器学习等领域进行深入思考。对外部研究团体来说，外部研究团体的兴趣一个关键方面是新算法和方法的应用，对产品买卖和从真实产品收集的大规模数据集。

今天，我们骄傲地宣布向研究团体公开发布史上最大机器学习数据集。该数据集存有海量信息，记录了2015年2月至5月间2千万用户约 1100 亿个事件 （ 13.5TB 未压缩 ）的新闻项目交互数据。

「雅虎新闻种子数据集」是一个基于若干雅虎产品匿名用户交互新闻种子样本，包括雅虎主页、雅虎新闻、雅虎体育、雅虎财经、雅虎电影和雅虎房产。

雅虎主页上的新闻种子

我们的目标是促进大规模机器学习和推荐系统领域的独立研究，为业界和学术研究领域提供帮助平台。数据集作为雅虎 Labs Webscope 数据共享计划的组成部分，该计划是由非商用匿名用户数据组成的科学实用数据集的引用库。

除了交互数据，我们还提供匿名用户的分类人口统计信息（年龄段、性别和泛地理数据）子集。在项目方面，我们发布标题、评论和相关新闻文章的关键词组。交互数据标记当地时间信息，并且包含用户访问新闻种子设备的部分信息，新闻种子容许上下文推荐和文本数据挖掘等吸睛业务。

雅虎实验室的个性化科学团队在全维度雅虎新闻种子数据集有许多有趣的作为，这点化了在行为模型、推荐系统、大尺度和分布式机器学习、排名、在线算法、内容建模以及时序挖掘等领域的一些引人注目的思想（例如《鸟类、应用程序和用户：可变尺度因式分解机和科学驱动产品和个性化：超越点击》）。

我们希望发布这个数据能启迪研究者、数据科学家以及机器学习界的发烧友，并用扩展的“真实世界”数据集帮助他们验证模型。我们坚信该数据集能成为大尺度机器学习和推荐系统的标杆，期盼来自我们数据应用团体的佳音。

2016年（大规模）机器学习快乐！

关于我们处理用户隐私的说明： 我们的用户每时每刻都置信于我们，我们努力赢得这份信任。我们积极地保护用户隐私，负责任地、透明地使用和保护用户个人信息。因此，作为该计划的一部分，我们业已将发布的数据集匿名化。