Buzzfeed如何用算法找出打假球的网球选手
BuzzFeedNews 新闻聚合网站 BuzzFeed 以善于挖掘眼球著称,其新闻经常能炮制出很多话题。其中的奥秘在于它是一家以数据为驱动的公司。现在这家网站又利用大数据做出了一篇有关顶级男子网球选手打假球的 深度报道 。该网站的记者 John Templon 与 BBC 通过利用算法,对 2009 到 2015年 的 26000 场 ATP 与大满贯顶级男子网球赛进行了分析,经过长达 15 个月的艰苦调查后,他们得出了涉嫌打假球的场次和球员名单。不过文章并未披露具体球员名字,但是一个比较重磅的消息是其中有一位是排名前 50 的男选手,目前正在澳网打比赛。
Templon 首先跟体育博彩的调查员建立起一个测量指标— 赛前赔率变化(收盘相对开盘)超过 10 个百分点的赛事。然后对每位球员进行了 100 万次的模拟运算来评估选手打假球的置信度。最后在 26000 场比赛中找到了 39 位嫌疑人,其中有 15 位选手往往在下重注的比赛当中经常会输掉。有一位选手在 16 场下了重注的比赛中输了 15 场。
尽管这种模式的匹配并不能证明球员打假球,但是正常情况下,每每有人下重注押某位球员会输时他总是会表现不佳的可能性也是非常低的。Templon 称根据他的仿真结果,按照博彩公司最初开出的赔率,这名选手预期会输掉比赛的几率应该不会超过 1/7500。文章并没有透露选手名字,但称涉嫌打假球的球员是排名前 50 的选手之一,目前还正在澳网公开赛打比赛。
BuzzFeedNews 在 Github 上 共享 了与 BBC 合作的这篇名为 “ 网坛骗局 ” 文章的调查方法、 原始数据 以及 算法程序 ,其分析步骤大概是这样的:
1、数据获取 。从 7 家博彩公司下载 2009年 至 2015年9月 间 26000 场 ATP、大满贯比赛的开盘赔率和收盘赔率。
2、数据准备 。准备比赛赔率数据集,内容包括每家博彩公司为每场比赛开出的赔率,比赛双方选手、比赛结果、赔率变化情况等(将近 13 万条记录)。其中还根据赔率情况计算了每位选手的获胜几率(对方赔率 /(对方赔率 + 选手赔率))。
3、赛事排除 。将取消的比赛、开盘赔率高于或低于所有博彩公司赔率中位数 10%的赔率排除在外,共剩下 25993 场比赛。
4、赔率变化计算 。计算开盘和收盘赔率变化情况,如果选手 A 开盘胜率为 65%,收盘却变成 50%,则赔率变化为 15 个百分点。
5、选手选择 。选出赔率变化超过 10%的选手(有 11%的比赛出现这种情况)。10%这个数据是跟博彩公司调查员讨论后定下来的,超过这个数后博彩公司一般都会对赛事进行严格调查。然后再选出输掉超过 10 场这样赔率变化大的比赛的选手。最后发现有 39 名选手符合上述条件。
6、仿真 。这一步用来估计每位选手比赛的结果的不可能程度。利用开盘时每位选手的获胜几率来生成一连串的结果。每位选手要进行 100 万次模拟运算。
7、显著性检验 。然后对每位选手的结果进行显著性检验。最后发现有 4 位选手打假球的置信度达到 95%。另 11 位选手尽管没到达这种置信度,但输球的几率仍然低于 5%。
数据无疑可以帮助调查人员很多事情,尤其是利用算法对数据进行大规模分析在新闻组织中属于很罕见的例子。但是光靠数据科学家或者分析师来做调查是会存在巨大风险的,记者本人也需要对数据娴熟,对了解事实严格要求。这种技术的配合应该是让新闻故事符合事实,而不是拼凑出数据来配合故事。
而这次的大数据还只是利用了赔率分析,随着人工智能技术的发展和赛事转播记录的丰富,将来每一位球员的一举一动、表情神态可能都会被记录下来,运用大数据和人工智能进行动作分析、微表情分析,那时候数据能说明的东西也许会更多。
原创文章,作者:boxi,如若转载,请注明出处:http://36kr.com/p/5042453.html
“看完这篇还不够?如果你也在创业,并且希望自己的项目被报道,请戳这里告诉我们!”