维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑

jopen 9年前

维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑

前些时日机器学习的新闻很多,Google 开源其 Tensor FLow 系统,6 天后微软宣布 DMTK 也要开源,最后连 IBM 也有。如今非营利组织也来凑一角。维基媒体基金会推出物件版本评估服务(Objective Revision Evaluation Service, ORES),希望用机器学习的方式,找出含有恶意意图的内容增修,纠出像涂鸭、打广告这种防不胜防的事情。当然,维基基金会做的专案,一定是预设开源发布。

维基基金会采用机器学习的技术,对于群众贡献而且是处理文字资料的维基百科相当少见。由维基基金会资深研究科学家 Aaron Halfaker 导入 ORES 演算法,希望能够透过新的程序脚本找出打广告、涂鸦、大规模破坏等行为,把宝贵的人力用在实际内容产出和人际沟通上。现行的自动化脚本已经运作很久,得有 新的技术进来刺激技术革新。

以下为 ORES 采用的三种编辑品质管制 AI 和一种条目品质模式 AI,以及布署的维基百科语言:

CONTEXT MODELS
damaging goodfaith reverted wp10
dewiki German Wikipedia     维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
enwiki English Wikipedia 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑
eswiki Spanish Wikipedia     维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
fawiki Persian Wikipedia 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
frwiki French Wikipedia     维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑
hewiki Hebrew Wikipedia     维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
idwiki Indonesian Wikipedia     维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
itwiki Italian Wikipedia     维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
nlwiki Indonesian Wikipedia     维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
ptwiki Portuguese Wikipedia 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
trwiki Turkish Wikipedia 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑 维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
ukwiki Ukranian Wikipedia        
viwiki Vietnamese Wikipedia     维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑  
wikidatawiki Wikidata     维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑

“藉由结合开放资料和开源机器学习演算法,我们的目标是希望让维基百科的品质监控更加透明、可审计,并且很容易尝试。”Halfaker 说。“虽然引进 AI 和机器学习来处理大量社交的事情很怪,但我不觉得我们现在做的事情跟先前的软件更新有什么不同。”

维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑

▲ ORES Logo。(Source:wikimedia

维基基金会此次推出 ORES 预估要对抗编辑人数停滞不前甚至下滑的问题,让机器学习用来纠出恶意编辑,希望能够让宝贵的人力用在刀口,也就是实际的内容生产上。

目前英文维基百科已经有几个品质管制的自动化工具,尽管很成功维持维基百科的品质,但却同时提高新手贡献的障碍,这些自动化工具常常回退新手的编辑,因为新手有时候会出于无心,以及不熟悉编辑语法或工具,不小心移除片段。

维基百科也要来维基百科也要来机器学习,协助抓出恶意编辑,协助抓出恶意编辑

▲ ORES 的破坏预测模型。(Source:维基媒体官方博客截图

另一方面,引入自动化工具同时也加强新手指导工作,则能缓和老手跟新手的相处问题,老手对维基上的规距较熟悉,老手对没编辑的新手会看不顺眼, 有时候用不知道哪边翻找来的规章指责新手,或者常会认定新手未照维基方针的内容编写,是来打广告、知名度,而吓跑潜在的贡献者。用 ORES 能够让有经验的维基编辑,在判断编辑是否有恶意或广告意图时,能够有客观的依据,较不会带有情绪性。

ORES 目前已经在 14 个维基百科语言站启用,还没有应用到中文维基百科。现在中文维基百科上也有几个自动化 AI 的运作,分别侦测单纯繁简转化、清空整篇文章或章节等破坏行为。

相关链接

首图来源:wikimedia

来自: technews.cn