当学术权威们遭遇机器人打假……

jopen 8年前
   <p style="text-align:center"><img alt="当学术权威们遭遇机器人打假……" src="https://simg.open-open.com/show/bed6209c3524fc77b7efacb76dd0dd9a.jpg" /></p>    <p style="text-align:center">头图来源/images.wisegeek.com</p>    <p>2016 年夏天的一个早上,德国心理学家马蒂亚斯·考夫(Mathias Kauff)被一个找上门来的机器人吓了一跳:在一封电邮里,一个自称 Statcheck 的计算机程序通知考夫,在他 2013 年发表的一篇有关多元文化和歧视的论文里,有大量演算不准确,该程式已经将那篇论文的失误罗列出来,在互联网上公之于众。</p>    <p>事后考夫发现,Statcheck 指出的问题不过是少数四舍五入的误差。可这段经历已经让他感到惊恐,因为他像被扒皮一样面对各种指责。</p>    <p>考夫不是唯一受到这种“骚扰”的科学家。Statcheck 已经读取了大约 5 万份公开发表的心理学论文,检查其中证明统计结果的数学算法。过去二十年所有活跃的心理学科研人士都在经过该程式检查后 24 小时内收到一封邮件,通知他们已经接受了审查。</p>    <p>这个小小的程序掀起了一场前所未有的学界风暴:从来没有谁这样大范围地公开追溯评估科学文献,更何况“裁判官”是不通情理的机器人。</p>    <p>Statcheck 的方法其实并不复杂,与其说是详尽的评估,不如说是类似检查拼写错误那样的数学检验。可一些科学家将它视为新式的监视和猜疑,警告这种既不负责任又未经认证的批评将威胁同行评审的客观性和权威性。</p>    <p>美国心理科学协会前会长苏珊·费斯克(Susan Fiske)斥 Statcheck 为“自封的数据警察”,称它发起了“新形式的骚扰”。德国心理学则发布声明,公开谴责未经授权使用 Statcheck 的行为。</p>    <p>学者们反应如此剧烈,不只是怕 Statcheck 揪出自己的统计误差,更担心因此被贴上行为不当的标签,声名扫地。</p>    <p>相较之下,Statcheck 这次惊天行动的“导演”——25 岁的荷兰科学家克里斯·哈杰因克(Chris Hartgerink)玩得兴起 。他对《卫报》说:“我们所知的这个科学系统糟透了,几年前我就想为改善它出一份力。”</p>    <p>Statcheck 是哈杰因克的同事米歇尔·纽顿(Michèle Nuijten)开发的。2015 年,纽顿用这个程序证明,心理学期刊发表的论文中约半数都有一个统计数据错误。《自然》刊发了她的研究,可她并没有公布程序检测到的具体错误,也没有列出那些作者犯下了错。几个月后,哈杰因克用自己设计的一些代码改写了 Statcheck,使之罗列出每个错误,发布在网上,这才激起科学界的轩然大波。</p>    <p>哈杰因克没有就此罢手,他打算再接再厉。在他看来,当务之急是拿出比纠正统计数据计算错误更无畏的行动。 他坚信,学术造假这种恶劣现象非常普遍,目前被公开的案例只是冰山一角。他要开发一种能揭发虚假或人为操纵的学术成果的程序。</p>    <p>耐人寻味的是,敢于公然挑战学界权威、不惜引发众怒的哈杰因克身处荷兰南部宁静小城蒂尔堡。表面上看,这种地方不可能诞生这种敢冒天下大不韪的激进人士,却很少有圈外人知道,蒂尔堡曾爆出现代科学史上臭名昭著的学术欺诈丑闻,而哈杰因克和他的同事比世界上任何人更了解造假的个案可以造成多大的破坏。</p>    <p style="text-align:center"><img alt="当学术权威们遭遇机器人打假……" src="https://simg.open-open.com/show/8288683aa9849aa2d3e08f0ef9fceb48.jpg" /></p>    <p style="text-align:center">荷兰蒂尔堡大学。图片来源/image0.tcdn</p>    <p><strong>曾经备受敬仰,如今学术骗子</strong></p>    <p>2010 年 9 月,青年社会心理学家德里克·斯塔佩尔(Diederik Stapel)被任命为蒂尔堡大学社会与行为学院院长。当时的他前途光明,人气很高。在学生眼中,他是待人和气的师长,在大学教职同仁眼中,他对科学文献驾轻就熟,而且热衷与大家合作。他时常帮助同事,有时甚至也帮学生做调查、收集数据。</p>    <p>升任院长后,斯塔佩尔很快得到了同事的信任。2011 年 4 月,他为规模不大的蒂尔堡大学创造了历史,成为首位在权威科学期刊《自然》上发表论文的该校学者。</p>    <p>斯塔佩尔着重研究心理学的一个专有名词<a href="/misc/goto?guid=4959001310664910487">“启动”(priming)</a>:它是指那些不为人注意却对人类行为产生重大影响的小刺激。</p>    <p>那篇文章提出这样的问题:“人有没有可能因为街边垃圾这种看似无足轻重的小事而遭到歧视?”比如,在荷兰第四大城市乌得勒支,如果火车站内看上去很脏,白人通勤上班族坐的位置往往会离少数族裔远些。他还发现,和在干净的街道相比,如果在肮脏的街道接受采访,白人更有可能对少数族裔的调查问题给出负面的回答。</p>    <p>斯塔佩尔擅长设计这种巧妙的研究课题并落地。面对复杂的问题,他能提炼出清晰的数据。到 2011 年,他已经升任教授十年,其间发表论文上百篇,其中为人所知的研究包括:无论如何设计内容,美容产品广告都使女性更负面地看待自己;秉持司法公正意识的法官在做裁决时较少受种族因素影响……</p>    <p>斯塔佩尔的发现常常因为媒体报道进入公众视野。他的研究常揭示,性别和种族歧视这类经久不衰的重大社会问题与日常小事息息相关。这样的观点自然对读者有很强的吸引力,而且它们暗示大家可能找到既简便又得体的解决方法。</p>    <p>如果说斯特佩尔德多种多样的兴趣有什么共通之处,那应该是这种接地气的魅力。他的研究经常见诸《洛杉矶时报》、《纽约时报》等高人气报端,他本人还成为荷兰电视节目的常客。</p>    <p style="text-align:center"><img alt="当学术权威们遭遇机器人打假……" src="https://simg.open-open.com/show/be95a73c3d51881996c495cc997530de.jpg" /></p>    <p style="text-align:center">曾经的学术明星斯塔佩尔。图片来源/static1.net</p>    <p>但渐渐,一小部分同事和学生开始产生怀疑:“太完美了,不像是真的,”当时在蒂尔堡大学工作的教授约瑟夫·罗宾(《卫报》调查者应本人要求化名)回忆,“他的实验都能证明论点,怎么会有那种事。” 2010 年,一名学生向罗宾提起,斯塔佩尔的一些数据看起来有古怪。</p>    <p>于是同年秋天,也就是在斯塔佩尔被任命为学院院长不久,罗宾主动提出和斯塔佩尔合作,希望第一时间了解他的研究方法。斯塔佩尔同意了,几个月后发给他一些数据。罗宾说那些数据看起来难以置信,没有内在一致性,“一点也不像我见过的任何真实数据。” 在那名提出质疑的学生帮助下,罗宾从斯塔佩尔的合作者和以前执教的学生手中掌握了更多他的数据组,越来越多证据显示,他的数据可疑,而且他曾经直接在一项研究中全盘照搬另一项研究的数据。</p>    <p>2011 年 8 月,系主任马塞尔·泽伦伯格( Marcel Zeelenberg)收到对斯塔佩尔的举报,泽伦伯格带着举报者提供的证据与他对质,他起初否认,但几天后就承认举报人的指控属实:他从未在火车站走访过乘火车上下班的人,没有调查过哪位女性对美容产品广告的看法,也没有了解过法官怎么看待司法公正和种族歧视。</p>    <p>事实上,斯塔佩尔的行径甚至称不上是“数据粉饰”研报,因为大部分数据都是他趁妻子和孩子睡着后在家中厨房里捏造出来的。他的作法与正确的科研步骤<strong>完全颠倒</strong>:先是确定要得到哪种结论,然后反向操作,由结果推测需要收集哪些数据点,再把数据填上。</p>    <p>2011 年 9 月 7 日,蒂尔堡大学发布了斯塔佩尔停职的消息,媒体先是猜测他几天前一项宣称食肉者更自私、更不合群的研究可能出了问题,但显然,这里头的水比所有人想象的都深。</p>    <p><strong>高科技打假先锋原是造假大师门生</strong></p>    <p>两天后,学校成立了专项调查委员会。为了确认斯塔佩尔造假的严重程度,委员会找到系里的一位统计学家兼心理学家马塞尔·范阿森(Marcel van Assen)帮忙。范阿森当时正好对手头的研究感到厌倦,并且对校内红人斯塔佩尔也不怎么感冒,觉得他的管理更依赖个性魅力而不是理性,于是欣然接受了调查的任务。</p>    <p>范阿森花了一年时间分析斯塔佩尔在蒂尔堡期间发布的 45 份研究,列出所有数据误差,指出哪部分效应量(衡量一项实验中实验组与控制组差异的标准)看来大得可疑,哪些数据次序是从别处复制的,哪些变量相关性过高,哪些变量本应同步却未呈现在研究里。</p>    <p>2012 年 10 月,委员会主要根据范阿森的分析结论公布了最终调查报告,正式撤回 55 份斯塔佩尔此前在期刊发表的论文。虽然斯特佩尔本人此后退还了取得的博士学位,但他已经制造了科学界史上罕有的大骗局。观察机构 RetractionWatch 将其列为史上论文撤回量第三高的学者。</p>    <p>蒂尔堡大学震惊了。斯塔佩尔的学生和同事发现,他那些令人艳羡的技巧不过是唬人的把戏,而自己将近十年里撰写论文引用的观点都是谎言。</p>    <p>斯塔佩尔被停职的消息传出时,哈杰因克还在图书馆自习。虽然那时斯塔佩尔的骗局还没有彻底曝光,但这位蒂尔堡大学心理学系本科生已感到瞬间失去方向,仿佛丢失了某种坚实又不可或缺的东西。斯塔佩尔是他的导师,曾经聘他做研究助理,还时常给他鼓励。事后,哈杰因克认为当时自己受到打击巨大:</p>    <blockquote>     <p>“是这个人启发我开始真正有了研究的热情。没有了那种产生热情的理由,你说还有什么意思?”</p>    </blockquote>    <p>哈杰因克坦言,斯塔佩尔引爆了科学界的重大危机,他的骗局败露后,自己开始拼命寻找某个领域里有没有可以信赖的东西。而后,哈杰因克注意到,对科学家来说,主观地解读或者操控数据简直不费吹灰之力。有那么一阵子,他甚至考虑放弃研究,做个警察。所幸天无绝人之路,哈杰因克因为统计学课结识的范阿森带他迈上了科学打假的征途。</p>    <p>经历了斯塔佩尔作假调查,范阿森找到了真正的兴趣所在。他再也无心本职研究,而是成立了一家专门调查学术界草率研究和不当行为的机构 <a href="/misc/goto?guid=4959001310769596996">Meta-Research Center</a>。哈杰因克也于 2013 年加入。</p>    <p>越来越多科学家认为,当前学界最紧迫的是确定哪些学术成果和方法还值得信赖。最初, Meta-Research Center 的项目只是研究误差和常见的偏差,但范阿森提出,要更进一步,全力瞄准要害,开发探查方法,在已发表的科学文献中挖出虚假的数据。</p>    <p><strong>学术造假水深,成见比欺诈更难打</strong></p>    <p>目前为学界所认可的接受的调查结果来自 2009 年斯坦福研究者丹尼埃尔·法内利( Daniele Fanelli)的研究。他收集了此前 21 项针对不同领域科学家研究行为不当的调查结果。根据这些完全依靠科学家如实汇报自身不当行为的研究,法内利得出,约有2% 的科学家在研究生涯中曾经伪造数据。如果法内利的估算无误,每年还几千名“漏网之鱼”。</p>    <p>范阿森与哈杰因克认为,大部分科学造假还没有被检测确认,并且科研过程中不当操作的实际发生率远高于2%。范阿森指出:“我们不能相信那些当事人的汇报。这好比你在开会时当众问一位男士有没有背着未婚妻偷情,对方很可能不会承认。”</p>    <p>因为 2012 年揭发了两起心理学领域的恶性欺诈案,美国宾夕法尼亚大学沃顿商学院心理学教授尤里·西蒙逊( Uri Simonsohn)落得“数据义务警察”的“恶名”。他预计,在已发表的研究论著之中,含有欺诈性数据据的可高达5%。他说,这种情况不仅仅发生在边缘学科,也不仅存在于读者寥寥的期刊,可能一些知名度很高的论文也有假数据,一些名流也造假。</p>    <p>可只要无人揭露,科学界就那种对热门领域欺诈不以为然的风气就不会消失。曾揭发多个科研领域欺诈现象的美国微生物学家阿图罗·卡萨德瓦尔,也建议调查者把时间花在影响更广泛、更值得调查的问题上。回顾过往,至少那些致力于抵制不当行为的科学家都持这种看法。</p>    <p>1983 年,英国免疫学家、诺贝尔奖获得者彼得·梅达沃在《伦敦书评》上发文坦言,不诚实的科学家数量很难统计,可即便不诚实变成令人谈之色变的普遍现象,也不足以阻止科学成为人类从事的最成功事业。 换句话说,只要科学继续造福人类,研究人员顺利进行基因排序、化学分类,疾病能得到可靠的确诊和治疗,那么造假在多数科学家眼中就还会只是无关痛痒的问题。</p>    <p>然而,科学界的不当行为可能产生严重的危害。例如,欧洲一流医科大学瑞典卡罗琳斯卡医学院的医生保罗·马基亚里尼(Paolo Macchiarini)被爆出他造假自己发明的试验性外科手术疗效,导致多名患者接受他的手术后不治身亡。他目前正接受瑞典检控方调查。</p>    <p>即使是相对更平凡的日常研究,科学家也需要根据过去的研究成果积累可靠的经验,支持自己的理论。若学术造假行为真如哈杰因克和范阿森所想的那样普遍,虚假的成果就会遍布科研文献,像尚未爆炸的矿山一样威胁着一切建立在它们基础上的新兴研究。假如能将科技运用于科学领域的自我校正,至少学界能真正了解问题的严重程度。</p>    <p>需要正视的是,科学界追捕造假行为的动力不足。</p>    <p>科研界历来没有森严的等级,更多的是一些研究机构和专业组织建立松散联盟,大学作为科学领域的核心实体也不涉足科研成果的评估。只要造假没有被公开,大学几乎不会有追查的压力。</p>    <p>于是,保证科研诚信的重大责任就落在每位科学家身上,唯有寄望他们自我管理、彼此约束。西蒙逊说,这种自控岂止是远远不够,甚至起不到效果。即便抓到最招摇的造假者,那帮人只是冰山一角。而且,就算是曾经的举报者也越来越不愿揭发造假。西蒙逊和蒂尔堡大学当年举报斯塔佩尔的那些人都表示,不会再为打假挺身而出。一名学生说,心理学界不可能在那样对待造假了,肯定有更好的方法。</p>    <p><strong>科技打假,万里长征的一小步</strong></p>    <p>专职研究学界造假问题以来,哈杰因克饱尝人生五味,既备受非议也得到支持和奖励。</p>    <p>2016 年 8 月,在同事帮助下,他将 Statcheck 的所有成果公开发布在同行评审网站 <a href="/misc/goto?guid=4959001310872710609">PubPeer</a>,最初在 推ter 网站和一些科学博客上得到肯定,称赞的人主要是年轻学者和开明人士。但哈杰因克也受到以老一辈科学家为主的学界人士谴责,这些批评者担心他的做法会招致公众对学界的谴责和羞辱。</p>    <p>同年 12 月,主流科学期刊《自然》终于发声。在《自然》的一篇社论中不具名地提到了 Statcheck 引起的争议,对科学领域自动化审查的未来发展方向给予谨慎的支持。那篇社论的结语看似支持了哈杰因克选择的道路:“必须接受自我批评。”</p>    <p>同在 12 月,美国国立卫生研究院下属机构研究诚信办公室(ORI)给予哈杰因克一小笔奖金,以此支持他调查不当行为的新项目,包括完成探查伪造数据的项目工作。哈杰因克和范阿森此前从未因打假研究得到任何外部融资。在他们眼中,ORI 这笔约 10 万美元的奖金就是在为他们的努力正名。</p>    <p>但科学界的改变还很缓慢。范阿森说,到 2011 年才开始真正出现推动学界更开放、更有责任感的行动。到目前为止,它吸引了科学领域媒体的极大关注,设定了值得称道的目标,可是根基仍然很脆弱,许多科学家相信形势会好转,但又觉得哈杰因克和范阿森太过乐观。即便是一些做着类似发掘欺诈工作的科学家,对范阿森和哈杰因克的方式也持保留态度。</p>    <p>2012 年,时任《麻醉学报》主编史蒂夫·叶提斯(Steve Yentis)带头发起对原日本东邦大学麻醉学家<a href="/misc/goto?guid=4959001310961140119">藤井吉高</a>的调查。此后,藤井因伪造数据被撤回 183 篇论文。据 RetractionWatch 统计,目前仅以篇数论,藤井保持着史上最大科学造假案的记录。</p>    <p>叶提斯对自动化检测统计数据也很有兴趣,但他不打算将检测结果公之于众,而是认为学术期刊编辑可以利用这些检测筛选文章。叶提斯向《卫报》调查者表示,判断造假是很难权衡的,“你说一个人是骗子,那必须断定依据多少发现不实之处的论文能得出这样的指控。”</p>    <p>此外,有人担心,除了打击真正的骗子,Statcheck 还会误伤一些无意之中出错和误报的科学家,这会让学界更混乱,无谓增加有待筛选排查的工作。西蒙逊将此称为“在游乐场放了一把装了子弹的枪。”</p>    <p>对此,范阿森表示,部分科学家会因为错误被曝光感到气愤,他无意让任何人不快,但科学就应该公开透明,有批判性,追求真理。“问题在于,大家觉得科学家举足轻重,他们的人生负有特殊的使命。科学家自己也这么认为。而这是对人的偏见<strong>。</strong>当你能够客观看待问题的时候,个人根本不重要。我们只应该关注那些对科学、对社会有利的。”</p>    <p>本文首发于<a href="/misc/goto?guid=4959001311054782175">《卫报》</a>,作者 Stephen Buranyi,经钛媒体节选整理,编译/若离、元婕</p>    <p>来自: <a href="/misc/goto?guid=4959001311151690074" id="link_source2">钛媒体</a></p>