反对抄袭的斗争即将发生决定性的转折。学术出版商告诉自然他们希望,用来捕捉作弊学生的软件可以很快被用来揭露那些剽窃其他研究人员或他们自己成果的学者。

爱思唯尔(Elsevier)和布莱克威尔(Blackwell)等大型出版商出版了2500多份期刊,有报道称抄袭正变得越来越普遍,这促使它们采取了行动。英国牛津布莱克威尔出版社总裁鲍勃•坎贝尔说:“我们越来越频繁地从编辑那里听到这种说法。”

自我抄袭,即作者试图将已经发表的材料冒充新的,是一个特别的问题。在一个竞争日益激烈的环境中,任命、晋升和拨款申请都受到发表论文记录的强烈影响,研究人员承受着巨大的发表论文的压力,越来越多的少数人试图通过不诚实的手段来充实他们的简历。

这个问题的严重程度很难评估。定义抄袭并不简单(参见“底线在哪里?””),即使是最明确的病例,也很难衡量发病率。某些领域的研究估计,任何高达20%的已发表论文都含有某种程度的自我抄袭“抄袭有多普遍?”).这可能不能代表基础研究,但从来没有进行过严格的多学科研究。

资料来源:A. MACDONALD

尽管大多数案例从未被发现,但几乎所有被记者联系的编辑和出版商自然一致认为自我抄袭的现象正在上升。“编辑们注意到更多的案例,”Scott Dineen说,他是美国光学学会的编辑服务部主任,该学会出版了十种期刊。上个月,这一增长促使该学会发表了一份社论声明,承诺揭露抄袭行为1

反剽窃软件的出现,比如大学用来检查学生论文的软件,意味着编辑和出版商终于有了一个切实可行的方法来解决这个问题。在线服务将文章与网络搜索和从媒体渠道购买的大量文件进行比对。导师们可以看到论文的哪些部分似乎是抄袭的,以及抄袭的材料来自哪里。

出版专家表示,将这种技术应用于学术论文应该很容易,因为该软件可以绑定到出版商用来管理同行评审的在线系统上。该系统将在后台工作,编辑们只有在它标记出可疑的重叠程度时才会意识到这一点,然后他们才能详细检查。

坎贝尔说:“我们认为这是一个潜力巨大的想法。“它最终将成为编辑部的一部分。”

位于纽约伊萨卡市康奈尔大学的流行物理预印本服务器ArXiv几乎已经准备好部署抄袭检测软件。运营arXiv的康奈尔大学(Cornell)物理学家保罗•金斯堡(Paul gsparg)在档案馆发现22篇抄袭论文后采取了行动2

体育锻炼

康奈尔大学计算机科学博士生Daria Sorokina已经调整了一个现有的算法,以寻找连续至少有六个相同单词的任何两个文档。gsparg说,该系统已经发现了“大量令人尴尬的事情”。在一次测试中,一篇博士论文与三年前发布到档案馆的一篇论文共享了大量材料。到目前为止,gsparg说,测试已经揭示了几千对不同作者的文章“过度重叠”。

Ginsparg计划在arXiv网站上公布所有的配对结果,但不指控作者有不当行为,并要求相关研究人员做出回应。他希望这些结果将有助于改进算法,然后可以用于新提交的论文,在论文似乎重叠时产生警告。

世界上最大的科学出版商——总部位于阿姆斯特丹的爱思唯尔,每年发表约25万篇论文——也决定采取行动。上个月,该公司启动了一项为期一年的各种技术方案评估。

现在个人编辑和同行审稿人可以使用工具。图森亚利桑那大学的计算机科学家克里斯蒂安·科尔伯格开发了一种。在2003年的一次会议上,他被要求审查一篇论文,他回忆起为了研究它进行了谷歌搜索。他说:“我发现了一个刚刚被重新格式化的早期出版版本。”在第二年的同一次会议上,科尔伯格发现了另一份论文,其中大量抄袭了作者自己早期的作品。“这真的让我很生气,”他说。“我花了时间复习那些论文。”

模仿者

作为回应,科尔伯格开始研究“自我抄袭检测工具”(SPlaT)。出版商运营的剽窃检测服务可能需要数年时间才能建立起来,而科尔伯格的软件是免费的,针对编辑和同行审稿人。

该软件从作者的网站上抓取论文,并将它们相互比较,并与其他手工添加的手稿(如正在审查的论文)进行比较。科尔伯格拒绝透露他在50个计算机科学院系的网站上使用SPlaT时发生了什么,但上个月发布的总结结果显示,该软件发现了不止一对会议出版物,其中50%以上的文本是相同的,而且彼此没有引用3.

学生反剽窃服务是另一种选择。这为检测抄袭本身提供了可能性,而不仅仅是重复出版。例如,开发iThenticate软件的公司表示,其产品已获得5000家机构的许可,并且可以根据超过70亿页的数据库检查文档,以发现可疑重叠的情况。因为这个存储部分是由网络拖网生成的,它包含了作者网站和一些开放获取期刊的论文。如果一所大学订阅了这项服务来解决学生欺诈问题,这些机构的研究人员也可以在论文审稿时使用它。

来源:REF。6

自然对该软件进行测试后,它在识别同一文本在不同地方被合法使用的区域方面做得很好,比如在作者的网站上,以及在正确引用的引用中。但是,当一篇已知的抄袭文章被提交给iThenticate时,尽管它发表在一家有影响力的期刊上,但却找不到原文。

开发该软件的加利福尼亚公司iparadigm的总裁John Barrie说,其原因是大多数网络文学都被锁定在订阅障碍之后,因此无法添加到iThenticate的数据库中。

坎贝尔说,当出版商合作建立行业范围内的检测系统时,剽窃问题的整体解决方案可能会出现。关于这个问题的初步讨论已经在CrossRef的会议上进行。这家总部位于马萨诸塞州林菲尔德的公司与出版商合作开发了一种系统,使研究人员能够搜索来自许多不同公司的期刊。

理论上,这样一个系统可以捕捉到几乎所有的直接抄袭案例,尽管即使谈判进展顺利,它也需要几年时间才能建立起来。与此同时,编辑们说,随着少数研究人员不诚实地增加他们的参考文献名单,剽窃论文将继续潜入文献中。毕竟,一位承认的研究人员说自然以至于他偶尔会忽略那些与新出版物重叠的论文,以至于有一种感觉是“院长不识字,但会数数”。