简介

从摄影的早期开始,科学出版物就使用图像来说明提出的方法,帮助解释理论,最重要的是展示实验结果。摄影本身成为实验的一部分,产生了关键的结果,如图51,这张x射线衍射图像首次清晰地显示了脱氧核糖核酸(DNA)的结构1.后来,随着数码摄影技术的出现和普及,数码图像被添加到科学储备中,大大提高了摄影内容的生产速度。在一些科学领域,如生物医学,由专用仪器拍摄的图像本身被接受为结果,构成了在考虑假设时需要仔细检查的要素2

随着从经典摄影到数字成像的转变,编辑软件进入了场景,使研究人员可以轻松地修饰和合成图像。一方面,这些编辑大多是合法的、良性的、可接受的。这包括视觉增强的强度校准或旨在使不同结果的比较更容易的组合。另一方面,有些编辑是有问题的。这样的编辑包括错误(例如,作者无意中提供了错误的实验结果)和不当行为(意图欺骗读者)。在这项工作中,不管审查中的修改的目的是什么,我们都将其称为图像后处理由于它发生在数字成像管道的末端,在捕获和数字化之后。因此,当我们发现图像后期处理时,我们并不是说这是一个错误或不当行为。我们把这样的判断留给图像所来自的科学领域的专家。

图1
图1

图像后处理事件通常出现在科学不端行为的实例中,这是SILA的目标。这些例子是为了说明而人为生成的。在(一个),则有图像重用的情况。2015年发表并声称是肝细胞(上)的培养物在2019年的另一篇文章中被重新利用,声称是肺细胞(下)。在(b),有一种情况是内容复制移动,其中顶部的原始图像被修改,以显示底部较少的疾病影响细胞(带有红点)。复制原始内容的部分(正常单元格和背景像素)以隐藏和删除不需要的单元格。在(c),有内容拼接。绿色箭头指向旋转和调整大小后,从顶部图像到底部图像的拼接单元格。此图中的所有原始图像均属于公共领域3.456

数字1描述了在科学出版物中可能发生的图像后处理事件的三个例子,其检测在这项工作中被解决。科学中存在后处理事件是一个相关问题,因为已确定的错误和不当行为案例要求尽快更正或撤销相关论文。事实上,除了对研究人员声誉的负面影响外,错误和不当行为还会影响科学研究和研究成果的可信度,导致不公平的资助情况,如果不被发现,还会导致发展不可靠的技术。

在5年时间里(2011年至2015年),美国卫生与公众服务部通过研究诚信办公室(ORI)确定的近78%的研究不端行为案例涉及图像操纵7.一些病例在网上被报道89.最近,为了应对2019年冠状病毒疾病(COVID-19)的爆发,大量科学论文在没有进行适当同行评审的情况下匆忙发表。1011.这些论文中有许多得到了社交媒体和新闻媒体的关注,尽管存在一些问题,包括无意中重复使用等图像后处理事件12和重复13.尽管病例有所增加,但科学界在系统地解决这一问题方面进展缓慢。

为了应对科学出版物中与图像相关的错误和不当行为日益严重的问题,并意识到以更快和更可扩展的方式进行论文筛选的重要性,以处理大量数据并减少任务的单调性,我们介绍了SILA作为科学图像分析系统。SILA实现了一种新颖的人在循环计算工作流,用于科学完整性验证,以揭示科学出版物中的图像后处理事件。它集成了先进的图像处理、图像取证和计算机视觉解决方案,为人类专家提供有意义的分析,帮助他们决定所发现的事件是否合法。

与以前的工作不同,实现的系统为计算机科学以外的人提供了一个易于使用的图形用户界面(GUI),并且开发的目的是易于扩展,以便快速包含新的图像分析工具。系统需求是在ORI合作伙伴的帮助下收集的14.为了测试所提出的工作流和所实现的系统的有效性,我们进行了实验,并在一个精心收集和注释的数据集上报告了解决方案每个组件的性能,这些数据集包含了具有质疑图像的撤回论文的真实案例。

综上所述,本文的贡献有:

  • 先进的图像处理、图像取证和计算机视觉工具(如复制移动检测和出处分析)的独特而有原则的组合,为科学出版物中发现图像后处理事件的问题定制。据我们所知,这是第一次将图像来源分析应用于手头的问题。简而言之,出处分析旨在检查多张图片,以确定它们共同的编辑历史,通过图表表达一张图片是如何产生另一张图片的,即使它们来自不同的出版物。

  • 一个实现端到端工作流的系统(即SILA)——从可移植文档格式(PDF)文件到图像来源图——帮助专家(i)发现图像后处理事件和(ii)确定它们的合法性。虽然大多数任务都是自动化的(例如从PDF文档的二进制流中提取图像和标题),但最终的决策留给了专家,他们根据提供的证据拥有最终的决定权。

  • 一个新的数据集,包含撤回(由于图像后处理事件的记录存在)和迄今为止无人质疑的科学论文,我们正在向社区提供,希望它成为算法和系统开发的标准基准。该数据集有来自不同国家的988份出版物。虽然它比其他文献中的小151617,它提供了一组更完整的注释和特定于任务的指标,这将有助于未来使用它作为基准的工作。

结果

本工作的结果在此按照以下方面进行组织:(i)最终实现的系统,(ii)实验中使用的论文数据集,并有资格成为科学完整性基准,(iii)在此数据集上演示系统的一些能力的定性结果,以及(iv)系统在此数据集上的能力的定量结果。

实现系统

图2
图2

SILA系统。在(一个),介绍SILA的设计运作,突出“人在循环”的特点。一名对一系列科学出版物产生怀疑的分析师将这些出版物以PDF文件的形式输入系统。然后,系统执行一系列内容分析,提供证据,让分析人员对出版物的完整性做出决定。在(b),列出拟议的一系列分析(系统工作流程)的细节,包括五个任务(用圆角矩形表示)及其各自的结果(前面有一个“+”号,表示它们已加入系统的最终输出)。

数字2a提供针对SILA设计的操作的高级概述。它突出了该系统的“人在循环”特性,该系统支持对一系列科学出版物产生怀疑的分析师。系统反馈是在分析人员的要求下提供的,分析人员可以逐渐收集出版物图像完整性的证据,然后再决定它们是否代表不当行为。

数字2b详细描述了分析人员可以通过SILA执行的五个任务的顺序,说明了建议的系统工作流程。正如人们可能观察到的那样,每个任务都会生成特定类型的信息(例如,带有各自标题的提取图,突出显示操作过的图像区域的掩码),这些信息将被添加到系统的最终输出库中。实施的五个任务是:

  • 内容提取这个任务负责从给定的可疑PDF文件中自动提取图形及其相应的标题。图像从对象的PDF二进制流中解码,并在与各自的图像关联之前从PDF文本中检索标题。标题在理解所发表的数字的上下文方面起着重要的作用。

  • 面板分割许多科学论文中的数字由多个面板组成18.该任务允许分析人员选择多面板图形(例如,由一个或两个显微镜输出、图形和条形图整理在一起组成的图形)并自动将它们分割成更小的部分,每个组成面板一个。通过这样做,系统有助于消除不相关的背景,并单独对每个面板进行优先级分析。

  • 形象排名一旦从PDF文件中提取的图像可用(包括原始的整个图形和经过适当分割后的各自面板),分析人员就可以根据需要多次选择感兴趣的图像,并检索各种PDF文件中存在的类似内容,例如完全副本、近似副本和语义相似的元素,其方式类似于谷歌反向图像搜索19.图像排序有助于减少混乱,并允许分析人员专注于一组特定的潜在相关数字。

  • Copy-move检测该任务允许分析人员对选定的图形(甚至在适当的分割后,选定的面板)执行单幅图像分析。目的是检查图像中的克隆区域(即复制-移动检测)20.),这可能是捏造或隐藏不想要的结果的强烈迹象。

  • 来源分析除了检查单个图像之外,来源分析还提供给分析人员作为一种新工具,用于检测一个或多个出版物的不同部分之间的内容拼接和重用。简单来说,来源分析21提供关于图形集和图形面板如何共享可视内容(取决于分析人员的选择)的解释。

图3
图3

实例实现了系统GUI组件。在(一个),与操作系统无关的界面允许分析人员以PDF文件的形式上传多个感兴趣的科学论文。在(b),基于网页浏览器的系统图形用户界面已经填充了由系统自动从提供的PDF文件中提取的内容。该界面遵循网页的标准,让分析师执行图中所示的五个任务中的每一个。2b.在本例中,为了说明起见,所描述的内容是用SILA从DOI可用的出版物中提取出来的https://doi.org/10.7554/eLife.40712根据创作共用公共领域许可协议。

数字3.显示了一个系统GUI的示例,其目的是提供一个大多数人都熟悉的直观界面。因此,我们实现了一个基于web的GUI,其中包含丰富的输入和输出图形组件(如网页、网页链接、单击按钮、选择框、图像面板等)。这些组件可以通过任何现代web浏览器在客户端快速呈现,而不需要由分析师安装专门的软件。要使用该系统,他们所需要做的就是访问应用程序的网址。

考虑到敏感的应用程序领域和SILA的功能,我们决定不无限制地在网上公开它。这样做的主要原因是为了避免在没有适当的人类专家监督和辩护权保证的情况下,不加区分地使用该制度来指控从事科学不端行为的专业人员。因此,我们将使SILA的全耦合版本仅在正式请求和签署责任协议时提供给适当标识的各方。不管怎样,我们正在GitHub上设置系统的解耦模块(参见https://git.io/JwWVe)作为我们最大的努力,以保持这项工作的科学可重复性的社区。

科学论文数据集

科学论文(SP)数据集是一组科学出版物,包含从世界各地收集的样本,并记录了图像后处理事件。为了收集这些样本,我们首先从数百种期刊中选择了298篇被撤稿的论文,这些论文的撤稿原因是图像存在重复、捏造、操纵和重复使用等问题。然后我们关注每篇论文的通讯作者,收集更多他们共同发表的论文,包括任何其他被撤回、更正或定期发表的论文。通过这样做,我们收集了额外的358篇论文。为了预测评估假警报率的需要(当检测到目标条件时,即使没有记录的问题),我们还从PubMed Central收集了一组332篇生物医学论文22没有已知的问题。每篇论文至少包含一张已发表的图片,其结果没有公开涉及任何诚信调查。所有选定的出版物都是仅使用公开资料确定的。包含在数据集中并不一定意味着一篇文章是任何研究不端行为指控或诉讼的主题。

我们正在将此数据集提供给社区(参见https://git.io/JcZsX),以及一些特定于任务的基本真相注释(例如,被操作图像中的克隆区域,详细说明跨论文重用图像的来源图)。每篇论文都由其数字对象标识符(DOI)引用,并且根据出版商网站上的可用性,我们提供了诸如出版网页、PDF文件、图表、图标题等信息的链接,所有这些都以JavaScript对象符号(JSON)编码为与出版相关的元数据。23

图4
图4

在SP数据集中提供注释。在(一个)、与内容提取任务相关的附加数据和注释。提供了有关出版物的元数据和出版商网站提供的原始纸质数字的链接,以及它们各自的标题。在(b),与面板分割任务相关的标注。对于一组选定的纸质图形,将提供手动注释的内容掩码,定义多个包围框,这些包围框分别包含用于进一步分析的感兴趣的面板。在(c),与图像排序任务相关的注释。提供了一组选定的图形面板,每个面板包含其视觉上相似的图像列表(即图像秩),从最相似到最不相似的元素排序。在(d),与复制移动检测任务相关的注释。对于一组选定的纸质图形,将提供手动注释的掩码,突出显示每个图像中的克隆区域。在(e)、与物源分析任务相关的注释。来源图以JSON格式提供,链接了共享可视内容的图,并在数据集论文的子集中重用。此图中的原始图像属于公共领域3.456242526

数字4总结了为图中描述的每个任务提供的注释。2b.对于内容提取任务,我们提供了1876个高分辨率原始数据的链接,这些链接由出版商的网站提供,用于数据集中285篇文章的子集。这些数字在各自的手稿中附有文字说明。本内容旨在成为旨在从PDF文件中提取图像和说明文字的解决方案的基本事实。

对于面板分割任务,我们招募了两名注释人员手动分割相同的303个图,这些图都是由48篇文章的出版商网站提供的,这些文章是从数据集中随机选择的。为了检查各个面板注释的一致级别,我们使用交集胜于联合(借据)分数,计算方法为各像素的交叉面板面积除以并集。根据这个定义,借据值落在[0..]1] interval, where strong agreements lie closer to one. For the case of the two annotators, the image-wise average借据得分为0.88,表明他们之间有显著的一致性。由于有冗余注释,我们决定将重点放在注释者的协议上,以构成303个图形的最终基本真理。因此,我们使用两个注释之间的重叠区域来生成所提供的预期面板分割掩码集。

对于图像排名的任务,我们从数据集中的48篇文章的PDF文件中提取并选择了2843个图形面板,并请两名注释人员分别为这些图像建立排名。因此,每个面板的排名都是从剩下的2842个可用的面板中建立起来的,并且根据每个人的意见,包含了在类型(例如,显微镜,western blots,图形),纹理和颜色方面最相似的10个图像。结果,两个独立的注释者得出的排名平均差异为4.3个面板(当注释者完全不同意对方时,最大可能的差异为20个面板),考虑到所有2843个案例,对其进行比较时,标准偏差为3.6。为了为每个图像生成最终的ground truth,我们取各自注释者的秩的并集。

对于复制移动检测任务,我们从数据集中的125篇论文中手动选择了180张图,根据各自的撤稿通知,这些图被标记为描述克隆区域。然后,我们招募了六名志愿者来查看撤稿通知,并手动注释所描述的克隆区域。我们请三个人注释每个图形,并采用所提供注释的交集作为最终的操作掩码。因此,我们获得了一组180像素级的复制移动操作区域掩码,我们正在向社区提供(参见https://git.io/JKltM).

最后,在对数据集上可用的撤稿通知进行全面检查后,我们选择了85个在不同出版物之间重复使用的重要案例,这有助于出处分析任务。对于这些案例,我们分析了撤稿文件,并手动追踪了共享视觉内容的数字。结果,我们建立了70个独特的来源图,其节点分别代表一个科学数字及其出版来源,其边缘解释了一个出版物如何重用另一个出版物的内容,从旧的文章连接到新的文章。我们正在向社区提供这些图表(参见https://git.io/JKidk),由Yates等人提出的JSON格式。27

在这里,有必要澄清的是,我们使用SP数据集的目的不是最终将组成论文分类为“原始”和“有问题”。这些论文在这方面的地位是非常动态的,取决于将来可能发生或有争议的长期和细致的调查。如此敏感的任务不属于这项工作的范围。

定性结果

在这里,我们给出了定性结果,说明了所提出的系统在面对(i)单个图像中的克隆内容(通过复制-移动检测)和(ii)跨多篇论文的图像重用(通过出处分析)时的行为。

Copy-move检测

为了单独分析图像并寻找后处理事件,我们建议依赖于复制移动检测。复制移动操作包括后处理事件,在这些事件中,图像的一个区域被复制到自身的其他地方20.,通常目的是通过复制现有对象(复制)或背景像素(删除)来覆盖不需要的功能。

图5
图5

复制移动检测结果与现有撤稿通知一致。在绿色方框中,手动注释作为本文介绍的SP数据集中的基本事实提供。红色为SILA识别的克隆区域。系统能够正确识别不同场景下克隆的镜像区域。在(一个)、培养细胞的显微图像。在(b),由倒置显微镜捕捉的细胞培养物。在(c- - - - - -e)、西方墨迹。当SILA指出一个克隆区域时,并不一定意味着一个错误或不当行为。该图中的所有原始图像都属于作为知识共享内容发表的论文。各自的来源可通过DOI获得https://doi.org/10.1074/jbc.M109.090209https://doi.org/10.1371/journal.pone.0085808https://doi.org/10.1186/1471-2180-6-26https://doi.org/10.1155/2014/987017,https://doi.org/10.1074/jbc.M302674200.在这里,它们被裁剪、放大,并以绿色或红色进行注释,以传达SILA的发现。

图6
图6

现有撤稿通知中未提及的复制移动检测结果。带有红色边框的区域描述SILA发现的克隆内容。这些区域中有许多没有给出相应的基本事实绿框,因为它们从未在撤稿通知中得到承认。在(一个),由于一些western blots的完全对称性质而检测到克隆区域。在(b),因面板覆盖而侦测到克隆区域。在(c),通过显微镜输出克隆区域,过去人类审稿人可能很难发现这些区域。在(d),更多这些难以发现的地区,这次是在西方的印迹上。在(e)、克隆背景像素等。当SILA发现一个克隆区域时,并不意味着一定存在错误或不当行为。例子在(一个)及(b)可能是合法的,并强调了在决定克隆内容是否可接受时人工干预的重要性。分析人员可能忽略了例子中描述的问题(c- - - - - -e).该图中的所有原始专题都属于以创作共用内容发布的论文,DOI (一个前)https://doi.org/10.1074/jbc.M806041200, (一个底;d底)https://doi.org/10.1074/jbc.M111.255042, (b(左);ehttps://doi.org/10.1074/jbc.M808084200, (b,对吧)https://doi.org/10.18632/oncotarget.15097, (c最高;d上)https://doi.org/10.1074/jbc.M111.274613,及(c底部)https://doi.org/10.3389/fphar.2016.00226.在这里,它们被裁剪、放大,并以绿色或红色进行注释,以传达SILA的发现。

在无花果。5,我们展示了一些SILA的结果,这些结果与SP数据集中提供的人工注释一致。绿色方框是标注者提供的ground truth,红色区域是系统自动获取的。可以观察到,SILA可以检测来自同一图形的不同面板的副本。它既可以处理灰度图像,也可以处理彩色图像。5a,b),甚至与科学图像,如西方blots(见图。5一部)。在后一种情况下,SILA能够检测到小区域的复制,包括可能与内容物去除相关的克隆(见图2)。5e).当然,这些分析并不一定指出了恶意操纵。相反,它们旨在帮助分析师专注于可疑的相似内容,并自行决定结果。

为了深入了解当前任务的复杂性和人工干预的必要性,我们在图中展示了一些有趣的SILA结果。6.在无花果。6例如,A,有双边对称的西方印迹,可能会对我们的探测器造成假警报。SILA识别图像中的两个对称区域,但这并不意味着进行了操作,因为该算法无法区分伪造的镜像区域和真实的对称模式。另一种常见情况如图所示。6b.在定时实验中,经常会发生这样的情况,同一基底在不同条件下多次成像,最终要么并排比较,要么叠加,以产生更丰富的表示。这是图中描述的最右边的两个“合并”面板列的情况。6B,它们实际上是各自先前面板的组合(因此共享相似的区域)。SILA可以检测到这些复制,但它们的存在是合法的,不会被认为是人类分析师操纵的证据。

最后,无花果。6C-e描述了可能被人类分析人员忽略的可疑病例的例子。这些图片中有许多以前没有被承认包含重复的内容。尽管如此,SILA可以发现其中的克隆内容(见图。6c,d),甚至可能的内容删除(见图。6E,其中统一的背景像素可能被用来使污渍通道清晰)。值得一提的是,所有这些数字都来自已经撤回的论文,其中只有一个之前被人识别为包含重复(见图中最右边面板内的一对绿色方框)。6e).所有剩余的问题都悄无声息地传递给人工注释人员,但不会传递给SILA。

来源分析

图7
图7

出处分析的结果示例应用于一个特定的情况下,无心的图像重用跨七篇不同的论文,这是SP数据集的一部分。在(一个),提供的注释(ground-truth出处图),通过在DOI下对撤稿通知的内容进行手动整理获得https://doi.org/10.1371/journal.pone.0190562.根据本文,图5从论文1(节点一个)与来自六篇不同论文(此处用节点表示)的其他七张图共享元素B-H).在(b),由SILA计算得到的来源图。除了找到期望的节点图像一个-H(绿色突出显示,以表示同意撤稿通知),SILA还遇到了其他十个数字,它们提供了内容共享的证据(由节点表示)-R并在此以红色虚线突出显示,以表示撤回通知中没有)。

图8
图8

在图中所示的来源图中,由SILA计算的两条边的细节。7b.在(一个),表示节点间共享内容的描述一个而且C,他们的关系已载于各自的撤回通知内。在(b),表示节点间共享内容的描述N而且D,镜像操作结束后D.图像N在撤稿通知中没有被确定为共享内容,表明了这种关系N-D之前从未被人类分析师发现过。本文展示的4个顶层面板属于以下论文:(i)“Paper 1, Fig. 5”,转载自Experimental and Molecular Pathology, 97, Zhao et al.,“激活AMPK减弱脂多糖受损的完整性和血脑屏障功能在人脑微血管内皮细胞”,386-392,2014,已获得Elsevier的许可;(ii)“Paper 3, Fig. 6”和“Paper 3, Fig. 3”,“激活AMPK改善脂多糖诱导的小鼠血脑屏障功能障碍”,Yu et al., Brain Injury, 2015年3月3日,经出版商Taylor & Francis Ltd授权转载;(iii)“论文4,图2”,“白藜芦醇通过激活LKB1-AMPK信号抑制氧化应激以预防糖尿病小鼠内皮功能障碍”,Hu等人,临床和实验性高血压,2016年5月5日,经出版商泰勒和弗朗西斯有限公司许可转载。底部一行面板表示各自顶部图像的掩码,SILA找到的复制内容的各自位置通过黄线链接。通过在这里指出重复的内容,我们并不是声称这是错误或不当行为的结果。

除了使用复制移动检测检查单个图像外,SILA还允许使用来源分析来调查图像集如何共享视觉内容。此方法用于检测内容拼接和跨一个或多个发布的不同部分的重用。正如Moreira等人所解释的。21,来源分析的目的是为给定的一组图像生成有向无环图(DAG,即来源图),其节点分别表示该组图像中的每一张图像,其边表示图像对之间最可能的编辑和内容捐赠历史。编辑可以包括克隆、裁剪、模糊和拼接,将原始元素链接到派生元素。

数字7a描述了一个来源图,表示在不同的科学论文中图像重用的确认案例,该案例是根据属于SP数据集的撤稿通知之一的内容手动构建的。正如我们之前提到的,我们将提供70个这些基本真相图作为数据集的特殊注释。数字7b描述了SILA对图中所描述的重复使用案例中涉及的7篇论文的全部45个图的出处分析结果。7a. SILA计算得到的ground-truth图与物源图的重合节点和边用绿线突出显示。红色虚线表示SILA检测到的未在撤稿通知中报告的材料(因此包含未记录的和潜在的未知问题)。正如人们可能观察到的那样,SILA正确地识别了所有文档化的重用图(由节点表示)一个-H).此外,其他十个数字(-R),在45个样本中,亦确定与进一步人体检验有关。

数字8a详细说明节点之间由SILA标识的共享可视内容一个而且C(已经在撤稿通知中描述了)。数字8B则详细说明节点之间的共享内容N(未知的撤回通知和SP数据集手动注释)和节点D.SILA能够发现它们的相似性,尽管其中一个内容是另一个内容的镜像版本。这表明SILA发现的额外节点不是假警报,而是未记录的重用内容案例。我们重申,通过识别这些实验中的重复内容,我们并不声称它们是错误或不当行为的结果。作者可能对这种现象有合理的解释。

定量结果

现在,我们通过SP数据集报告系统中实现的每个任务的SILA结果,并在数据集中进行注释。每个任务都有自己的建议指标(或一组指标),我们提供其SILA性能值,作为未来科学图像完整性分析研究的基线。

表格1总结了SILA的结果。前两列与内容提取任务相关。为了评估图像提取的质量,我们使用SILA从SP数据集的285个PDF文件的子集中提取图形,其中包含由各自的出版商网站提供的原始图像。其思想是报告SILA成功获得的策展图的比例,即系统图像召回率(红外).正如人们可能观察到的,SILA红外等于0.71。考虑到各自的原始图像和提取的图像在分辨率和翻译上往往存在差异(因为原始图像通常在出版商的网站上以更高的分辨率提供,外部边界和裁剪位置存在差异),SILA能够成功并自动提取71%的这些图像。为了减轻SILA无法提取目标图形,但分析师仍然能够直接从论文作者或出版商那里获得源图像的情况,我们在系统中添加了“上传图形”功能,用户还可以将图像文件摄取到工作流中。

除了图像提取,SILA还从PDF文件中获取图像标题,这些标题会自动链接到各自提取的图像。为了评估标题提取的质量,我们通过计算两个指标来衡量输出标题的完整性。即(i)归一化Levenshtein距离(LD28,旨在验证所提取的字幕是否与字符层面的真实情况相匹配,以及(ii) BERTScore (废话29,旨在通过上下文词嵌入来评估字幕之间的语义相似性。这两个度量都在[0..1] real interval, but contrary to废话(相似度测量),我们想要LD因为是距离,所以越小越好。SILA的平均值为\ (LD = 0.10 \)(接近于零,正如预期的那样)和平均值\ (b = 0.88 \)(接近1)超过SP数据集的1874注释标题。

表的第三列1与面板分割有关。为了衡量复合图形的分割质量,我们使用交集除以联合分数(借据),通过在像素级比较ground-truth分割掩码和SILA生成的各自掩码计算得到。4B为掩码示例)。借据还在于[0..]1] interval and we want it as large as possible. On average, SILA agreed on 48% of the mask pixels of the SP dataset, considering 303 figures. This is certainly one of the system capabilities that deserve attention in the future, but the current performance is not disabling, since SILA can execute the other tasks on either the sub-panels, if available, or the entire figures.

第四列是关于图像排序的任务。对于这一个,我们建议使用顶部的精度N检索图像(P@N,\(N \in \{1,5,10 \}\)),在2843个带有SP数据集排序的图表面板上求平均值。简而言之,P@N顶部的分数是N检索到的相关图像(对于感兴趣的给定图像)(即,它们属于基本真相图像等级)。P@N在于[0..]1] real interval, and we want it as large as possible. In the case of SILA, on average, 59% of the top-one retrieved figure panels by the system were relevant, indicating room for further improvements but already useful to provide clues of content reuse to be followed by the analysts.

表1 SILA执行任务的定量结果。

表的第五列1,反过来又与复制移动检测有关。我们开发了一种新的复制移动探测器,添加到专门用于科学图像的SILA中。为了评估这个新的检测器,我们对像素进行了平均\ (f \)分数(\ (f \))在SP数据集中手工标注的180个地面真实克隆区域掩码与SILA生成的各自克隆掩码之间进行比较(见图。4D为掩码示例)。\(F_1 \in [0..1]\)是否有一个度量来表示地面真实和系统计算的克隆掩模之间不一致像素的召回率和精度之间的调和平均值,并呈现理想的掩模\ (f \)接近于1。SILA的表现是\ (f = 0.35 \)平均而言,这是最先进的科学图像结果,正如我们在补充材料中详细说明的那样S1这是手稿所附的。正如我们在前一节通过定性的例子所展示的,我们团队提供的ground truth通常由注释松散的方框组成,其中包括原始的背景像素(参见图中的绿色方框)。5比如C)。在这些情况下,SILA比ground-truth注释更精确,因此会因偏离它们而受到惩罚。事实上,\ (f \)- SILA的面具比Fig的分数。5C仅为0.48,尽管正确地找到了所有克隆印迹。对于图。6c d\ (f \)-得分为零,与进一步的人类分析无关。这表明SP数据集中提供的注释在未来仍然可以得到增强,希望在本文介绍的基准测试中得到科学界的帮助。

最后,第六栏是种源分析。为了评估SILA计算的来源图的质量,我们遵循Yates等人提出的实验设置。27.因此,我们报告平均顶点重叠(签证官),边重叠(EO),顶点与边重叠(VEO)与SP数据集中引入的ground truth进行比较时,忽略边缘的方向(无向EO而且VEO21).正如Papadimitriou等人所讨论的。30.,这些指标量化了基本真相和各自解决方案提供的图之间的重叠\ (f \)-检索元素的分数。因此,它们都位于[0..1] interval and should be as close to one as possible. Due to the more challenging nature of the SP dataset (which contains mostly scientific images, as opposed to typical natural scenes), the SILA provenance results are not as good as other results from the literature213132它使用了自然图像。不管怎样,SILA生成的图形对于图像重用已经很有用了,如图所示。7b.在这种情况下,溯源度量值为\ (VO = 0.64 \)\ (EO = 0.16 \),\ (VEO = 0.50 \),主要是由于存在未记录的图形重用,例如由节点表示的图形N(见图。8b).类似于复制移动检测的情况,注释的来源图可以在未来通过受益于社区对基准测试的参与而得到改进。

讨论

定性结果表明,在本文提到的出版物的具体情况下,SILA已经超过了科学同行审稿人发现图像后处理事件的能力。它们还表明,该系统可以通过克隆区域图和来源图自动查找和原则记录足够的证据,以支持分析人员确定图像后处理事件是否合法。反过来,定量结果表明,未来确实仍有改进和更多检查的空间。尽管如此,报告的数字符合为一些任务建立的第一个基线,在未来可能会受到科学界的关注,以开发新方法和改进SP数据集的注释,因为它的内容越来越仔细。我们也相信SILA是让分析师从简单的发现开始的第一步足够的证据缩回到穷举搜索解决现存问题。我们真诚地希望其他研究人员能加入我们的努力。

之前的工作研究了科学图像后处理的主题。Rossner和Yamada33他早期描述了为了科学出版物而操纵图像的诱惑,部分原因是由于Adobe Photoshop等编辑工具的可用性。他们从生物学研究的角度概述了假设的图像处理问题,在开发验证完整性的工具时,值得进行检测。同样意识到这种操纵的存在,克罗米34提出了12条指导方针,指导作者和出版商接受或质疑图像后期处理实践。

为了了解问题出现的频率,一些工作收集并手动分析科学论文,专门寻找图像重用。Oksvold35例如,在Adobe Photoshop的帮助下,他们从三家与癌症研究相关的期刊上收集了120篇论文,并手动分析了它们的图像。通过放大从论文中获得的高质量图像,并将它们并排比较,奥克斯沃尔德得出结论,近24%的文章包含用于代表两个或两个以上不同实验结果的图像。类似地,Bik等人。15手动筛选了40种科学期刊的20621篇论文,使用苹果预览中的颜色调整和视觉比较。通过这种方法,他们声称识别了782篇(3.8%)含有重复图像的论文。

意识到执行更快和更可扩展的筛选的重要性,文献中的一些工作旨在自动分析科学论文。Bucci16例如,他提出了一种方法,通过将每个PDF页面转换为单个数字图像,自动从PDF文件中提取图像。在这些页面图像上,他提出了应用图像处理形态学操作,将视觉内容分割成有意义的图形元素(如图形面板,如图表,western blot band等),以供进一步分析。然后自动检查面板的凝胶电泳制造(通过测量可疑的背景像素强度不连续)和内容重复(通过第三方软件解决方案)。用这种方法,Bucci分析了从451种生物医学期刊上发表的1364篇论文中提取的4778个小组,发现5.7%的文章提出了操作。

类似的还有Acuna, Brookes和Kording17研究了计算机视觉和机器学习技术的应用,从一组与一组有问题的论文一起发表的源图像中选择可疑图像。通过计算机视觉,他们使用兴趣点匹配和聚类来识别图像之间的克隆内容。通过机器学习,他们使用梯度增强将图像分类为生物医学(因此感兴趣)或非生物医学(例如图表标签或指示性箭头,因此不感兴趣)。然后,选定的图像被提交给人类专家进行最终决定。作者用这种方法评估了来自4324种生物医学期刊的760036篇文章中的近260万张图像。3名分析人员发现,其中1.47%的文章含有重复图片。分析的文章列表是敏感的,由于法律方面的原因,不能向公众免费提供。

一些作品依赖于图像取证技术36执行完整性验证。法37例如,该公司提出了早期的数字完整性验证解决方案,用于在单个科学图像中本地化内容删除和复制。仿真实例说明了算法的有效性。最近,Xiang和Acuna38介绍了抑制场景内容和提取单个科学图像上的残留特征的方法,强调了由于操作伪影而产生的噪声模式。研究人员从网上下载并有意修改科学图像,以训练和测试他们的数据驱动方法,如显微镜和western blots。结果,他们获得了一个包含近750张精选图像的数据集。最后,Mazaheri等人。39设计了一种深度学习方法来检测图像重复。与SILA类似,他们也提出了一个从纸质PDF文件开始的工作流程,但他们选择的重点是将手稿分类为包含重复或不包含重复,而不是提供不同类型的证据。

最后但并非最不重要的是,一些研究人员也试图创建有用的图像数据集,用于科学完整性验证。更值得注意的是,科克尔等人。40最近介绍了一组几乎重复的科学图像,故意处理,试图重现在出版物上无意中重复使用图像的真实案例。与合成数据集相反,HEADT中心41刚刚开始收集和构建一个数据集,其中包含撤回的科学出版物中的真实图像。然而,在当前阶段,这个数据集仍然缺乏经过审查和丰富的注释,如克隆地图和来源图。

尽管科学界此前做出了宝贵的努力,但科学图像完整性验证问题仍然悬而未决,在世界范围内的发生率和相关性越来越大,仍然需要引起重视。特别是,缺乏统一的基准来对不同的技术进行原则性的评估,这阻碍了最新技术的发展。目前,研究人员比较或复制彼此的结果并不容易。据我们所知,也没有免费的大型数据集,其中包含各种各样的、记录良好的、已确认的图像操作案例,具有足够精确的丰富注释,可以计算客观指标。我们相信,通过解决这些方面的问题,本出版物朝着这个方向迈出了根本性的第一步。

此外,SILA实现了第一个人在循环中的端到端工作流,该工作流从PDF文件开始,逐渐向系统输出添加新的证据,以支持分析师的最终决策。它的目标不是取代人类,而是通过使繁琐的任务变得更加精确和自动化来节省人类的时间。它依赖于一种新型的复制移动检测器,该检测器针对科学图像进行了微调,并依赖于出处分析,该分析首次用于处理科学图像。我们相信,克隆区域图和来源图,分别是复制移动检测和来源分析的输出,如果添加到撤稿通知中,将会带来巨大的好处,使它们更容易理解。

局限性和未来工作

本文所涉及的科学图像问题并不包括一个详尽的问题列表。所提议和讨论的SILA功能主要集中在图中描述的五个任务上。2b.该系统和引入的带注释的数据集缺乏对其他问题的表达和缓解,我们希望在未来与参与的社区合作解决这些问题。例如,SILA目前忽略了(i)不涉及克隆背景像素以隐藏前景的内容删除,以及(ii)其供体图像的内容拼接(见图2)。1C)不可用。在这些情况下,复制移动检测和来源分析都不能提供证据。因此,SILA还需要进一步扩展添加由噪声分析支持的单幅图像检测解决方案42.另一项有待添加的最新技术是检测合成生成的图像,如合成western blots43,这可能被用来伪造不接地的实验结果。最后,SILA还不能直接读取存储在Tag Image File Format (TIFF)容器中的图像,这个特性目前正在开发中。

方法

为了实现SILA工作流程,我们开发了一个客户-服务器软件体系结构,目的是让分析人员可以自由地同时执行他们在系统上的职责,而不会干扰其他人的分析。为了使系统具有可扩展性,我们将提议的工作流中的每个任务作为独立的任务来实现法医容器它是一个独立的可执行软件,包含运行它所需的一切,包括库、配置,甚至特定的操作系统环境。通过使用Docker等工具44,新的和更好的取证工具可以很容易地添加到系统中,只要它们捆绑成一个容器。

对于内容提取任务,我们使用了MuPDF45-一个用于解析PDF流的开源软件库,以读取交叉引用(选择。Xref)表的给定PDF文档,并提取索引和流嵌入图像。为了收集文本,我们依赖于PDFMiner46,另一个开源Python PDF解析器,它更适合提取图标题。为了便于重现性,我们正在将此实现和图像提取实验设置提供给社区https://git.io/JcZGM

对于面板分割的任务,我们选择了Tsutsui和Crandall介绍的数据驱动解决方案47.正如作者解释的那样,用于多面板图像分割的数据驱动方法有可能对科学论文中可能发现的图像组成布局的多样性更宽容,如果使用足够多的示例进行适当的训练。他们将分割问题定义为一个目标检测变量,其目的是预测单个面板的边界框。预测过程是通过卷积神经网络,即YOLOv2系统来学习的48.本文使用的Tsutsui的实现和训练模型可在网上获得49.为了重现性的缘故,我们将这个实验装置提供给https://git.io/JcZG2

对于图像排名,我们依赖于一种最快的方法来检测兴趣点,即SURF50.因此,我们根据SURF固有的角相关性黑森值,检测给定图像中500个最重要的兴趣点。为了描述兴趣点,我们采用了RootSIFT51描述符,SIFT的一种变体52据报道,这更适合于图像检索。尽管这种方法对旋转和缩放图像变换是不变的,但它不能处理镜像。因此,我们在给定图像的水平镜像版本上额外检测和描述500个兴趣点。因此,每个感兴趣的图像被映射到一组1000个128维RootSIFT特征向量,然后用于构建图像索引。假设分析人员每次只处理一个案例,将属于一组合作作者的数十个PDF文档放在一起构成一个案例。几十个PDF文档通常会导致数百个图像面板,从而导致每种情况下不到100万个RootSIFT特征向量。这个数量对最先进的特征索引技术和实现不构成挑战5354.因此,我们建造了一个公寓l2-基于距离的反向文件索引,其中包含每个案例的所有案例图像。因此,每当向系统提供查询时,它都会为查询的每个特征向量检索索引中最接近的8个特征向量。由于每个特征向量都指向它的源图像(因此称为“反转文件”),近距离图像可以被追溯并获得投票。一旦所有投票都归属并计数,图像将从投票最多到最少进行排序,生成所需的图像排名作为输出。再一次,我们将这个实验性的设置提供给社区https://git.io/JcZGo

补充材料中提供了上述任务中使用的方法的更多细节S1这份手稿。下面两个小节分别解释本文提出的用于对科学图像执行复制移动检测和来源分析的算法。这些是SILA中接受了我们大部分原始贡献的任务。

复制移动检测解决方案

图9
图9

一个框图描述了在SILA中实现的复制移动检测解决方案的操作。首先,给定的图像被分割成子面板,并删除覆盖的文本。然后将产生的子面板2乘2地组合,导致提交给复制移动检测器的面板成对单幅图像。在处理了所有可能的子面板对之后,将多个克隆区域掩码进行组合,从而得到最终的克隆掩码结果。该图中的所有原始面板都属于一篇作为创作共用内容发表的论文,DOIhttps://doi.org/10.1074/jbc.M110.172767

图10
图10

使用Zernike或RGB特征的复制移动检测结果的比较。基本真相注释由绿色方框表示,而红色区域对应SILA自动检测到的克隆内容。在(一个),对细胞图像进行检测。在(b),透过western blots侦测。Zernike特征对细胞图像无效,RGB特征对western blots无效。因此,我们建议在SILA中融合这些技术。该图中的所有原始专题都属于以创作共用内容发布的论文,DOI (一个https://doi.org/10.1074/jbc.M110.172767和(bhttps://doi.org/10.1074/jbc.M803547200.在这里,它们被裁剪、放大,并以绿色或红色进行注释,以传达SILA的发现。

文献中提出了许多复制移动伪造检测算法。然而,它们都没有被设计用来正确地检测科学图像中的克隆内容。如图所示。9(输入图像,面板分割和文本删除),科学图像通常由多个子组件(面板)和描述内容的文本组成。为了避免由于文本匹配而产生的错误警报,并分析图像中所有现有的子面板,我们的解决方案使用了面板分割步骤,并包括一个光学字符识别(OCR)系统来本地化和删除文本。一旦面板从文本中清除并提取,复制-移动检测器检查每个图形中所有可能的面板对,寻找视觉上相似的内容(见图。9,面板成对检测)。因此,每一对被分析的掩模都会生成一对克隆区域掩模。根据提取面板的原始位置,在过程结束时将多个掩模组合在一起(见图2)。9,克隆掩码结果),生成最终的图像克隆掩码。

对于面板的成对复制移动检测步骤,SILA采用了密集场复制移动方法36.与其他算法相比,基于密集场的算法具有处理加性(当整个对象被复制时)和闭塞复制-移动操作(当均匀和背景像素的小部分被复制以隐藏内容时)的优势。更具体地说,是受到Cozzolino等人的启发。55,我们依赖于PatchMatch的修改版本56,这是一种在图像中寻找相似斑块的有效的密集场方法。因此,它包括使用泽尼克矩对扭曲和旋转操作具有鲁棒性的密集特征提取步骤,用于计算最近邻居字段的随机迭代算法,以及基于密集线性拟合和形态操作的后处理过程。

尽管如此,我们的方法增加了额外的步骤来适应从科学论文中提取的图像的特殊性,这些图像与自然场景有很大的不同,特别是考虑到统一的背景、较低的分辨率和有限的像素强度值范围。例如,具有西方印迹的图形跨越了一个像素值的小范围,其印迹在外观上非常相似,即使它们并不相同。因此,通过图像产生许多假警报匹配,需要缓解。为了减少这些随机的假匹配,我们在匹配过程中引入了一个额外的约束:两个区域之间的匹配必须同时保持两种方式。这意味着一个区域一个被宣布为伪造和一个地区的副本B仅当找到两个兼容的匹配时一个B反之亦然。

最后,除了Zernike特征,我们还考虑了图像像素的红色,绿色和蓝色(RGB)值。通过考虑图像的三色通道,即使像素强度值发生微小变化,该解决方案也具有更好的鲁棒性。如图所示。10,我们注意到包含Zernike特征的方法在细胞图像的情况下失败(见图。10a),但在西方印迹的情况下工作(见图。10B),即使在镜像印迹的存在。相反,基于RGB数据的策略在细胞图像的情况下是成功的,但错过了西方印迹。为了兼顾两者的优点,SILA采用了两者的融合。在补充材料上对不同复制移动方法和配置的结果进行了实验比较S1这是手稿所附的。我们也使复制移动检测实验设置可用https://git.io/JcZGR

图11
图11

描述SILA执行的来源分析操作的方框图。首先,将一个选定的图和一组从不同感兴趣的论文中提取的可用图馈送到出处分析容器。接下来,对图形对进行几何一致的兴趣点匹配,目的是在每两个图形之间找到相似的区域。然后使用图中成对匹配兴趣点的数量构建图像邻接矩阵,其连接必须遵守图中论文的发表日期。在特定日期发布的图形不能与另一个发布日期更早的图形相连接(因此邻接矩阵中的红色位置)。最后,从邻接矩阵计算出最大生成树,从而得到输出的起源图。此图中的所有原始图像均属于公共领域2425

来源分析方案

在来自科学出版物的数字的特殊情况下,我们开发了Moreira等人介绍的解决方案的组合。21还有Bharati等人。31构造来源图。这种方法如图所示。11.给定一个选定的可疑数字和一组可用的感兴趣的数字(这些数字可能已经由图像排序任务检索到),系统通过2000个RootSIFT描述它们中的每一个51兴趣点,忽略带有重叠文本的区域,以避免进一步的假阳性内容匹配(SILA引入的新功能之一)。类似于复制移动检测的情况,我们依靠OCR算法来执行文本检测。一旦从每个图形中提取出所有的兴趣点,我们就会按照Moreira等人设计的相同方法,计算每对图形之间几何上一致的兴趣点匹配。21.因此,每对图像之间建立的兴趣点匹配的数量用于构建邻接矩阵,其目的是登记图像之间的相似性。在这里,下面的想法是,两个图形在视觉上越相似,它们的兴趣点就越匹配。

此外,受到Bharati等人工作的启发。31考虑到这些数据来自于元数据丰富的论文,我们提出依靠论文的发表日期来约束邻接矩阵,避免从较晚发表的数据到较早发表的数据的连接(基于各自论文的发表日期)。这通过图中邻接矩阵的红色位置以某种方式表示。11(邻接矩阵构造)。作为SILA实现的另一个新奇之处,这些位置不能用作来源图的边缘,因为它们违反了发布日期顺序规则。最后是Kruskal的最大生成树算法57用于将邻接矩阵转换为输出来源图(遵循先前由Moreira等人实验的方法)。21).为了重现性的缘故,我们正在使种源分析实验装置可用https://git.io/JcZGl