介绍

新型冠状病毒杀死了超过一百万美国人的两个半全世界百万死亡截至2021年3月,根据疾病控制和预防中心(CDC)。这些RNA病毒利用蛋白质峰值使用人类ACE2进入人类细胞受体1,经常导致严重急性呼吸系统综合症冠状病毒2 (SARS-CoV-2),共同特点是肺炎的发展与其他症状如发热、咳嗽,嗅觉丧失2。在最严重的情况下,这种病毒感染释放了积极auto-inflammatory反应称为细胞因子风暴导致身体攻击自己,有时会导致终生的器官损伤。

最初被认为是一个respiratory-virus-only很快被体现在身体的几个部位,有一长串的症状的心律失常,心脏病,血栓受损的肝脏和肾脏3、皮疹和更多。尽管如此,呼吸异常继续COVID-19的最突出的标志。在诊断方面,特异性COVID-19使用胸摄影是高度争议4和摄影是否适合前线试销仍然是有争议的。例如,一些放射学组织,如美国摄影学院建议与执行使用临床放射学诊断COVID-19的识别4,5,6。尽管如此,一些研究者支持一种观点,即肺扫描检查可以作为筛选在流行地区的主要工具7,8全球,宝贵的使用作为诊断的重要信息9,10,11管理,特别是呼吸道感染6

由于测试的局限性等与逆转录聚合酶链反应(rt - pcr)在大流行性流感的早期,和开发新的措施来控制的紧迫性COVID-19蔓延,大量使用机器学习方法提出了肺扫描过去一年12,13,14,15。也有无数的努力联合肺扫描到一个共同的库,最大的一个是COVIDx,开放访问基准数据集包括成千上万的胸部x光片(CXR)图像13和最大的公开COVID-19阳性病例数日期用于分类。最近的这些贡献讨论COVID-19筛选利用CXR成像的优点,但是仍然有很多悬而未决的问题,如:

  • 如果我们改变CXR输入关注肺区域分类之前,CNN-based方法表现得更好吗?

  • 关键CXR图像部分的去除影响诊断的准确性,敏感性和阳性预测值(PPV) ?

  • 分类方法可以识别数据源而不是从肺部主要特点?(无花果。1)

图1
图1

从原始的胸部x光图像修改版本进行测试深度学习推理:提出交涉检查肺分类精度的ROI捉迷藏协议。

为了回答这些问题,本文提出一套系统化的协议必须在决策基于CXR验证深度学习模型,指出这些方法的危险,可以无视从肺部相关信息。此外,我们探讨肺分割可能发挥作用在CXR分类过程中,特别是当包括数据源与先前已知的呼吸道感染病例16和COVID-19特定成像17。本研究的主要贡献的发展:

  • 协议来衡量毫升模型使用异构数据源时,特别是在一个病人的病例数;

  • 策略验证视觉特性毫升模型是专门记录检测到的肺部异常的位置而不是明亮的工件,如医疗设备或硬组织;

  • 算法来监测功能的位置用于CXR图像处理任务,并评估与COVID-19相关的关键因素的相关性。

本文的概述如下。我们首先讨论最新的研究显示当使用神经网络来处理潜在的差距摄影图像。然后我们介绍协议和策略评估深度学习模型分割和分类,应用于开放获取COVIDx基准数据集。下面的部分将介绍实验结果包括或排除肺部分割时,一个方法我们称之为“感兴趣的区域(ROI)捉迷藏”;它使用一个U-net检测肺的先验信息来创建5个不同的图像表征CXR数据。每组CXR图像表征用于训练和测试的每个5个不同深度学习架构,基于COVIDNet-CXR3-A COVIDNet-CXR4-A, AlexNet, VGG-11 ResNet-50分别为这些不同的分类CXR表示。最后,我们总结的结果,并提供未来视角使用深度学习的自动图像分类。我们提出的全部管道实验见图。2,它强调不同的CNN模型的创建和评估使用Grad-CAM突出区域神经网络在这些情况下考虑重要的分类。

图2
图2

从原始的胸部x光为验证深度学习推理ROI捉迷藏。

相关工作

胸部x光检查等临床成像持有承诺民主化访问早期筛查,特别是对有症状的分期和治疗安排。这是因为它使快速分流资源受限和/或不知所措,提高可用性和可访问性在使用设备广泛在世界各地的医疗设施。立即治疗和护理继续挑战全球卫生保健系统,筛选规则成为必不可少的快速隔离潜在感染患者为了减轻病毒的传播。作为回应,一个社区的调查集中在使用公共数据集CXR图片,一些人还包括元数据与呼吸道条件。

有各种各样的研究发表在该地区的深度学习COVID-19检测。哦,等。18使用补丁CXR图像作为输入到神经网络以提高分类结果小COVID-19数据集。这篇论文使用规范化的数据类型铸造float32图像,其次是直方图均衡化,图像灰度校正,然后图像调整到256×256像素。图像预处理后,网络训练与随机从肺部检测COVID-19补丁。推理,一百随机补丁测试集用于评估网络性能,使用少数服从多数原则作为决策的网络,最终报告在CXR图像分类精度91.9%。Apostolopoulos et al。12评估的效用转移学习分类COVID-19使用CXR图像通过测试各种神经网络架构(Xception VGG-19, Mobilenet v2,《盗梦空间》,《盗梦空间》ResNet v2),报告的准确性高达98.75% (VGG-19)基于双阶级的方法。Vaid et al。19评估性能的改性pretrained VGG-19网络分类COVID-19与正常CXR扫描,报告96.3%的准确率。侯赛因等。20.提出一种新颖的架构COVID-19分类命名Corodet,报告的准确性为99%,94.2%,91.2%的2 -,3 -,四级分别检测问题。拉等人。21提出一个方法弱带安全标签的数据时增加来扩大训练数据集和提高性能的结果。Nayak et al。22评估的性能pre-trained Resnet-50、ResNet-34 Inception-V3, SqueezeNet, MobileNet-V2, GoogleNet, AlexNet, VGG-16 COVID-19分类的任务从正常CXR图片,和ResNet-34据报道98.33%的最高精度。贾殷等人23比较的性能Inception-V3、Xception ResNeXt COVID-19分类任务,发现Xception模型在97.97%的准确率提供了最好的性能。这些实验之间的共性是使用多个CXR数据源,COVID-19图像的大部分来自另一个数据源。在考虑各种不同的图像预处理步骤和扩张策略,大多数的方法报告使用残余神经网络更好的结果。

西等。10比较几种pre-trained模型的性能(VGG16、Resnet-50 MobileNet, densenet - 121, EfficientNet)利用数据增强培训的任务分类COVID-19肺炎,Non-COVID肺炎,和正常CXR图片,报告从VGG-16最好的精度83.68%。玛丽- et al。9评估基于ResNet 16个不同网络的性能,DenseNet, VGG, SqueezeNet, Inception-V4 AlexNet COVID-19的任务,肺炎,和正常的分类使用公共COVID-19图像数据收集,以及分类的任务心脏肥大、水肿、整合、肺不张使用CheXpert数据集和胸腔积液。他们观察AUROCS CheXpert分类任务在0.83和0.89之间,和0.983和0.998之间AUROCS COVID-19图像收集数据集分类的任务。Stubblefield et al。24探索使用深层神经网络的效用作为经典的特征提取器网络应用在较小的数据集;他们在CheXpert利用深层神经网络训练数据集的图像特征提取和XGBoost最后算法执行小数据集上的分类任务旨在ARDS的心脏和传染性病因分类。他们还包含临床特征的性能评估到最终的分类器的预测模型。感染的标签他们已经达到了67.5%的准确率,为心脏标记任务达到74.5%。Sahlol et al。25评估各种神经网络的性能包括《盗梦空间》V3 COVID-19分类任务,而且可以提高显示性能在使用海洋食肉动物的特征选择算法初始V3同时最小化网络规模,达到准确的0.9877和0.9968两个单独的数据集。尽管努力增加标准化数据源和指标进行比较,这些文章还认为不同数据源创建一个合适的CXR图像集的所有类的优秀代表。

COVIDx公开发布后的数据集13,包含数百COVID-19 CXR图像,超过五百个研究作品杠杆变异的工作流和/或数据集,许多提议cnn来评估计算机视觉任务,如肺分割,和分类的COVID-19病例26,27,28。其中最著名的美国有线电视新闻网COVID-Net13,提出了一个预测引擎获得洞察与COVID-19相关重要因素情况下使用CXR成像。这样的工作也试图验证决策是基于图像的相关信息。尽管COVID-19研究代表一种无价的一步,尤其是对于再现性,作者认为他们并不意味着它是一个生产就绪的解决方案。我们的工作调查的程度上以前的工作CXR可以利用软件的一部分,可以提高试销。为了解决关键问题在使用深度学习,我们创建了一套协议和策略来验证推理模型基于cnn使用这种CXR数据源,和审计如果学习模型使用放射签名而不是随机的工件,如身体之外的亮点,电极,和/或标记符号。

材料和方法

本节描述不同CXR图像数据集我们用来实现两个主要任务:(a) CXR分割成肺区和non-lung;(b) CXR分类为正常,肺炎和COVID-19。

肺分割与U-Net

分割数据

本文调查的数据集策划和公开et al。16,他们利用MUNIT方法29日生成一个增强肺部分割数据集使用image-to-image翻译。培训中,我们使用“增加”的数据集,其中包含2400张图片和相应的面具和测试,我们使用他们的“国家卫生研究院”的数据集,其中包含额外的100张图片和面具。我们执行额外的测试使用206张图片和科恩面具中可用数据集。

分割方法

对于细分的目的任务,我们使用U-Net的实现30.深层神经网络架构,显示有强劲表现在各种生物图像分割任务31日,32,33,34。U-net提出的配置是:批量大小,和学习速率的。,训练了50时代/直到收敛。这个U-Net模型用于段COVIDx5的训练图像数据集,以去除或分离的ROI的图像。

CXR分类

分类数据

讨论了在13,COVIDx数据集结合5种不同的公开数据存储库,包含图像可分为正常(没有肺炎),non-COVID-19肺炎,COVID-19病人。这些存储库是:(1)COVID-19图像数据收集,(2)COVID-19胸部X射线数据倡议,(3)ActualMed COVID-19胸部X射线数据集倡议,(4)RSNA肺炎检测挑战数据集,从non-COVID-19杠杆CXR数据工作,(5)COVID-19放射学数据库。

虽然毫无疑问相关贡献作为一个公开的数据存储库,COVIDx也有要注意的地方,例如,病人的分布图像在不同感染类型。如表中所示1的图像高度倾向于non-COVID-19病例。加剧这一问题,COVID-19图像从一个数据源而图像出现其他情况下来自不同的起源。因此,这些图像可能受到特性来源于获取数据从不同的仪器和各自的工件。

表1 COVIDx V5胸片图像分布。

ROI捉迷藏协议数据表示

使用分割结果,我们修改COVIDx5数据集在四个不同的方面。我们第一次使用分割隔离肺,并调用这个版本的数据集“肺孤立”。然后我们做逆操作,消除肺部使用这个数据集分割和名称“肺”删除。在第三个数据集称为“肺”,我们也使用分割形成边界框在肺癌和删除框外的一切。我们还执行类似的逆操作,这个数据集名称“肺盒装”。这些将被视为独立的数据集用于训练和测试来评估网络是否能够学习当图像数据包括或排除了假定的ROI。这些数据集的例子有图所示。1。为了避免工件从肺切除操作符,例如,肺癌的余数边界或肺部可能偏差模型的形状,我们也包括lung-boxed-out算子。预计这组协议将使清晰的解释关于ROI的精度指标和存在输入的兴趣。

数据预处理和增加

王等。13执行各种数据有魅力的和增强的功能训练和测试的目的。他们第一批图像的前8%为了删除元数据。他们提供培训脚本使用以下对应:随机比例调整,\(10 \ % \ \下午)度随机旋转,\(10 \ % \ \下午)水平和垂直的翻译,\(\ \ % \ 15日)下午变焦,\(10 \ % \ \下午)强度变化,水平翻转。为了从头再培训提供模型使用自己的脚本COVIDx5生和修改的数据集,我们使用所有这些扩增。然而,对于我们自己的实验训练ResNet-50 VGG-11, Alexnet,我们认为这些扩增除了水平翻转,这是在解剖学上不切实际的因为每个图像的数据集是一个前x射线图像。

培训

我们创建了一个Tensorflow修改版本36王提供的脚本等。13从头培训提供模型。例如,导出脚本加载信息从.meta提供文件没有权重。我们的脚本列车网络使用学习速率的0.0002和8的批量大小。我们训练COVID-Net CXR3A和4 10时代的模型。他们还采用将softmax交叉熵损失函数和类的加权方案1,1,4为正常,肺炎和COVID-19类分别。他们也使用数据批量调整,确保每一批平衡的类。我们的修改版本试图重现实验尽可能没有获得GenSynth他们的工作37,因为他们的模型建立自动从pre-trained基线模型,这是不可用的。

我们自己的培训与ResNet-50实验,VGG-11, AlexNet,我们使用Pytorch深度学习框架38考虑模型与ImageNet pre-trained。我们训练每个网络批量大小32和0.0001学习速率的20世纪,考虑到交叉熵损失与类的权重1、1,4为正常,肺炎和COVID-19类分别。我们也使用一个数据采样器,以确保数据批量平衡跨三个数据集。

为了加快我们的计算,我们称为科里的高性能超级计算机上运行这些实验,这是克雷XC40峰值性能约30次,由2388年的Intel Xeon处理器节点和9688年“Haswell”Intel Xeonφ“骑士的着陆”(KNL)节点,也提供gpu。这些资源都可以在国家能源研究科学计算中心在劳伦斯伯克利国家实验室(·)。

3通过示例说明了结果上运行Grad-CAM CXR图像标记为正常,肺炎和COVID-19。

图3
图3

Grad-CAM长城ResNet-50标签左侧的每一行对应于图像的真实标签(COVID-19、肺炎、正常)。每一行中的每个图像对应于Grad-CAM推理的结果在不同的修改测试集(数据、data_lungs_isolated data_lungs_removed、data_lungs_framed data_lungs_boxed_out)。标签下面个人图像对应于相对应的分类标签生成的网络数据集的修改版本。

结果

2显示了我们U-Net分割模型的性能指标在国家卫生研究院的测试集和科恩的数据集。可以看出我们达成F1分数.95 .918为“肺”类分别NIH和科恩的数据集。这是令人满意的性能对我们来说的屏蔽或隔离COVIDx数据集的ROI。图1可视化的样本图像生成的数据集生成使用分割结果。每个COVIDx5的修改版本,与ROI-Hide-and-Seek获得,将用于训练和测试每个单独的神经网络模型。因此,本文报告性能指标在使用COVID-Net CXR3-A如表3,并在最近的一个版本的模型,COVID-Net CXR4-A如表4。此外,我们还检查AlexNet如表的分类性能5,VGG-11如表6和ResNet-50如表7。来说这些表显示的测试精度和性能指标(灵敏度、阳性预测值)在不同的列,每一行显示结果对应于每一个个人的修改数据集,即lungs_isolated lungs_removed, lungs_framed lungs_boxed_out。

表2对肺分割的精度指标CXR基于U-net应用到两个公共数据集:国家卫生研究院35和科恩17
表3使用不同的性能指标数据准备与COVIDNet-CXR3-A策略分类模型:sens和气动敏感性和肺炎,分别。
表4与COVIDNet-CXR4-A使用不同的数据准备策略分类的性能指标模型。
表5性能指标使用不同的数据准备策略分类和pre-trained AlexNet模型。
表6性能指标使用不同的数据准备策略分类和pre-trained VGG-11模型。
表7性能指标使用不同的数据准备策略分类和pre-trained ResNet-50模型。

注意,每一行对应从头训练每个体系结构的测试结果,具体的修改版本COVIDx数据集。它可以观察到,网络都有相对较高的准确性,即使训练和测试数据集上通过分割肺ROI区域是完全删除(lungs_isolated)和边界框(lungs_boxed_out),达到.927精度和.897这些分别修改数据集(见表7)。此外,测试精度达到使用这些数据集分别不低于.873和.817(见表5)。最重要的是,相比使用原始数据的准确性,我们观察到删除ROI只有结果精确度损失为lungs_removed数据集在0%和4.4%之间的3.6%和10% lungs_boxed_out定下日期。

来说也可以观察到的性能指标(灵敏度、阳性预测值)也保持相对较高的所有不同修改的数据集,这意味着每个类仍是预测即使ROI是移除。

体系结构的比较

尽管考虑到体系结构提出了王等人13,我们开发了一些适应和改进绕过他们最初的提议缺乏再现性以及引入必要的审查方法分类方案,这是我们建议的ROI捉迷藏的协议。在他们的论文中描述的原始COVID-Net模型,但是,随着其他模型的开发架构的形成,通过GenSynth框架。不幸的是,这软件是专用的,因此很难繁殖的结果和发展网络。这也使它不清楚新的网络模型创建原始论文后,如CXR4-A模型。

发现和解释

3,4,5,6,7表明,著名的人工神经网络架构导致类似的表征能力和准确性COVID-Net相比,尽管后者是通过人机协同设计策略。

这项研究的结果表明,每个神经网络架构用于分类肺CXR图像能够预测肺扫描是否属于COVID-19高精度患者即使数据被修改删除肺部的形象。当我们删除重要的部分图像分段内主要的ROI的肺部,我们看到精度变化相对较少。这实际上质疑什么特性神经网络提取优化其参数的分类问题。特别是ResNet-50能够达到.897(见表7)精度甚至最激进的ROI去除lungs_boxed_out。这可能意味着神经网络提取的特征和用途分类实际上存在以外的肺。在CXR3和CXR4模型的情况下,它还可以观察到网络性能更好当肺部移除图像和当它是孤立的。这可能意味着大量的信息,有助于分类实际上存在肺外的地区,即lung-based意想不到的疾病。

而不是使用GSInquire13突出关键因素,我们使用Grad-CAM39提供可辩解的原因分类结果和进一步的解释。图3显示Grad-CAM结果使用测试数据ResNet-50模型的训练在不同的数据集。同意我们显示特定情况下所有网络分类(底部标签)和各自的地面真理(左手边的标签)。

图像数据集,可见肺,肺通常强调的重要特性。然而,在肺部被删除的数据集,Grad-CAMs转向其他地区如腹部和手臂。这些结果很难解释,似乎重要的特征提取的神经网络是完全依赖于任何信息了,无论从领域知识的角度看是有道理的。王等人的主要观点之一13纸是Grad-CAMs可以用来解释和隔离肺不健康的部分;然而,这些观察结果似乎表明,他们突出可能是任意的。

讨论

分类的肺CXR COVID-19试销仍然是有争议的,和一些额外的问题已经突出显示。最初,我们预计,肺部分割会使数据减少,增加网络的准确性,或将减少在网络训练收敛时间因为理论上这将允许网络关注投资回报率。然而,我们发现的是,ROI隔离导致精度降低时使用任何深度学习的模式分类。

例如,我们看到ResNet-50精度下降约2%的孤立的肺部分割时,约1.3%在使用隔离肺的边界框。为了更好地理解多少的信息以外的肺在分类结果中扮演了一个角色,我们执行相同的训练,但肺从图像中删除。我们发现的是,当肺部移除,网络的精度几乎没有变化,在某些情况下,实际上优于网络与肺部孤立。这可能表明有肺外的上下文信息,可能会导致原有的分类结果/修改的数据集。通过运行Grad-CAM,我们突出了不同的可能的区域,可能会影响分类结果,哪些是潜在的信息相关的数据源,而不是与COVID-19有关。

总的来说,我们发现当前方法的主要问题提出了自动化COVID-19筛选和/或诊断CXR: (a)缺乏清晰的哪些特性被发现当使用深度学习算法,图像分类会带来严重的后果,如识别形象的地标是临床与COVID-19无关;(b)的缺乏更系统化的方法测试分类策略,防止扭曲的结论对于使用卷积神经网络;和(c)需要更明确的协议标准化的数据来自不同来源,关键是区分相关性关联到一个特定的数据源与CXR图像分类对呼吸系统疾病的临床实用性。这些问题是重要的测试和比较,深CXR分类学习算法。