介绍

2019冠状病毒病(COVID-19)自中国武汉首次暴发以来,在全球范围内广泛传播,引发了全球大流行。SARS-CoV-2实时逆转录聚合酶链反应(rRT-PCR)扩增是新冠肺炎诊断的金标准。然而,假阴性结果和较长的周转时间限制了rRT-PCR检测在COVID-19快速筛查中的临床效果12特别是在疾病爆发期间。鉴于约97%的COVID-19患者出现胸部异常13.在筛查新冠肺炎患者时,胸部CT检查被视为rRT-PCR检测的及时和补充参考3.4。然而,越来越多的胸部CT检查会使放射科医生负担过重,而且很容易错过诸如毛玻璃样混浊之类的细微胸部异常。因此,迫切需要一种高效可靠的基于ct的辅助工具来帮助放射科医生筛查COVID-19患者。

在过去的几年里,不同的基于深度学习(DL)的人工智能(AI)诊断系统被开发并部署在临床实践中,以协助放射科医生,例如基于深度学习的肺结节诊断系统5。自2019冠状病毒病爆发以来,已经开发了用于检测COVID-19病变、评估疾病严重程度和预测疾病预后的多种机器学习(ML)和DL模型678910111213。Wang等人开发了一种DL模型,通过提取COVID-19的影像学特征,在病原学检查前提供临床诊断8。Yue等人利用CT图像建立了ML模型来估计COVID-19患者的住院时间14。另一项研究利用从肺实质窗口提取的特征开发了放射组学图来预测COVID-1913。在回顾有关COVID-19诊断预测模型的已发表文献时15,我们注意到感兴趣区域(roi)注释是耗时但对模型开发不可或缺的,是深度学习和放射组学建模的共同挑战之一。此外,尽管放射组学是医学成像领域广泛使用的方法16由于每个病例在应用于放射组学模型之前都需要进行注释,因此缺乏自动ROI注释是其临床应用中的一个关键障碍。

近年来,放射组学发展迅速,因其能够识别肉眼无法发现的细微疾病特征而受到广泛关注。然而,不同的特征选择方法和分类算法会极大地影响放射组学模型的性能171819。为了得到最好的模型,需要设计好特征选择和分类算法。据我们所知,目前还没有研究试图评估特征选择方法和分类算法对放射组学模型区分COVID-19和其他社区获得性肺炎(CAP)患者性能的影响。在本研究中,我们通过将DL分割算法与放射组学方法相结合,解决了耗时的ROI标注问题,并开发了一个使用CT图像筛查COVID-19患者的端到端模型。此外,使用五种特征选择方法和四种机器学习算法的交叉组合来开发最佳放射组学模型。此外,在外部数据集上验证了该模型在分类性能和时间效率方面的临床可行性。

材料与方法

病人

本研究经济南市传染病医院、北京市海淀医院和内蒙古自治区人民医院机构审查委员会(IRB)批准。irb放弃了知情同意,因为患者信息是匿名的,以确保隐私。所有的方法都按照相关的指导方针和规定进行。为了建立模型,我们于2020年1月25日至2月15日在济南市传染病医院和北京海淀医院回顾性收集了293例患者(CT扫描371次,部分患者进行了多次CT检查),其中COVID-19患者98例,其他CAP患者157例,病原学确诊的流感和肺炎支原体患者38例。为了进一步验证模型的稳健性,我们于2020年1月26日至2月17日在内蒙古自治区人民医院招募了93例患者(31例COVID-19患者和62例CAP患者,95次CT扫描),构成独立的外部测试数据集。值得注意的是,在本研究中,SARS-COV-2的rRT-PCR检测是诊断COVID-19患者的金标准。入组患者的详细临床资料汇总于表中1

表1入组患者的特征和收集的CT扫描用于模型开发和验证。

并总结患者的临床分期、影像学表现等特点。其中,65%以上的患者临床诊断为中度,其次为轻度,占27.1%,重度占2.3%,危重型占0.8%(见附录表)S1)。胸部CT影像学表现均以多灶小斑片状影、磨玻璃影(GGO)、实变为主要病变。如附录表所示S2与CAP病例相比,COVID-19患者GGO发生率较高,实变发生率较低,这可能与轻、中度临床型患者比例较大有关。其他影像学表现,包括浸润和胸腔积液,在本研究纳入的患者中很少见。

DL分割算法

深度学习分割算法是由Infervision (https://www.infervision.com/,北京,CHINA),并在本研究中应用于roi的自动划分。分割算法采用武汉地区507组疑似病例CT扫描数据进行训练。采用粗标注策略,由经验丰富的放射科医师选择性地在CT图像上标注具有多灶小斑影、毛玻璃样混浊和实变的主要病变(图2)。1a).在算法训练过程中,首先使用双线性插值方法将不同大小的CT图像调整为512 × 51220.将图像的CT值在窗口中心为-600,窗宽为1500处重新缩放,使肺炎病灶清晰可见,便于区分(图2)。1b).分割后,将每张幻灯片上标注的病变合并为3D ROI(图2)。1c).使用Mxnet(1.6.0版本)和CUDA(10.0版本)对DL分割算法进行训练和测试。

图1
图1

端到端模型开发的工作流。对507张CT扫描图进行人工粗标注,进一步利用粗标注开发深度学习(DL)分割算法(一个b)。本研究采用分割算法对CT扫描上的病灶进行标注;每个CT切片上的注释最终合并成三维ROI (c)。利用放射组学和不同的选择方法进行特征提取和选择;最优方法L1-LR选取108个不同类别的特征进行放射组学建模(d)。采用五重交叉验证进行建模(e)。

简要总结DL分割算法的结构,U-Net是该算法的主要架构,其中Xception2122作为主干(图2)。1)。通过Dice索引对标注性能进行评价。Loss函数的Loss方程为:

$$骰子损失= 1-\frac{2*Pred*Anno}{Pred+Anno}$$

在哪里Pred为DL分割算法预测的病灶像素点伊斯兰教纪元表示由资深放射科医师注释的参考病灶像素。

特征提取

在本研究中,我们使用Python(版本3.8.1)调用pyRadiomics包(版本2.2.0)进行放射组学特征提取。从深度学习算法分割的roi中提取了1454个特征,可细分为7类,包括一阶(FOS)特征、形状特征、灰度共生矩阵(GLCM)特征、灰度运行长度矩阵(GLRLM)特征、灰度大小区域矩阵(GLSZM)特征、相邻灰度差矩阵(NGTDM)特征和灰度依赖矩阵(GLDM)特征。详细介绍了特征提取方法和参数23,每个特征类提取的特征数量汇总在附录表中S3

特征选择

为了选择判别特征,本研究采用L1正则化最小绝对收缩和选择算子(L1- lasso)、L1正则化逻辑回归(L1- lr)、L1正则化脊回归(L2-Ridge)、极限梯度增强(XGBoost)和z检验5种方法进行比较2425。采用五重交叉验证法。所有方法均通过调用scikit-learn (version 0.20.2)包实现,并选择准确率最高的最优降维方法作为最终降维方法。

机器学习模型训练和测试

为了无偏估计诊断准确性,将两家医院(济南传染病医院和北京海淀医院)的数据按2:1的比例分为训练集和内部测试集;来自第三家医院的数据被用作外部测试集。利用所选择的特征,在训练集上训练4个独立的ML模型,包括支持向量机(SVM)、多层感知器(MLP)、逻辑回归(LR)和XGBoost。这些方法都是通过调用scikit-learn(版本0.20.2)包实现的。为了选择每个模型的最佳模型和最优超参数,对训练集进行5次交叉验证,其中随机选择80%的数据用于训练模型,剩余20%的数据(调优集)对训练模型进行验证。训练和验证过程重复五次,直到每个横截面都是一次调优集的一部分。在模型测试阶段,采用五重交叉验证的集成模型对COVID-19和CAP患者进行区分,并在内部和外部测试数据集上评估模型的性能。

读者研究

为了进一步评估这些拟议模型的临床可行性,两名放射科医生(一名具有15年经验的高级放射科医生和一名具有5年经验的初级放射科医生)参与了内部和外部测试数据集的读者研究。高级放射科医生和初级放射科医生都曾在一线参加过抗击新冠肺炎的战斗。他们仅根据阅读器研究中的CT成像信息独立诊断病例。将其诊断性能与提出的端到端模型进行比较。值得注意的是,诊断效率是根据诊断耗时来评估的。

模型评价与统计分析

通过分类敏感性、特异性、精密度、准确度、F1评分、G-Mean、ROC曲线下面积(AUC)和PR曲线(AP)评价诊断效果。PR曲线,与ROC曲线互补的测量方法26,以防止可能出现的数据不对称问题。分类变量以频率表示,采用卡方检验进行统计分析。P < 0.05为差异有统计学意义。连续变量用均数±SD表示。根据Hanley和McNeil(1982)的方法,构建了AUC或AP的双侧95%置信区间。27。科恩的Kappa系数是用来衡量实际结果和模型预测之间的一致性的。所有统计分析均使用R统计软件包(the R Foundation for statistical Computing, Vienna, Austria)进行。

结果

特征选择方法和机器学习模型的性能

预训练的DL分割算法的Dice指数为0.69,在本研究的CT扫描中也显示出足够的性能。与粗标注方法相比,深度学习算法标注的病灶更多。粗糙标注和人工智能标注的roi示例如图所示。2。在5种选择方法中,选择了108个放射组学特征的L1-LR使3种ML模型在验证集上获得了最高的AUC,因此被选为最佳方法(见图2)。2,无花果。1d).计算108个特征间的Pearson相关系数(PCC);PPC < 0.8和0.5的特征分别构成另外两个特征集(附录表)S4S5)。通过使用这三个特征集训练模型来检验特征冗余度,结果表明108个特征保证了最优的模型性能(见图2)。年代,无花果。5一个,6a).所有选择的特征列于附录表中S6而绝对系数前20位的特征如图所示。3.作为代表。

图2
图2

粗标注(绿色)和人工智能标注(红色)roi的代表。基于dl的分割算法虽然使用了粗糙的带注释的切片进行训练,但可以识别和描绘测试数据集中CT扫描上的大部分病变。

图3
图3

所选放射组学特征的代表。用L1-LR方法从提取的1454个特征中筛选出108个特征。绝对系数前20位的特征如图所示,全部入选特征的详细情况见附录表S6

训练后,MLP、SVM、LR和XGBoost在训练集上的平均AUC分别为0.995、0.964、0.995和0.995;训练集上的AUC越高,模型拟合越好。同时,验证集的平均AUC分别为0.873(95%置信区间(CI) 0.812-0.934)、0.872 (95% CI 0.846-0.898)、0.858 (95% CI 0.807-0.909)和0.815 (95% CI 0.772-0.858)(图2)。4, sFig。4)。L1-LR +分类器MLP (DL-MLP)在训练中表现出最优的性能。

图4
图4

ML模型在训练集和验证集上的受试者工作特征(ROC)曲线分析。在训练集和验证集上分析ROC曲线,以评估ML模型的性能。除SVM外,其他模型在训练集上的拟合效果都很好,而MLP在验证集上的拟合效果最优。

端到端模型的性能评估

ML模型结合DL分割算法构成端到端模型。然后,我们在测试数据集上评估了这些模型的性能。DL-MLP在内部测试数据集上的AUC为0.922 (95% CI 0.856-0.988), F1得分为0.841,kappa系数为0.761,优于其他模型;AP达到0.851 (95% CI 0.762-0.939)。5a、b)。DL-SVM、DL-LR和DL-XGBoost的AUC分别为0.927 (95% CI 0.864-0.991)、0.918 (95% CI 0.851-0.986)和0.882 (95% CI 0.802-0.961)。这些模型的详细诊断性能指标列于表中2。此外,对COVID-19与病原学证实的流感肺炎或支原体肺炎进行亚组分析,DL-MLP再次显示出足够的分类性能,AUC为0.891 (95% CI 0.805-0.977)和0.933 (95% CI 0.865-1.000)(图2)。5c)。

图5
图5

机器学习模型和放射科医生在内部测试数据集上的表现。(一个)对DL-ML模型进行ROC和precision-recall (PR)曲线分析。放射科医生的表现根据其敏感性和特异性进行评分。(bCOVID-19与其他社区获得性肺炎(CAP)二元分类混淆矩阵。列出了真阳性、假阳性、真阴性和假阴性的确切数量。(c)对独立内测数据进行ROC和PR曲线分析。在内部测试数据集中使用了一批病原学确诊的流感和支原体肺炎数据。DL-MLP在区分新冠肺炎方面表现良好。

表2端到端模型和放射科医生在内部和外部测试数据集上的详细诊断指标。

此外,DL-MLP在外部测试数据集上取得了更好的性能,AUC为0.959 (95% CI 0.910-1.000), F1得分为0.841,kappa系数为0.750;其AP达到0.937 (95% CI 0.877 ~ 0.997)。其他模型的详细诊断性能指标总结于表中2和无花果。6。值得注意的是,端到端模型只需38秒就能诊断出每次输入的CT扫描,这表明了它在实践中的高效率。

图6
图6

机器学习模型和放射科医生在外部测试数据集上的表现。(一个)进行ROC曲线和PR曲线分析。绘制ML模型的综合曲线,并根据灵敏度和特异性对放射科医生的表现进行点表示。(b) COVID-19和CAP二分类混淆矩阵,列出真阳性、假阳性、真阴性和假阴性的确切数量。

放射科医师在读者研究中的表现评价

与初级放射科医师相比,高级放射科医师在内部检测数据集上的诊断准确度、精密度、灵敏度和特异性分别为0.90、0.83、0.88和0.91,在外部检测数据集上的诊断准确度、精密度、灵敏度和特异性分别为0.926、0.964、0.818和0.984(表1)2)。根据诊断的敏感性、特异性和精确性,在ROC曲线和PR曲线上虚线表示放射科医生的诊断表现(图2)。5一个和6a).高级放射科医师在内部和外部检测数据集上的kappa系数分别为0.781和0.832(图2)。5b和6b).此外,初级和高级放射科医师诊断一组CT图像的平均时间分别为5.29 min和5 min。

讨论

早期及时发现新冠肺炎患者对遏制疫情具有重要意义。实践证明,在一些紧急情况下,CT检查可以作为rRT-PCR筛查新冠病毒的补充手段282930.。通过将DL分割算法与放射组学相结合,我们开发了一个端到端模型,使用来自多个医疗中心的CT图像来筛查COVID-19患者。利用DL分割算法自动描绘roi,大大提高了放射组学模型在临床中的应用潜力。经过选定放射组学特征的训练,DL-MLP模型显示出与具有15年内部和外部测试数据集经验的高级放射科医生相当的诊断性能。

自COVID-19爆发以来,迄今为止,开发了许多DL和放射组学模型,重点关注COVID-19的筛查、诊断和预后15。然而,由于医疗人力资源有限,病变分布分散,在目前的许多研究中,ROI注释仍然具有挑战性8911。在我们的研究中,我们使用了一种DL分割算法,该算法使用507组粗糙注释的疑似COVID-19 CT扫描进行训练。病变被选择性地标注在某些主要出现病变的CT切片上。该策略减少了医疗资源稀缺时的标注工作量,最终取得了较好的效果。DL分割算法使放射组学模型能够直接应用于临床实践,省去了人工标注的需要,对于将放射组学方法推广到其他疾病场景具有重要价值。

值得注意的是,我们使用了5种特征选择方法和4种机器学习算法来发现识别COVID-19患者的最优根瘤模型。共有20个模型在内部和外部测试数据集上进行了AUC测试和比较。首先通过比较模型在验证集上的性能,筛选出最优的特征选择方法;当使用L1-LR选择的特征进行训练时,四个机器学习模型中的三个实现了最佳的AUC。通过不考虑强相关性特征(PCC≥0.8;pcc≥0.5)。由于在内部和外部测试数据集上的鲁棒性,最终利用了所有L1-LR选择的特征。机器学习模型使用L1-LR选择的特征进行训练。根据内部和外部测试数据集在AUC、AP和其他诊断性能指标方面的表现,进一步分析最优模型MLP在亚组中的表现,并与放射科医生进行比较。

由于不同的开发数据集和技术,目前对COVID-19的诊断性能因模型而异。检测灵敏度为0.83 ~ 1,AUC为0.81 ~ 0.996153132。最近的一项研究将迁移学习与深度卷积神经网络(15种架构)集成在CT图像上检测COVID-19,其灵敏度为0.854,准确度为0.85,精度为0.85733。采用轴位、冠状位和矢状位肺最大区域的CT图像建立基于dl的多视图融合模型,在测试集上AUC、准确度、灵敏度和特异性分别为0.819、0.760、0.811和0.61532。相比之下,我们的研究数据量相似,但在外部测试数据集上的AUC、准确度、灵敏度和特异性分别为0.959、0.884、0.879和0.887,取得了更好的诊断效果。同样,多视图融合模型通过使用某些完整的CT图像来解决注释问题,但这也可能导致特征不足,无法正确检测COVID-1932。使用大型数据集训练另一个深度学习模型,以从其他肺炎中识别COVID-1934。与该模型一样,我们提出的DL-MLP也可以将COVID-19与病原学证实的流感和支原体肺炎区分开来,并且在AUC方面取得了更好的表现。

值得注意的是,还开发了放射组学模型来区分COVID-19,预测COVID-19患者的住院时间、疾病严重程度和预后10121314。早期的放射组学研究利用了从COVID-19 CT扫描中剪切的病变和正常区域斑块,具有GLSZM特征的分类准确率达到99.68%35。然而,本研究忽略了两类图像斑块之间的患者内相关性。同时,通过结合放射组学评分和显著相关的CT特征,还开发了用于预测COVID-19的放射组学nomogram13并获得了与我们相当的性能。然而,值得注意的是,除了内部和外部测试集之外,通过与经验丰富的放射科医生在外部测试数据集上进行比较,进一步验证了所提出的DL-MLP模型,这证实了该模型在临床场景中的更大应用潜力。

本研究以两位放射科医师的诊断表现作为评估模型诊断效果的基准。不同于数据分类不平衡的研究,其诊断阈值由g均值决定36,我们的模型输出每个类别的归一化预测概率,并且在诊断阈值为0.5的情况下,在识别COVID-19方面取得了足够的性能(图5)。5)。值得注意的是,参与研究的放射科医生对COVID-19的诊断表现总体上与其他研究中的放射科医生相当,具有相似的敏感性、特异性和准确性1137。与之前的DL研究一致113738在检测灵敏度、特异性和准确性方面,DL-MLP在内部和外部测试数据集上的诊断性能与经验丰富的高级放射科医生相当。外部测试数据集上足够的性能进一步提高了端到端DL-MLP模型的可靠性。此外,诊断效率是评价模型可行性的另一个重要参数。在当前和先前的研究中发现放射科医生的阅读时间相当(5.15分钟对6.5分钟)。1138;相比之下,该模型在大约38秒内做出诊断,效率要高得多。

本研究仍有局限性,可以在未来的研究中加以改进。更多放射科医师参与读者研究、人工智能辅助阅读模式的使用以及详细的亚组分析可以进一步验证该模型在临床实践中的可行性。此外,整合CT图像以外的临床信息可能会潜在地提高诊断性能。

综上所述,通过将DL分割算法与放射组学方法相结合,建立了端到端的DL- mlp模型,以有效地从其他CAP患者中筛选COVID-19患者。DL-MLP在内部和外部测试数据集上取得了足够的诊断性能,可与高级放射科医生相媲美,这表明该算法在协助放射科医生在紧急情况或高流行地区联合rRT-PCR检测筛查COVID-19疑似病例方面具有巨大潜力。