介绍

胃癌是第三个全球癌症死亡最常见的原因,这在中国排名第二1,2,3。据估计,超过100万全球每年胃癌诊断的新病例3。组织病理学评价胃标本对临床管理至关重要,这需要有经验的病理学家和耗时。然而,全球缺乏病理学家的存在。据报道,有一个短缺90000病理学家在中国,和在许多非洲国家缺乏更严重4,5。西方国家也面临着类似的问题由于增加退休的病理学家6,7

人工智能,特别是深入学习算法,表明更好的或水平性能与人类病理学家在几个领域,用苏木精和伊红染色(圆))张幻灯片图片(WSIs)8,9,10。Ehteshami et al。8表明,深度学习取得更好的性能比11病理学家小组检测淋巴结转移的乳腺癌。最近的研究表明,深度学习取得相对较高的敏感性和特异性诊断胃肠道癌症11,肺癌12前列腺癌,13,14和其他15,16

我们已经开发出一种深学习胃癌检测的算法,并实现了附近的敏感性100%,特异性80.6% 3212年实际WSIs由不同的扫描仪扫描17。在一个内部检查,算法的性能与12病理学家在解释100 WSIs持平17。然而,我们的研究和以往的研究侧重于pathologist-versus-algorithm比较而不是他们的组合8,9,17。一个精确的深度学习算法不会取代病理学家的广度和语境知识。相反,只有通过他们的融入临床算法的好处可能完全实现18。基于上述考虑,我们进行了一个读者研究来评估性能的病理学家在解释WSIs的胃标本和没有深度学习的帮助。

材料和方法

案件登记

共有110个胃幻灯片基于病理报告进行回顾性选择从解放军总医院(PLAGH)在2019年7月1日和2020年12月31日之间。在这些样本中,60是良性的,50例为恶性,这基本上代表了所有胃标本中遇到的日常工作流(表1)。110年胃幻灯片来自110个不同的情况。所有样本活检标本,因为手术标本通常表明恶性肿瘤,这可能影响病理学家的判断。

表1测试集进行评价研究。

参考标准的诊断

参考金标准诊断成立于110年的幻灯片。三名高级病理学家从独立PLAGH回顾了玻璃幻灯片,使每个案例的诊断。在有意见不一致的情况下,所有三个专家回顾了幻灯片,包括免疫组织化学、多头显微镜使用达成共识。幻灯片进行扫描在WSIs kf - pro - 005扫描仪(0.238μm×0.238μm /像素)。结果WSIs被一个一个检查,以确保图像质量。WSIs失焦或缺失的组织重新扫描。

病理学家

总共16个执照的解剖病理学家从12种不同的医院参加了这项研究。他们没有参与测试集招生或建立诊断的参考标准。解剖病理学经验范围从6到20年。因为大多数的病理学家没有经验回顾WSIs有或没有深度学习援助,他们都没有读< 50 WSIs建立前一个月内熟悉阅读系统评估研究。病理学家自愿参加,理解并同意本研究的基本原则和目的。

深入学习算法

在我们以前的工作17,我们利用卷积神经网络DeepLab v3架构胃癌检测。深入学习算法训练与2123年进行像素级注释H&E-stained WSIs,取得了99.6%的敏感性与特异性平均80.6%的实际测试数据集3212 WSIs的数字化由三个扫描仪。算法的泛化能力进一步测试了2 1582 WSIs其他医疗中心。深入学习算法可以自动输出进行像素级恶性概率,融入slide-level预测。

研究设计

完全交叉multireader多波(MRMC)研究进行评估深度学习协助诊断病理学家的胃损伤。110 WSIs(50 60恶性和良性)解释了16个执照解剖病理学家有或没有深度学习援助,被冲刷的5周内(无花果。1)。减轻偏见可能开始与结束的性能差异解释测试集,110年WSIs被分成20块WSIs 10 WSIs)(最后一个块,每个块包含的良性和恶性WSIs比例大致相同,但在随机顺序。此外,建立审查WSIs的熟悉,每个订单始于5 WSIs的审查。16个病理学家被随机分为2组,其中始于(订单1)或没有(订单2)深度学习的帮助。无论是哪种顺序,WSIs解释是相同的;唯一的区别是有或没有深度学习帮助。

图1:研究设计。
图1

16个病理学家回顾了在相同的序列WSIs相同,但不同的形式:有或没有深度学习帮助。16个病理学家被随机分配到两个援助”命令。“每个矩形表示一组WSIs;矩形的颜色表明形态,矩形中的数字表明WSIs的数量。病理学家检查5图片(不是测试集的一部分),熟悉和总共110张图片正式审查。

样本大小

我们计算样本大小使用“多和诊断研究样本量单一阅读器程序”(可用https://perception.lab.uiowa.edu/power-sample-size-estimation),这是基于西里斯的方法,Obuchowski, Berbaum。一项初步研究表明16读者和100 WSIs将提供超过90%与5%的显著性水平,目的是证明的优越性接受者操作特征曲线下面积(ROC-AUC)的病理学家有帮助没有帮助。

有或没有深度学习援助审查

在评估研究中,病理学家回顾了WSIs时,模式(有或没有深学习援助)切换每20 WSI间隔。WSIs的深度学习援助,一个热图萎靡不振的可疑恶性地区在WSI可以开启和关闭,利用键盘上的空格键。WSIs没有援助,只有WSI显示。参与者提供了一个诊断通过单击按钮在屏幕上(补充图。S1)。WSIs被展示在一个13.3“2560 * 1600监控(苹果MacBook Pro 13.3)。

WSI公司审查时间

尽可能地模拟临床工作流,16个病理学家被要求评估110 WSIs自控的步伐。对于每个WSI公司,时间从观众打开WSI最终诊断记录后台程序。病理学家可以在测试期间休息,这段时间并没有计算在内。

统计分析

病理学家被要求为每个WSI公司提供四种不同的诊断(恶性可能/可能恶性良性/良性),对应于一个“怀疑分数”从1到4,用于构建中华民国。我们分析了平均AUC基于读者怀疑分数作为一个统计上有效的方法来评估癌症和非癌性能指标结合成一个单一的测量。这些分析的方法Obuchowski &宇航员与mixed-effects Hillis调整自由度模型。模型生成与病理学家,WSIs视为随机效应和援助形态和会话(订单1或订单2)视为固定效果。梯形/ Wilcoxon曲线拟合方法和折裂的协方差估计被用于分析。比较两个会话之间的敏感性和特异性(有或没有深度学习援助),一个二进制版本MRMC分析是实现收益P价值。每个WSI公司计算的平均审查时间为每一个病理学家在每个会话,和配对t以及用于产生P值为两会之间的区别。所有其他统计分析进行统计计算环境中的R 4.0和SAS 9.4。没有统计调整为多个分析。

结果

病理学家有或没有帮助的性能

每个WSI病理学家明显是恶性的,可能是恶性,良性或良性(补充图。S1)。结果被安装到一个民国病理学家有或没有深度学习援助(梯形/ Wilcoxon方法)。病理学家的性能是由ROC-AUC评估。的平均auc的病理学家,没有深度学习援助分别为0.911和0.863 (P= 0.003,95%可信区间[CI]: 0.018 - -0.079)(图2和表2),这表明,深度学习援助的确提高了诊断病理学家的性能。每一个病理学家的AUC有或没有援助提出了补充表S1

图2:性能的病理学家有或没有深度学习帮助。
图2

一个病理学家的平均AUC与深度学习援助比没有(0.911和0.863,P= 0.003)。B的灵敏度提高了病理学家与深度学习援助相比,那些没有援助(90.63%比82.75%,P= 0.010)。没有显著差异特异性有或没有深度学习援助(78.23%比79.90%,P= 0.468)。C平均每个WSI审查时间与深度学习减少援助相比,没有(22.68 vs 26.37年代,P= 0.033)。圆圈代表每一个病理学家的价值,方块显示平均病理学家的形态,和盒子的竖线代表四分位数。AUC接受者操作特征曲线下面积;时间复习每WSI被描述为均值±SD(标准差)。

表2的病理学家有或没有深度学习帮助。

根据病理学家的诊断、恶性肿瘤和恶性可能被集群为胃癌,良性的和可能良性集群常見。在二进制分类层次,病理学家的意思是敏感性没有和深度学习援助分别为82.75%和90.63% (P= 0.010,95% CI: 2.09—-13.66%)。病理学家的意思是特异性没有和深度学习援助分别为79.90%和78.23% (P= 0.468,95% CI: 6.37−-3.04%)(图。2 b)。总结以上结果见表2,每一个病理学家的敏感性和特异性都显示在补充表S2S3

我们进一步分析精度的变化对于每个WSI不同形式的援助。困难几乎为零的情况下,深度学习精度提高的影响有限,而对不确定情况下的诊断或小恶性的地区很容易错过,深度学习能显著地提高精度。图3显示了三个具有代表性的例子的准确性病理学家后显著提高深度学习帮助。如无花果所示。3高档的胃上皮内瘤变,4的16病理诊断可能是良性的。深入学习算法强调怀疑恶性地区后,4病理学家改变了他们的诊断可能恶性(2病理学家)或恶性(2病理学家)。的精度从75%上升到100%。如无花果所示。3 b, C,小恶性区域或分散的恶性肿瘤细胞很容易错过。深入学习算法标记可疑区域后,促使病理学家进行审查评估,这两种情况下的精度从62.5%上升到93.75%和37.5%到87.5%,分别。

图3:三个代表的例子显示精度改进后深度学习帮助。
图3

在每个例子中,前两个细胞(低功率绿色矩形)的视图和放大区域代表WSIs没有援助,而表示相同的底部WSI援助。一个金标准诊断的病例是高档上皮内瘤变。四个16病理学家对情况不确定,可能误诊为良性。深度学习萎靡不振的可疑区域后,病理学家的准确性从75%上升到100%。B由于非常小的比例的印戒细胞癌WSI,病理学家小姐可能恶性的地区。深度学习萎靡不振的可疑区域后,精度从62.5%上升到93.75%。C分散印戒细胞(红色箭头)与淋巴细胞和组织细胞混合,使诊断困难。使用深度学习援助后,精度从37.5%上升到87.5%。彩色比例尺(上)表示每个像素的概率是恶性的。

此外,我们评估深度学习援助和病理学家之间的关系的经验。我们发现少经验的病理学家倾向于从深度学习获得更大的精度改进援助(无花果。4)。

图4:相关性深度学习援助和病理学家的经验。
图4

病理学家少经验往往从深度学习获得更大的精度改进援助(红线代表拟合曲线和阴影区域代表95%的置信区间)。

为了更好地理解他们的观点深入学习系统,我们管理的问卷调查的病理学家。结果表明,大多数病理学家有一个乐观的态度,愿意使用深度学习系统在他们未来的工作流程(图。5)。

图5:调查结果深入学习系统。
图5

病理学家被要求反映在病理诊断和没有深度学习的帮助和回答问题五分制的从“强烈不同意”到“强烈同意”。

WSI复习效率

审查每WSI的平均时间为16病理学家没有和深度学习的帮助为26.37±5.22(第二)和22.68±4.03年代(P= 0.033)(图2摄氏度)。我们进一步评估审查时间的变化在不同每个病理学家援助模式。深度学习帮助缩短复习时间的12个16病理学家。评审每WSI节省时间从1.2变化到12.84年代的12病理学家。补充表中提供的详细结果S4

讨论

研究已经证明,深度学习在不同的病理诊断能够实现高精度的任务19,20.,21,22。值得注意的是,深度学习与完全自动化,没有人类病理学家备份并不客观10,23,24,甚至最好的算法需要整合到现有的临床工作流程,改善病人护理。因此,我们设计了一个完全交叉MRMC研究调查深度学习的潜在援助胃标本的病理学家在解释数字幻灯片。我们的研究结果表明,深度学习援助确实增加了识别胃癌病理学家的准确性和效率。

在精度方面,我们首先评估了AUC的病理学家有或没有深度学习援助和结果表明,深度学习援助可以提高诊断准确性。然后,我们评估了两个模式之间的敏感性和特异性。深度学习援助显著提高胃癌的敏感性检测但没有特异性。这个评估研究中实现的算法取得了附近的敏感性100%,特异性80.6% 3212实际WSIs17。算法实现高灵敏度往往是降低成本的特异性25,26。这可能是主要原因,深度学习援助没有提高病理学家的特异性。的病理诊断胃WSIs,未能诊断(假阴性结果)的危害超过做胃癌(假阳性结果)时。在临床工作流,病理学家理解意义的假阳性和假阴性的患者,使他们能够优化诊断操作点,生成不同的概率热图来满足临床需求,有时甚至在个案基础上。

我们进一步分析每个WSI的精度变化之间的援助模式。与不确定情况下的诊断或小恶性领域,深度学习能显著地提高诊断准确性。这种情况经常发生在病理学家读急速下滑,如超负荷工作或最后一张幻灯片。深度学习作为一个模拟从一位病理学家第二个意见不仅可以定位恶性地区也提供一个恶性概率对于每一个像素,提醒病理学家re-scrutinize潜在区域。

显示在无花果。4,经验相对较少的病理学家往往从深度学习获得更大的精度改进援助。这方面的一个暗示,病理学家经验较少可能在他们最初的诊断信心较低,因此,更有可能修改初始诊断如果不同意深度学习的预测算法。

尽管深度学习援助的平均灵敏度显著提高病理学家,仍低于中华民国的算法,如无花果所示。2 b。结果暗示病理学家和深度学习算法的组合并不一定超过算法。这主要是因为我们只提供了病理学家热图,不是一个特定的slide-level概率,这产生了中华民国。病理学家可以有选择地相信预测恶性肿瘤(heat map)根据自己的经验。尽管国际米兰——和intra-observer经验差异存在于病理诊断27,28,我们的结果表明,深度学习援助会导致更可靠和一致的诊断,这可能会导致更好的治疗决策。

除了准确性提高,深度学习援助也有一个节省时间的好处。虽然平均审查时间每WSI只是减少了< 4 s,累积效应可能更引人注目在临床实践中大量的幻灯片。此外,110年WSIs评估病理学家都活检,同时将大大延长手术标本病理学家的审查时间但不深的学习算法。我们假设这一次对手术标本可能更明显。尽管12的16病理学家花了更少的审查时间与深度学习比没有援助,有4病理学家的审查时间延长。他们普遍反映,热图分心病理诊断过程(无花果。5)。之前的研究表明,深度学习的效率提升与数字的增加将提高病理学经验29日,30.。病理学家可能会花更少的时间一旦习惯了观众深度学习系统的接口。病理学家的时间效率效益减少工作量并允许他们花更多的时间在困难的情况下。

也有一些局限性在我们的研究中,主要源于所执行的评估研究作为一个模拟过程,而不是一个实际的病理工作流。病理学家的测试数据集评估有或没有深度学习援助是富含的胃癌病例,这并不是直接与混合情况下,在临床实践中遇到。在我们的研究中,每个病理学家有一个WSI每箱进行诊断。在实际临床中,病理学家可以获得额外的幻灯片,额外包含IHC染色或临床数据做出最后的诊断。差异的内在困难评估集将直接影响到诊断病理学家有或没有帮助的性能。在这项研究中使用的算法只检测恶性肿瘤从良性,没有能力识别胃癌的病理亚型,临床管理和预后有关。我们未来的研究将着眼于建立病理亚型分类,使系统更具临床应用。

总之,我们的研究表明,深度学习的结合和人类病理学家有潜力提高胃癌诊断的准确性和效率。这项研究是一个有用的尝试理解深度学习提高病理学家的诊断。因此,进一步提高了病理学家接受这项新的技术。