文摘
先前的研究在深度学习(DL)在病理学中的应用主要集中在pathologist-versus-algorithm比较。然而,DL不会取代病理学家的广度和上下文知识;相反,只有通过他们的组合可能DL的好处。完全交叉multireader多波研究评估DL援助与病理学家的胃癌的诊断。总共有110张幻灯片图像(WSI)(50 60恶性和良性)解释了16个执照病理学家有或没有DL援助,洗脱期之间的会话。DL-assisted病理学家取得了更高的接受者操作特征曲线下面积(ROC-AUC)(0.911和0.863,P= 0.003)比无助的在解释110年WSIs。病理学家与DL援助证明比没有高灵敏度检测胃癌(90.63%比82.75%,P= 0.010)。没有观察到显著差异特异性有或没有深度学习援助(78.23%比79.90%,P= 0.468)。平均每个WSI审查时间缩短了DL援助比没有(22.68 vs 26.37秒,P= 0.033)。我们的研究结果表明,DL援助确实改善病理学家在胃癌诊断的准确性和效率,进一步提高了这种新技术的接受。
介绍
胃癌是第三个全球癌症死亡最常见的原因,这在中国排名第二1,2,3。据估计,超过100万全球每年胃癌诊断的新病例3。组织病理学评价胃标本对临床管理至关重要,这需要有经验的病理学家和耗时。然而,全球缺乏病理学家的存在。据报道,有一个短缺90000病理学家在中国,和在许多非洲国家缺乏更严重4,5。西方国家也面临着类似的问题由于增加退休的病理学家6,7。
人工智能,特别是深入学习算法,表明更好的或水平性能与人类病理学家在几个领域,用苏木精和伊红染色(圆))张幻灯片图片(WSIs)8,9,10。Ehteshami et al。8表明,深度学习取得更好的性能比11病理学家小组检测淋巴结转移的乳腺癌。最近的研究表明,深度学习取得相对较高的敏感性和特异性诊断胃肠道癌症11,肺癌12前列腺癌,13,14和其他15,16。
我们已经开发出一种深学习胃癌检测的算法,并实现了附近的敏感性100%,特异性80.6% 3212年实际WSIs由不同的扫描仪扫描17。在一个内部检查,算法的性能与12病理学家在解释100 WSIs持平17。然而,我们的研究和以往的研究侧重于pathologist-versus-algorithm比较而不是他们的组合8,9,17。一个精确的深度学习算法不会取代病理学家的广度和语境知识。相反,只有通过他们的融入临床算法的好处可能完全实现18。基于上述考虑,我们进行了一个读者研究来评估性能的病理学家在解释WSIs的胃标本和没有深度学习的帮助。
材料和方法
案件登记
共有110个胃幻灯片基于病理报告进行回顾性选择从解放军总医院(PLAGH)在2019年7月1日和2020年12月31日之间。在这些样本中,60是良性的,50例为恶性,这基本上代表了所有胃标本中遇到的日常工作流(表1)。110年胃幻灯片来自110个不同的情况。所有样本活检标本,因为手术标本通常表明恶性肿瘤,这可能影响病理学家的判断。
参考标准的诊断
参考金标准诊断成立于110年的幻灯片。三名高级病理学家从独立PLAGH回顾了玻璃幻灯片,使每个案例的诊断。在有意见不一致的情况下,所有三个专家回顾了幻灯片,包括免疫组织化学、多头显微镜使用达成共识。幻灯片进行扫描在WSIs kf - pro - 005扫描仪(0.238μm×0.238μm /像素)。结果WSIs被一个一个检查,以确保图像质量。WSIs失焦或缺失的组织重新扫描。
病理学家
总共16个执照的解剖病理学家从12种不同的医院参加了这项研究。他们没有参与测试集招生或建立诊断的参考标准。解剖病理学经验范围从6到20年。因为大多数的病理学家没有经验回顾WSIs有或没有深度学习援助,他们都没有读< 50 WSIs建立前一个月内熟悉阅读系统评估研究。病理学家自愿参加,理解并同意本研究的基本原则和目的。
深入学习算法
在我们以前的工作17,我们利用卷积神经网络DeepLab v3架构胃癌检测。深入学习算法训练与2123年进行像素级注释H&E-stained WSIs,取得了99.6%的敏感性与特异性平均80.6%的实际测试数据集3212 WSIs的数字化由三个扫描仪。算法的泛化能力进一步测试了2 1582 WSIs其他医疗中心。深入学习算法可以自动输出进行像素级恶性概率,融入slide-level预测。
研究设计
完全交叉multireader多波(MRMC)研究进行评估深度学习协助诊断病理学家的胃损伤。110 WSIs(50 60恶性和良性)解释了16个执照解剖病理学家有或没有深度学习援助,被冲刷的5周内(无花果。1)。减轻偏见可能开始与结束的性能差异解释测试集,110年WSIs被分成20块WSIs 10 WSIs)(最后一个块,每个块包含的良性和恶性WSIs比例大致相同,但在随机顺序。此外,建立审查WSIs的熟悉,每个订单始于5 WSIs的审查。16个病理学家被随机分为2组,其中始于(订单1)或没有(订单2)深度学习的帮助。无论是哪种顺序,WSIs解释是相同的;唯一的区别是有或没有深度学习帮助。
样本大小
我们计算样本大小使用“多和诊断研究样本量单一阅读器程序”(可用https://perception.lab.uiowa.edu/power-sample-size-estimation),这是基于西里斯的方法,Obuchowski, Berbaum。一项初步研究表明16读者和100 WSIs将提供超过90%与5%的显著性水平,目的是证明的优越性接受者操作特征曲线下面积(ROC-AUC)的病理学家有帮助没有帮助。
有或没有深度学习援助审查
在评估研究中,病理学家回顾了WSIs时,模式(有或没有深学习援助)切换每20 WSI间隔。WSIs的深度学习援助,一个热图萎靡不振的可疑恶性地区在WSI可以开启和关闭,利用键盘上的空格键。WSIs没有援助,只有WSI显示。参与者提供了一个诊断通过单击按钮在屏幕上(补充图。S1)。WSIs被展示在一个13.3“2560 * 1600监控(苹果MacBook Pro 13.3)。
WSI公司审查时间
尽可能地模拟临床工作流,16个病理学家被要求评估110 WSIs自控的步伐。对于每个WSI公司,时间从观众打开WSI最终诊断记录后台程序。病理学家可以在测试期间休息,这段时间并没有计算在内。
统计分析
病理学家被要求为每个WSI公司提供四种不同的诊断(恶性可能/可能恶性良性/良性),对应于一个“怀疑分数”从1到4,用于构建中华民国。我们分析了平均AUC基于读者怀疑分数作为一个统计上有效的方法来评估癌症和非癌性能指标结合成一个单一的测量。这些分析的方法Obuchowski &宇航员与mixed-effects Hillis调整自由度模型。模型生成与病理学家,WSIs视为随机效应和援助形态和会话(订单1或订单2)视为固定效果。梯形/ Wilcoxon曲线拟合方法和折裂的协方差估计被用于分析。比较两个会话之间的敏感性和特异性(有或没有深度学习援助),一个二进制版本MRMC分析是实现收益P价值。每个WSI公司计算的平均审查时间为每一个病理学家在每个会话,和配对t以及用于产生P值为两会之间的区别。所有其他统计分析进行统计计算环境中的R 4.0和SAS 9.4。没有统计调整为多个分析。
结果
病理学家有或没有帮助的性能
每个WSI病理学家明显是恶性的,可能是恶性,良性或良性(补充图。S1)。结果被安装到一个民国病理学家有或没有深度学习援助(梯形/ Wilcoxon方法)。病理学家的性能是由ROC-AUC评估。的平均auc的病理学家,没有深度学习援助分别为0.911和0.863 (P= 0.003,95%可信区间[CI]: 0.018 - -0.079)(图2和表2),这表明,深度学习援助的确提高了诊断病理学家的性能。每一个病理学家的AUC有或没有援助提出了补充表S1。
根据病理学家的诊断、恶性肿瘤和恶性可能被集群为胃癌,良性的和可能良性集群常見。在二进制分类层次,病理学家的意思是敏感性没有和深度学习援助分别为82.75%和90.63% (P= 0.010,95% CI: 2.09—-13.66%)。病理学家的意思是特异性没有和深度学习援助分别为79.90%和78.23% (P= 0.468,95% CI: 6.37−-3.04%)(图。2 b)。总结以上结果见表2,每一个病理学家的敏感性和特异性都显示在补充表S2和S3。
我们进一步分析精度的变化对于每个WSI不同形式的援助。困难几乎为零的情况下,深度学习精度提高的影响有限,而对不确定情况下的诊断或小恶性的地区很容易错过,深度学习能显著地提高精度。图3显示了三个具有代表性的例子的准确性病理学家后显著提高深度学习帮助。如无花果所示。3高档的胃上皮内瘤变,4的16病理诊断可能是良性的。深入学习算法强调怀疑恶性地区后,4病理学家改变了他们的诊断可能恶性(2病理学家)或恶性(2病理学家)。的精度从75%上升到100%。如无花果所示。3 b, C,小恶性区域或分散的恶性肿瘤细胞很容易错过。深入学习算法标记可疑区域后,促使病理学家进行审查评估,这两种情况下的精度从62.5%上升到93.75%和37.5%到87.5%,分别。
此外,我们评估深度学习援助和病理学家之间的关系的经验。我们发现少经验的病理学家倾向于从深度学习获得更大的精度改进援助(无花果。4)。
为了更好地理解他们的观点深入学习系统,我们管理的问卷调查的病理学家。结果表明,大多数病理学家有一个乐观的态度,愿意使用深度学习系统在他们未来的工作流程(图。5)。
WSI复习效率
审查每WSI的平均时间为16病理学家没有和深度学习的帮助为26.37±5.22(第二)和22.68±4.03年代(P= 0.033)(图2摄氏度)。我们进一步评估审查时间的变化在不同每个病理学家援助模式。深度学习帮助缩短复习时间的12个16病理学家。评审每WSI节省时间从1.2变化到12.84年代的12病理学家。补充表中提供的详细结果S4。
讨论
研究已经证明,深度学习在不同的病理诊断能够实现高精度的任务19,20.,21,22。值得注意的是,深度学习与完全自动化,没有人类病理学家备份并不客观10,23,24,甚至最好的算法需要整合到现有的临床工作流程,改善病人护理。因此,我们设计了一个完全交叉MRMC研究调查深度学习的潜在援助胃标本的病理学家在解释数字幻灯片。我们的研究结果表明,深度学习援助确实增加了识别胃癌病理学家的准确性和效率。
在精度方面,我们首先评估了AUC的病理学家有或没有深度学习援助和结果表明,深度学习援助可以提高诊断准确性。然后,我们评估了两个模式之间的敏感性和特异性。深度学习援助显著提高胃癌的敏感性检测但没有特异性。这个评估研究中实现的算法取得了附近的敏感性100%,特异性80.6% 3212实际WSIs17。算法实现高灵敏度往往是降低成本的特异性25,26。这可能是主要原因,深度学习援助没有提高病理学家的特异性。的病理诊断胃WSIs,未能诊断(假阴性结果)的危害超过做胃癌(假阳性结果)时。在临床工作流,病理学家理解意义的假阳性和假阴性的患者,使他们能够优化诊断操作点,生成不同的概率热图来满足临床需求,有时甚至在个案基础上。
我们进一步分析每个WSI的精度变化之间的援助模式。与不确定情况下的诊断或小恶性领域,深度学习能显著地提高诊断准确性。这种情况经常发生在病理学家读急速下滑,如超负荷工作或最后一张幻灯片。深度学习作为一个模拟从一位病理学家第二个意见不仅可以定位恶性地区也提供一个恶性概率对于每一个像素,提醒病理学家re-scrutinize潜在区域。
显示在无花果。4,经验相对较少的病理学家往往从深度学习获得更大的精度改进援助。这方面的一个暗示,病理学家经验较少可能在他们最初的诊断信心较低,因此,更有可能修改初始诊断如果不同意深度学习的预测算法。
尽管深度学习援助的平均灵敏度显著提高病理学家,仍低于中华民国的算法,如无花果所示。2 b。结果暗示病理学家和深度学习算法的组合并不一定超过算法。这主要是因为我们只提供了病理学家热图,不是一个特定的slide-level概率,这产生了中华民国。病理学家可以有选择地相信预测恶性肿瘤(heat map)根据自己的经验。尽管国际米兰——和intra-observer经验差异存在于病理诊断27,28,我们的结果表明,深度学习援助会导致更可靠和一致的诊断,这可能会导致更好的治疗决策。
除了准确性提高,深度学习援助也有一个节省时间的好处。虽然平均审查时间每WSI只是减少了< 4 s,累积效应可能更引人注目在临床实践中大量的幻灯片。此外,110年WSIs评估病理学家都活检,同时将大大延长手术标本病理学家的审查时间但不深的学习算法。我们假设这一次对手术标本可能更明显。尽管12的16病理学家花了更少的审查时间与深度学习比没有援助,有4病理学家的审查时间延长。他们普遍反映,热图分心病理诊断过程(无花果。5)。之前的研究表明,深度学习的效率提升与数字的增加将提高病理学经验29日,30.。病理学家可能会花更少的时间一旦习惯了观众深度学习系统的接口。病理学家的时间效率效益减少工作量并允许他们花更多的时间在困难的情况下。
也有一些局限性在我们的研究中,主要源于所执行的评估研究作为一个模拟过程,而不是一个实际的病理工作流。病理学家的测试数据集评估有或没有深度学习援助是富含的胃癌病例,这并不是直接与混合情况下,在临床实践中遇到。在我们的研究中,每个病理学家有一个WSI每箱进行诊断。在实际临床中,病理学家可以获得额外的幻灯片,额外包含IHC染色或临床数据做出最后的诊断。差异的内在困难评估集将直接影响到诊断病理学家有或没有帮助的性能。在这项研究中使用的算法只检测恶性肿瘤从良性,没有能力识别胃癌的病理亚型,临床管理和预后有关。我们未来的研究将着眼于建立病理亚型分类,使系统更具临床应用。
总之,我们的研究表明,深度学习的结合和人类病理学家有潜力提高胃癌诊断的准确性和效率。这项研究是一个有用的尝试理解深度学习提高病理学家的诊断。因此,进一步提高了病理学家接受这项新的技术。
数据可用性
WSI数据集描述的手稿被接受医院规定,不能全部投入使用。我们提供50 WSIs和相应的热图http://github.com/ThoroughImages/ClinicalPath。
代码的可用性
数据可视化的R代码是开源http://github.com/ThoroughImages/ClinicalPath。与此同时,我们开源深入学习系统的核心组件http://github.com/ThoroughImages/PathologyGo。
引用
西格尔,r . l . & MillerA k·d·癌症统计数据,2019年。CA癌症j .中国。69年7-34 (2019)。
陈,W。,Zheng, R., Baade, P. D., Zhang, S., Zeng, H. & Bray, F. et al. Cancer statistics in China, 2015.CA癌症j .中国。66年,115 - 132 (2016)。
史密斯,e . C。,Nilsson, M., Grabsch, H. I. & van Grieken, F. N. C. Lordick. Gastric cancer.《柳叶刀》396年,635 - 648 (2020)。
Adesina,。,Chumba, D., Nelson, A. M., Orem, J., Roberts, D. J. & Wabinga, H. et al. Improvement of pathology in sub-Saharan Africa.柳叶刀杂志。14e152 - 157 (2013)。
徐,C。,Li, Y. & Chen, P. A survey on the attitudes of Chinese medical students towards current pathology education.BMC地中海,建造。20.259 (2020)。
遇见,d . M。,Colgan, T. J. & Leung, S. T. Trends in the US and Canadian Pathologist Workforces From 2007 to 2017.JAMA Netw。开放2e194337 (2019)。
Robboy, s . J。,Weintraub, S., Horvath, A. E., Jensen, B. W., Alexander, C. B. & Fody, E. P. et al. Pathologist workforce in the United States: I. Development of a predictive model to examine factors influencing supply.拱门。病理学研究。实验室。地中海。137年,1723 - 1732 (2013)。
Ehteshami Bejnordi B。高山病,M。,Johannes van Diest, P., van Ginneken, B., Karssemeijer, N. & Litjens, G. et al. Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer.《美国医学会杂志》318年,2199 - 2210 (2017)。
Cruz-Roa,。,Gilmore, H., Basavanhally, A., Feldman, M., Ganesan, S. & Shih, N. N. C. et al. Accurate and reproducible invasive breast cancer detection in whole-slide images: a deep learning approach for quantifying tumor extent.科学。代表。746450 (2017)。
托·e·j .高性能医学:人类与人工智能的融合。Nat,地中海。2544-56 (2019)。
凯丝,j . N。,Pearson, A. T., Halama, N., Jager, D., Krause, J. & Loosen, S. H. et al. Deep learning can predict microsatellite instability directly from histology in gastrointestinal cancer.Nat,地中海。25,1054 - 1056 (2019)。
Yu, k . H。,Zhang, C., Berry, G. J., Altman, R. B., Re, C. & Rubin, D. L. et al. Predicting non-small cell lung cancer prognosis by fully automated microscopic pathology image features.Commun Nat。712474 (2016)。
Arvaniti E。,Fricker, K. S., Moret, M., Rupp, N., Hermanns, T. & Fankhauser, C. et al. Automated Gleason grading of prostate cancer tissue microarrays via deep learning.科学。代表。812054 (2018)。
Raciti, P。,苏,J。,Ceballos, R., Godrich, R., Kunz, J. D. & Kapur, S. et al. Novel artificial intelligence system increases the detection of prostate cancer in whole slide images of core needle biopsies.国防部,病理学研究。33,2058 - 2066 (2020)。
Courtiol, P。,Maussion, C., Moarii, M., Pronier, E., Pilcer, S. & Sefta, M. et al. Deep learning-based classification of mesothelioma improves prediction of patient outcome.Nat,地中海。25,1519 - 1525 (2019)。
坎帕内拉,G。汉娜·m·G。Geneslaw, L。Miraflor,。,Werneck Krauss Silva, V. & Busam, K. J. et al. Clinical-grade computational pathology using weakly supervised deep learning on whole slide images.Nat,地中海。25,1301 - 1309 (2019)。
歌,Z。,Zou, S., Zhou, W., Huang, Y., Shao, L. & Yuan, J. et al. Clinically applicable histopathological diagnosis system for gastric cancer detection using deep learning.Commun Nat。114294 (2020)。
汉娜·m·G。墩,O。,Reuter, V. E., Sirintrapun, S. J., England, C. & Klimstra, D. S. et al. Integrating digital pathology into clinical practice.国防部,病理学研究。35,152 - 164 (2021)。
英航,W。,Wang, R., Yin, G., Song, Z., Zou, J. & Zhong, C. et al. Diagnostic assessment of deep learning for melanocytic lesions using whole-slide pathological images.Transl。肿瘤防治杂志。14101161 (2021)。
Hekler,。,Utikal, J. S., Enk, A. H., Berking, C., Klode, J. & Schadendorf, D. et al. Pathologist-level classification of histopathological melanoma images with deep neural networks.欧元。j .癌症115年,79 - 83 (2019)。
斯特罗姆,P。,Kartasalo, K., Olsson, H., Solorzano, L., Delahunt, B. & Berney, D. M. et al. Artificial intelligence for diagnosis and grading of prostate cancer in biopsies: a population-based, diagnostic study.柳叶刀杂志。21,222 - 232 (2020)。
Fenstermaker, M。,Tomlins, S. A. & Singh, K. Development and validation of a deep-learning model to assist with renal cell carcinoma histopathologic interpretation.泌尿外科144年,152 - 157 (2020)。
Niazi, m . k . k .数字病理和人工智能。柳叶刀杂志。20.e253-e261 (2019)。
KeaneE p a & Topol j .着眼于AI和自动诊断。NPJ数字。地中海。140 (2018)。
Kermany, d S。Goldbaum, M。Cai, W。,Valentim, C. C. S., Liang, H. & Baxter, S. L. et al. Identifying medical diagnoses and treatable diseases by image-based deep learning.细胞172年,1122 - 1131。e1129 (2018)。
上涨,美国预测机器学习在电子健康数据。JAMA Netw。开放1e181404 (2018)。
金,j . M。,Sohn, J. H., Cho, M. Y., Kim, W. H., Chang, H. K. & Jung, E. S. et al. Inter-observer reproducibility in the pathologic diagnosis of gastric intraepithelial neoplasia and early carcinoma in endoscopic submucosal dissection specimens: a multi-center study.癌症治疗》。51,1568 - 1577 (2019)。
Falck v . g . & Novelli m . r .胃发育不良:inter-observer变异,sulphomucin染色和核仁的组织者地区计数。组织病理学16,141 - 149 (1990)。
米尔斯,a . M。,Gradecki, S. E., Horton, B. J., Blackwell, R., Moskaluk, C. A. & Mandell, J. W. et al. Diagnostic efficiency in digital pathology: a comparison of optical versus digital assessment in 510 surgical pathology cases.点。j . Surg.分册。4253至59,(2018)。
施泰纳·d·F。,MacDonald, R., Liu, Y., Truszkowski, P., Hipp, J. D. & Gammage, C. et al. Impact of deep learning assistance on the histopathologic review of lymph nodes for metastatic breast cancer.点。j . Surg.分册。42,1636 - 1646 (2018)。
确认
这项工作是支持的医疗大数据和人工智能项目的中国人民解放军总医院(批准号2019 mbd - 038)和清华倡议研究项目(批准号20151080475)。
作者信息
作者和联系
贡献
概念和设计:世行、西南、z和海关。搜索和收集的数据:所有作者。实验传导:世行,西南、ZZ CY, RX, WW, LW, CL, HS和z。数据的分析和解释:世行,西南,MS, ZZ, CY, RX, HW, HS和z。统计分析:女士、ZZ CY, HW。手稿撰写和审查:世行,西南,MS, z和海关。
相应的作者
道德声明
相互竞争的利益
作者宣称没有利益冲突。
伦理批准
机构审查委员会批准这个回顾性研究是来自解放军总医院&医学院(PLAGH &女士)(没有批准:mbd 2019 - 038)。机构审查委员会免除由于幻灯片是匿名的知情同意。
额外的信息
出版商的注意施普林格自然保持中立在发表关于司法主权地图和所属机构。
补充信息
权利和权限
开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到Creative Commons许可,并指出如果变化。本文中的图片或其他第三方材料都包含在本文的创作共用许可,除非另有说明在一个信用额度的材料。如果材料不包括在本文的创作共用许可证和用途是不允许按法定规定或超过允许的使用,您将需要获得直接从版权所有者的许可。查看本许可证的副本,访问http://creativecommons.org/licenses/by/4.0/。
关于这篇文章
引用这篇文章
英航,W。,Wang, S., Shang, M.et al。深度学习帮助评估胃癌的病理诊断。国防部分册35,1262 - 1268 (2022)。https://doi.org/10.1038/s41379 - 022 - 01073 - z
收到了:
修改后的:
接受:
发表:
发行日期:
DOI:https://doi.org/10.1038/s41379 - 022 - 01073 - z
本文引用的
开发和验证一个人工神经网络模型的非侵入性胃癌筛查和诊断
科学报告(2022)