技术特性
2023年1月9日
修正2023年1月12日

困扰医疗人工智能的可重复性问题

医疗保健系统正在推出用于诊断和监测的人工智能工具。但是这些模型有多可靠呢?

艾米丽孙⁰

艾米丽孙
1. 艾米丽·孙是明尼苏达州明尼阿波利斯市的自由记者。
查看作者出版物

您也可以在PubMed谷歌学者

您可以通过您所在的机构完全访问这篇文章。

计算机生成的艺术作品，在二进制背景上说明神经网络的点。 — 人工智能在医学上的应用正在迅速增长。来源:ktsimage /盖蒂

在美国，每天约有350人死于肺癌。其中许多死亡可以通过低剂量计算机断层扫描(CT)筛查来预防。但是扫描数百万人会产生数百万张图像，而没有足够的放射科医生来做这项工作。即使有，专家们也经常对图像是否显示癌症存在分歧。2017年Kaggle数据科学大赛旨在测试机器学习算法能否填补这一空白。

“数据科学碗”是一项自动肺癌诊断的在线竞赛，它向数百个团队提供了1397名患者的胸部CT扫描结果，供这些团队开发和测试他们的算法。至少有5个获奖模型在检测肺结节方面的准确率超过90%。但为了在临床上有用，这些算法必须在多个数据集上表现得同样出色。

为了验证这一点，马萨诸塞州波士顿哈佛医学院的数据科学家Kun-Hsing Yu获得了10个表现最好的算法，并用最初比赛中使用的数据子集对它们进行了挑战。Yu说，在这些数据上，算法的准确率最高可达60-70%。在某些情况下，它们实际上是抛硬币¹．“几乎所有这些获奖模特都惨败了，”他说。“这让我们有点惊讶。”

但也许不应该如此。新泽西州普林斯顿大学计算机科学博士候选人Sayash Kapoor说，人工智能(AI)领域面临着可复制性危机。作为计算预测局限性研究的一部分，卡普尔发现，包括医学在内的17个领域的329项研究报告了可重复性失败和缺陷。去年7月，他和一位同事组织了为期一天的在线研讨会来讨论这个问题，吸引了来自30个国家的约600名参与者。由此产生的视频已被观看超过5000次。

机器学习是否会引发科学领域的再现危机?

这都是提高医疗人工智能可重复性的更广泛举措的一部分，包括提高算法透明度和推广清单以避免常见错误等策略。

位于奥罗拉的科罗拉多大学医学院的计算生物学家凯西·格林(Casey Greene)说，这些改进越快越好。他说:“考虑到爆炸的性质和这些东西的广泛使用，我认为我们需要比现在更快地改进。”

潜力大，风险高

研究人员表示，算法的改进、数字数据的激增以及计算能力和性能的进步，迅速提升了机器学习在加速诊断、指导治疗策略、进行大流行监测和解决其他健康问题方面的潜力。

Kapoor说，为了广泛应用，人工智能模型需要具有可重复性，这意味着代码和数据应该是可用的，并且没有错误。但在英国剑桥大学研究机器学习的迈克尔·罗伯茨(Michael Roberts)说，隐私问题、伦理问题和监管障碍使得医疗保健人工智能的可重复性难以实现。

在回顾中²在使用人工智能从医学扫描中诊断COVID-19的62项研究中，罗伯茨和他的同事们发现，由于数据偏差、方法问题和可重复性失败等缺陷，没有一个模型可以用于临床诊断或预测COVID-19的预后。

如何修正你的科学编码错误

研究人员在2021年的一篇综述中报告称，与其他机器学习学科相比，与健康相关的机器学习模型在可重复性测量方面表现尤其糟糕^3.2017年至2019年期间在机器学习会议上发表的500多篇论文。剑桥麻省理工学院(MIT)的计算医学研究员Marzyeh Ghassemi领导了这项综述，他发现一个主要问题是医学领域公开可用数据集的相对稀缺。结果，偏见和不平等就会根深蒂固。

例如，如果研究人员根据医生的数据训练药物处方模型，这些医生更多地为一个种族群体开药，而不是为另一个种族群体开药，结果可能会根据医生的做法而不是有效的方法而倾斜，Greene说。

另一个问题是数据“泄漏”:用于训练模型的数据和用于测试模型的数据之间有重叠。卡普尔说，这些数据集应该是完全独立的。但医疗数据库可能包含同一名患者的记录，使用数据的科学家可能不会意识到这些重复。卡普尔说，结果可能是对业绩的过度乐观印象。

感染性休克

尽管存在这些担忧，人工智能系统已经被用于临床。例如，数百家美国医院已经在他们的电子健康记录系统中实施了一个模型，以标记败血症的早期迹象，败血症是一种系统性感染，每年在美国造成超过25万人死亡。总部位于威斯康辛州维罗纳市的Epic systems公司表示，该工具被称为Epic败血症模型，在3年的时间里，对3个医疗保健系统的40.5万名患者进行了训练。

为了进行独立评估，位于安娜堡的密歇根大学医学院的研究人员分析了38455例住院病例，涉及27697人。他们在2021年报告说，这个工具产生了很多假警报，发出警报的人数是实际患有败血症的人数的两倍多。但它没能识别出67%的败血症患者⁴．(此后，该公司对这些型号进行了全面检修。)

更清晰的信号:机器学习如何清理显微镜图像

格林说，专有模型很难发现错误的算法，而更高的透明度有助于防止它们被如此广泛地使用。“最终，”格林说，“我们必须问，‘我们是否在实践中部署了一堆我们无法理解的算法，我们不知道它们的偏见，这可能会给人们带来真正的伤害?’”

加州斯坦福大学的生物工程师艾玛·伦德伯格(Emma Lundberg)将机器学习应用于蛋白质成像，她说，公开模型和数据对每个人都有帮助。她说:“然后，有人可以在自己的数据集上使用它，然后发现，‘哦，它不完美，所以我们要对它进行调整’，然后这个调整将使它适用于其他地方。”

积极的行动

Kapoor说，科学家们正越来越多地朝着正确的方向前进，他们产生了涵盖机构、国家和人口的大型数据集，并且对所有人开放。例子包括英国和日本的国家生物库，以及eICU合作研究数据库，其中包括由总部位于阿姆斯特丹的飞利浦医疗保健和麻省理工学院计算生理学实验室提供的与大约20万例重症监护病房入院相关的数据。

Ghassemi和她的同事们说，有更多的选择将增加价值。他们呼吁^3.建立收集数据和报告机器学习研究的标准，允许参与者同意使用他们的数据，并采用确保严格和保护隐私的分析方法。例如，一项名为“观察性医疗结果伙伴关系公共数据模型”的工作允许以相同的方式跨机构收集患者和治疗信息。研究人员写道，类似的东西也可以加强医疗保健领域的机器学习研究。

哥本哈根大学翻译疾病系统生物学家Søren Brunak说，消除数据冗余也会有所帮助。他说，在预测蛋白质结构的机器学习研究中，科学家已经成功地从测试集中去除了与训练集中使用的蛋白质过于相似的蛋白质。但在医疗保健研究中，一个数据库可能包含许多相似的个体，这并不会挑战算法对最典型患者以外的情况进行深入了解。布鲁纳克说:“我们需要在教学方面努力——我们实际上向算法展示了哪些数据——并更好地平衡这一点，使数据集具有代表性。”

NatureTech

卡普尔建议，检查表广泛应用于医疗保健，它提供了一种减少技术问题和提高可重复性的简单方法。Kapoor说，在机器学习中，检查表可以帮助确保研究人员注意到许多需要正确有序地完成的小步骤，这样结果是有效的和可重复的。

目前已有多个机器学习核对表可供使用，其中许多由赤道网络(Equator Network)牵头，这是一个旨在提高健康研究可靠性的国际倡议。的三脚架的清单例如，包括22个项目来指导预测健康模型研究的报告。医学影像人工智能清单(CLAIM)列出了42项⁵，包括研究是回顾性的还是前瞻性的，以及数据与模型的预期用途匹配程度如何。

2022年7月，卡普尔和同事们列出了21个问题帮助减少数据泄露。例如，如果一个模型被用来预测一个结果，检查表建议研究人员确认训练集中的数据是否早于测试集，这表明它们是独立的。

研究人员表示，尽管还有很多工作要做，但围绕机器学习的可重复性展开的对话越来越多，这是令人鼓舞的，并有助于抵消一直以来的研究孤岛状态。卡普尔说，在7月份的在线研讨会之后，近300人加入了在线协作平台Slack上的一个小组，继续讨论。格林补充说，在科学会议上，可重复性已经成为一个经常关注的焦点。“过去只有一小群人关心可重复性。现在感觉人们都在问问题，对话也在向前推进。我希望它能更快地前进，但至少感觉不像对着虚空大喊大叫。”

自然613， 402-403 (2023)

doi: https://doi.org/10.1038/d41586 - 023 - 00023 - 2