这显然是一个组合:机器学习和打击COVID-19。然而,尽管有强烈的兴趣和提高可用性的大型数据集,成功故事这样的组合是少之又少。写在自然,Bastaniet al。1描述一个系统,他们的设计和部署在希腊的进入点,2020年8月开始。算法,它是建立在一个名为强化学习的方法,显著提高了测试的效率冠状病毒SARS-CoV-2,并导致希腊保持边境开放安全的能力。工作还提供了一个清晰的警告的缺点比较生硬的政策工具,大多数其他国家继续使用。

测试是一个机器学习的问题非常适合来解决。想象一个边界控制的代理在希腊岛上。飞机刚刚降落,代理的任务是识别和拘留任何人COVID-19。代理可能需要测试所有入境旅客,但岛上的测试能力非常有限,更普遍的是,永远不可能测试100%的人口100%的时间。完全替代——关闭边境,在一个经济高度依赖旅游业——有自己的危险。这将不仅包括一个巨大的财务成本相关的就业和收入的损失,但也损失对公共健康的负面影响2。所以边境代理面临一个困难的决定:谁应该被测试?

正如已经提到的3,一个测试的价值取决于它的最终结果。在这个场景中,一个负面测试生成成本:成本的测试和旅行者的延迟。相比之下,一个积极的测试产生巨大好处:预防的所有例COVID-19旅行者SARS-CoV-2感染会引起。在决定谁来测试,边界代理人的最优战略是明确的:预测哪些旅客最高检测呈阳性的可能性,以及测试它们。这一战略最大化的价值测试,因为它检测到大多数旅行者COVID-19使用最低数量的测试。

如果边境代理可以预测哪些最有可能的入境旅客积极测试,测试可以有效地分配(图1),方便数据输入乘客原产地——他们的国家和地区,年龄和性别,可用数字旅客的形式,所有旅客完成24小时之前到达希腊。似乎是非常简单的使用数据从过去的测试的乘客预测哪些类型的乘客可能在未来更有可能检测呈阳性。但是,几十年的研究在统计和计算机科学4,这种策略可能陷入昨天的大流行:鉴于COVID-19传播的快速发展的动力,一个算法必须迅速调整其预测仍然保持领先一步,测试正确的乘客。

医务人员的成员执行COVID测试一名乘客在雅典机场

图1 | COVID-19测试的旅客到达Eleftherios维尼泽洛斯在雅典国际机场来源:示威活动/盖蒂

这就是机器学习变得清晰的价值。正如一个算法可以被训练来玩这个游戏5通过学习移动导致赢得游戏,Bastani和他的同事们训练算法分配稀缺的测试,通过学习,乘客可能检测呈阳性。

至关重要的是,该算法平衡两个目标。第一,最自然的,目的是测试乘客类型可能会测试呈阳性,利用模式借鉴了以往关于测试的结果数据SARS-CoV-2在这些不同的团体。第二——也许不那么直观,但同样重要的,是探索模式没有反映在以前的数据,通过测试知道小乘客类型的算法。

然后,在给定端口的条目在一个给定的一天,该算法提供了有针对性的建议,边境特工的乘客进行测试,同时尊重预算和资源约束供应链,实施人员、实验室能力和物流配送等生物样品。这些约束是真实和绑定:作者注意,夏天的旅游旺季,有能力测试只有18.4%的旅行者——即使在希腊国家COVID-19明智的专家委员会批准集团为提高效率测试在实验室里。

作者利用强化学习策略,有动力的发展电子商务和市场营销6。但在现实世界中使用这种算法提出了自己的技术挑战。例如,该算法必须学习间断地,从大批量的测试结果,而不是一个接一个从个人的结果。和批处理结果的反馈延迟,迫使该算法操作无知的等待结果。解决这些挑战需要大幅调整的算法通常用于更简单,数据更丰富的网络设置。

最棘手的挑战,然而,法律和政治的。符合欧盟的总体数据保护监管(GDPR),作者故意限制了数据可用的算法——因此它的准确性密切磋商与律师、流行病学家和政策制定者。可能限制放在算法的性能由GDPR突显出善意的保护隐私的法律可以带来积极和消极两方面的影响。大流行,不尊重个人的隐私,这样的规定可以最终阻碍政府的能力来保护其公民的健康。作者还适应算法考虑到决策者的观众,选择优化方法清晰地展示这两个算法的价值目标:测试高风险乘客和测试高度不确定性的乘客。

结果令人印象深刻。自动化系统测试的效率提高了一倍,每个测试发现的病例数——让边境代理检验检疫的乘客,他们中的许多人是无症状的,而让其他人到目的地。

Bastani和他的同事们提出的算法的成功凸显了几乎所有其他国家的边境政策的不足。这些政策背后的决定——例如,拒绝游客进入全国还是迫使所有旅客从一个给定的测试或检疫国家——有两个主要缺陷。首先,这些决策对整个国家,而不是个人,无视人民在国家之间的巨大差异。第二,它们通常是由国家层面的流行病学数据的基础上,目前的研究显示,有明显的缺点。

边境官员否认了所有乘客的国家有关标准,他们会阻止那些人COVID-19进入希腊——但在破碎的成本经济的一个重要支柱。他们只是测试的人与一个国家的报道COVID-19指标而不是算法预测,然而,他们的测试效率会低得多。这是因为报道COVID-19指标可能非常不同于实际的患病率在传入的旅行者。旅客不随机来自他们国家的人口,和被动地收集数据COVID-19或死亡病例反映大型报告偏见和系统性障碍访问7

事实上,通过有效地测试传入的乘客,作者的算法能够预测高峰SARS-CoV-2感染率旅行者人群几乎比如果他们使用了9天前国家层面的流行病学数据。这表明智能的巨大价值,深思熟虑的数据收集,依靠钝的危险,缺陷,国家级重要决策的数据。

Bastani和同事的工作将被铭记的一个最好的例子在对抗COVID-19使用数据。这是一个引人注目的故事的一组研究人员与开明的决策者产生工具,具有巨大的社会价值。它突显出最好的部分学术研究和公务员,和人工智能的显示了巨大的希望做出正确的决定——在许多设置可以生与死的区别。