一立方毫米听起来不多。但在人脑中,这一体积的组织包含约5万根神经“线”,由1.34亿个突触连接。杰夫·利希特曼想追踪所有人。

为了生成原始数据,他使用了一种被称为连续薄层电子显微镜的协议,在11个月的时间里对数千条组织切片进行了成像。但是数据集非常庞大,达到1.4 pb——相当于大约200万张cd - rom——对于研究人员来说,他们自己处理的数据太多了。“人类根本不可能手动追踪所有的电线,”马萨诸塞州剑桥市哈佛大学的分子和细胞生物学家Lichtman说。“地球上没有足够多的人能有效地完成这项工作。”

在连接组学(研究大脑结构和功能联系的学科)以及其他生物科学领域,这是一个常见的现象,在这些领域,显微镜技术的进步正在创造大量的成像数据。但在人力资源失败的地方,计算机可以介入,尤其是经过优化的深度学习算法,可以从大型数据集中梳理出模式。

麻省理工学院和哈佛大学布洛德研究所(Broad Institute of MIT and Harvard)的计算生物学家贝丝·西米尼(Beth Cimini)说:“在过去几年里,我们真的经历了深度学习工具的寒武纪大爆发。”

深度学习是一种人工智能(AI)技术,它依赖于多层人工神经网络,其灵感来自大脑中神经元的相互连接方式。由于基于黑盒神经网络,这些算法有其局限性。其中包括依赖大量数据集来教会网络如何识别感兴趣的特征,以及有时难以理解的生成结果的方式。但是,一系列快速增长的开源和基于网络的工具使它比以往任何时候都更容易开始(参见“跨入深度学习”)。

跨入深度学习

有大量的资源可以帮助研究人员跟上速度。

马萨诸塞州的伍兹霍尔海洋研究所(Woods Hole Oceanographic Institute)和欧洲生物图像分析师全球网络NEUBIAS等组织提供了如何入门的课程。开放生物图像分析中心由麻省理工学院布罗德研究所和位于马萨诸塞州剑桥市的哈佛大学合作,威斯康星大学麦迪逊分校赞助。一个科学图像软件的论坛。研究人员还可以梳理旧的Kaggle挑战——科学家和人工智能爱好者的计算竞赛——以获得他们可以练习和学习的模型和数据的例子。加州斯坦福大学的生物工程师Emma Lundberg说:“所有的数据和训练集都是可用的,你可以查看获胜模型的代码和描述,所以这是一个非常好的起点。”

研究人员可能还想从Cellpose、StarDist和DeepCell等工具集中预先训练的模型开始,这些工具可以通过web界面使用,可以作为ImageJ和napari软件生态系统的插件,也可以作为独立的应用程序。布罗德研究所(Broad Institute)的计算生物学家贝丝·西米尼(Beth Cimini)说:“他们训练的模型在很大一部分用例中运行得非常好。”“你真的不需要知道他们在做什么,也不需要了解深度学习网络是如何工作的,你只需要稍微调整一下,直到得到一个好结果。”对于那些需要更大的可定制性的人,Piximi和ImJoy允许研究人员训练自己的神经网络来识别各种表型,并在图像中定位细胞,这一过程被称为分割。

大多数这样的工具都可以在浏览器中运行。ZeroCostDL4Mic是一个用于显微镜深度学习的开源工具箱,使用谷歌的计算笔记本平台Colab,允许研究人员在云中训练各种流行的开源模型,以及访问可以在云中运行的预训练模型9.还有BioImage Model Zoo,这是一个一站式的开源预训练模型商店。

或者,研究人员可以安装并运行专用软件。例如,ilastik有一个指向和点击的界面,不仅可以帮助检测细胞和细胞核,还可以检测微管和囊泡等特征。联合开发者Anna Kreshuk是德国海德堡欧洲分子生物学实验室的计算机科学家,她和她的同事们现在正在努力提高软件训练神经网络完成分类和分割等任务的能力。“每个人都需要细分市场,”她说,“但每个人都在细分不同的东西。”在不受支持的调试模式下,已经可以使用训练功能。

学习编程,尤其是用Python编程,可以帮助那些想要定制或训练新模型的研究人员。“这真的会给你一个优势,就像能够更自由地操纵你的数据,以应用人们没有专门为你包装的最好的方法,”Kreshuk说。一个或多个图形处理单元和能够使用它们的计算机也很有帮助。

但是软件和硬件都没有数据重要。“任何深度学习中最困难、最耗时的部分都是获取训练数据。如果你的数据很糟糕,那么你的模型也会很糟糕,”西米尼说。“你通常至少需要数百或数千个例子,而创建注释本身是乏味的。”

理想情况下,数据集应该是庞大而多样的,如果人类能够明确地识别深度学习模型被要求寻找的东西,这将是有帮助的。帕萨迪纳市加州理工学院的生物工程师大卫·范·瓦伦说:“人们有点期待这些模型能创造奇迹,但如果你想要提取的信息不在数据中,那么在我看来,根据我的经验,它不太可能奏效。”

深度学习算法有效地像黑盒一样运行,但一些工具可以为它们的推理提供线索。西米尼说:“例如,你可以判断出,在做出特定决定时,图像的哪一部分是最重要的。”

目前,明确但繁琐的任务,如识别细胞或细胞核是理想的,因为人类可以很容易地验证结果。但随着算法的改进,研究人员雄心的规模和范围也将发生变化。西米尼说:“这是一个非常令人兴奋的领域。“我认为这会让很多人的生活更轻松。”

以下是深度学习对生物图像分析产生深刻影响的五个领域。

大规模——神经

深度学习使研究人员能够从果蝇、小鼠甚至人类身上生成越来越复杂的连接体。这些数据可以帮助神经科学家了解大脑是如何工作的,以及它的结构在发育和疾病期间是如何变化的。但是神经连接并不容易绘制。

2018年,利希特曼与加州山景城谷歌公司Connectomics负责人维伦·贾恩(Viren Jain)合作,后者正在为他的团队的人工智能算法寻找合适的挑战。

“连接组学中的图像分析任务非常困难,”Jain说。“你必须能够远距离追踪这些细线,细胞的轴突和树突,而传统的图像处理方法犯了很多错误,基本上对这项任务毫无用处。”这些电线可以比一微米细,可以延伸到数百微米甚至毫米的组织上。深度学习算法提供了一种自动化分析连接组数据的方法,同时仍能实现较高的准确性。

在深度学习中,研究人员可以使用包含感兴趣特征的注释数据集来训练复杂的计算模型,以便快速识别其他数据中的相同特征。德国海德堡欧洲分子生物学实验室(European Molecular Biology Laboratory)的计算机科学家安娜·克瑞舒克(Anna Kreshuk)说:“当你在进行深度学习时,你会说,‘好吧,我只给出例子,你会把一切都弄清楚’。”

但即使使用深度学习,Lichtman和Jain也有一项艰巨的任务,试图绘制他们的人类皮层片段1.仅对5000个左右极薄的组织切片进行成像就花了326天。两名研究人员花了大约100个小时手动标注图像并追踪神经元,以创建“基本真相”数据集来训练算法,这种方法被称为监督机器学习。然后,经过训练的算法自动将图像拼接在一起,并识别神经元和突触,以生成最终的连接体。

Jain的团队为解决这个问题带来了大量的计算资源,包括数千个张量处理单元(tpu),谷歌内部相当于专门为神经网络机器学习构建的图形处理单元(gpu)。Jain说,在几个月的时间里处理所需的数据约为100万TPU小时,之后人类志愿者在协作过程中对连接体进行校对和更正,“有点像谷歌文档”,Lichtman说。

他们说,最终的结果是,在任何物种中,在这种详细程度上重建的数据集是最大的。不过,它只占人脑的0.0001%。但随着算法和硬件的改进,研究人员应该能够绘制出大脑更大的部分,同时有分辨率发现更多的细胞特征,如细胞器甚至蛋白质。“在某些方面,”Jain说,“我们只是触及了可能从这些图像中提取的东西的表面。”

虚拟组织学

组织学是医学上的一个重要工具,在化学或分子染色的基础上被用于诊断疾病。但这很费力,整个过程可能需要几天甚至几周的时间才能完成。活组织切片被切成薄片并染色以显示细胞和亚细胞特征。病理学家随后阅读幻灯片并解释结果。Aydogan Ozcan认为他可以加速这一进程。

奥兹坎是加州大学洛杉矶分校的电气和计算机工程师,他训练了一个定制的深度学习模型,通过向该模型展示同一切片的数万个未染色和染色版本的例子,并让模型计算出它们之间的差异。

虚拟染色几乎是瞬间完成的,经过认证的病理学家发现几乎不可能将结果图像与常规染色图像区分开来2.Ozcan还表明,该算法可以在几秒钟内复制乳腺癌生物标志物HER2的分子染色,这一过程在组织学实验室中通常需要至少24小时。由三名经委员会认证的乳腺病理学家组成的小组认为,这些图像具有与常规免疫组化染色相当的质量和准确性3.

Ozcan的目标是将虚拟染色商业化,希望能在药物开发中得到应用。但他说,通过消除对有毒染料和昂贵染色设备的需求,这项技术也可以增加全世界获得组织学服务的机会。

细胞的发现

如果你想从细胞图像中提取数据,你必须知道细胞在图像中的实际位置。

研究人员通常通过在显微镜下观察细胞或在软件中绘制细胞轮廓来完成这一过程,称为细胞分割。帕萨迪纳市加州理工学院(California Institute of Technology)的计算生物学家摩根•施瓦茨(Morgan Schwartz)正在开发用于生物图像分析的深度学习工具,他说:“最能形容人们一直在做的事情的词是‘辛苦’。”但随着成像数据集变得越来越大,这些艰苦的方法遇到了瓶颈。“如果没有自动化的过程,有些实验就无法分析。”

人类母亲蜕膜组织,由人工智能确定,不同细胞标记为不同颜色

基于谱系的分割揭示了人类怀孕期间子宫内膜细胞的形状。资料来源:n.f.格林沃尔德生物科技自然》。40, 555-565(2022)。

施瓦茨的研究生导师、生物工程师大卫·范·瓦伦(David Van Valen)创建了一套人工智能模型(可在deepcell.org上找到),用于从活细胞和保存组织的图像中计数和分析细胞和其他特征。Van Valen与加利福尼亚斯坦福大学的癌症生物学家Noah Greenwald等合作者合作,开发了一种名为Mesmer的深度学习模型,可以快速准确地检测不同组织类型的细胞和细胞核4.范瓦伦说:“如果你有需要处理的数据,现在你只需上传数据,下载结果,并在门户网站或使用其他软件包中可视化它们。”

根据格林沃尔德的说法,研究人员可以利用这些信息来区分癌组织和非癌组织,并在治疗前后寻找差异。他说:“你可以通过观察基于成像的变化来更好地了解为什么一些患者有反应或没有反应,或者识别肿瘤的亚型。”

蛋白质定位

人类蛋白质图谱项目开发了深度学习的另一个应用:细胞内定位。“几十年来,我们已经生成了数百万张图像,勾勒出人体细胞和组织中的蛋白质表达,”斯坦福大学生物工程师、该项目的联合经理艾玛·伦德伯格(Emma Lundberg)说。起初,该项目手动注释这些图像。但由于这种方法无法长期持续,伦德伯格转向了人工智能。

伦德伯格首先将深度学习与公民科学结合起来,让志愿者在玩大型多人游戏《星战前夜》(EVE Online)时为数百万张图像进行注释5.在过去的几年里,她已经转向了一个众包的人工智能解决方案,发起了Kaggle挑战——科学家和人工智能爱好者竞争完成各种计算任务——37,000美元和25,000美元,设计有监督的机器学习模型来注释蛋白质图谱图像。Lundberg说道:“Kaggle挑战之后便吸引了许多玩家。获胜的模型在蛋白质定位模式的多标签分类方面比伦德伯格先前的努力高出约20%,并且可以在细胞系中推广6.她补充说,他们成功地完成了以前没有发表过的模型所做的事情,那就是准确地对存在于多个细胞位置的蛋白质进行分类。

伦德伯格说:“我们已经证明,一半的人类蛋白质定位于多个细胞区室。”而且位置很重要,因为相同的蛋白质在不同的地方可能表现不同。她说:“了解一种蛋白质是在细胞核中还是在线粒体中,有助于了解关于其功能的许多事情。”

鱼游泳的视频,用不同颜色的标记记录它们的单个运动

用于DeepLabCut训练的鱼的注释。资料来源:J. Laueret al。自然方法19, 496-504(2022)。(Cc乘4.0

追踪动物行为

位于日内瓦的瑞士洛桑联邦理工学院校园生物技术中心的神经科学家Mackenzie Mathis长期以来一直对大脑如何驱动行为感兴趣。她开发了一个名为DeepLabCut的程序,使神经科学家能够从视频中跟踪动物的姿势和精细动作,将“猫视频”和其他动物的记录转化为数据7

DeepLabCut提供了一个图形用户界面,这样科学家就可以上传和标记他们的视频,并在点击一个按钮后训练一个深度学习模型。今年4月,马西斯的团队扩展了软件,可以同时估计多种动物的姿势,这对人类和人工智能来说通常都是一个挑战8

研究人员将多动物DeepLabCut应用于狨猴,发现当动物们靠近时,它们的身体是对齐的,它们倾向于看向相似的方向,而当它们分开时,它们倾向于面对彼此。“这是一个很好的例子,姿势实际上很重要,”马西斯说。“如果你想了解两只动物是如何互动的,如何相互观察或观察世界的。”