一立方毫米听起来不多。但在人脑中,这一体积的组织包含约5万根神经“线”,由1.34亿个突触连接。杰夫·利希特曼想追踪所有人。
为了生成原始数据,他使用了一种被称为连续薄层电子显微镜的协议,在11个月的时间里对数千条组织切片进行了成像。但是数据集非常庞大,达到1.4 pb——相当于大约200万张cd - rom——对于研究人员来说,他们自己处理的数据太多了。“人类根本不可能手动追踪所有的电线,”马萨诸塞州剑桥市哈佛大学的分子和细胞生物学家Lichtman说。“地球上没有足够多的人能有效地完成这项工作。”
在连接组学(研究大脑结构和功能联系的学科)以及其他生物科学领域,这是一个常见的现象,在这些领域,显微镜技术的进步正在创造大量的成像数据。但在人力资源失败的地方,计算机可以介入,尤其是经过优化的深度学习算法,可以从大型数据集中梳理出模式。
麻省理工学院和哈佛大学布洛德研究所(Broad Institute of MIT and Harvard)的计算生物学家贝丝·西米尼(Beth Cimini)说:“在过去几年里,我们真的经历了深度学习工具的寒武纪大爆发。”
深度学习是一种人工智能(AI)技术,它依赖于多层人工神经网络,其灵感来自大脑中神经元的相互连接方式。由于基于黑盒神经网络,这些算法有其局限性。其中包括依赖大量数据集来教会网络如何识别感兴趣的特征,以及有时难以理解的生成结果的方式。但是,一系列快速增长的开源和基于网络的工具使它比以往任何时候都更容易开始(参见“跨入深度学习”)。
以下是深度学习对生物图像分析产生深刻影响的五个领域。
大规模——神经
深度学习使研究人员能够从果蝇、小鼠甚至人类身上生成越来越复杂的连接体。这些数据可以帮助神经科学家了解大脑是如何工作的,以及它的结构在发育和疾病期间是如何变化的。但是神经连接并不容易绘制。
2018年,利希特曼与加州山景城谷歌公司Connectomics负责人维伦·贾恩(Viren Jain)合作,后者正在为他的团队的人工智能算法寻找合适的挑战。
“连接组学中的图像分析任务非常困难,”Jain说。“你必须能够远距离追踪这些细线,细胞的轴突和树突,而传统的图像处理方法犯了很多错误,基本上对这项任务毫无用处。”这些电线可以比一微米细,可以延伸到数百微米甚至毫米的组织上。深度学习算法提供了一种自动化分析连接组数据的方法,同时仍能实现较高的准确性。
![](https://media.nature.com/w400/magazine-assets/d41586-022-02964-6/d41586-022-02964-6_23486262.jpg)
如何绘制基因活动的空间图——精确到细胞水平
在深度学习中,研究人员可以使用包含感兴趣特征的注释数据集来训练复杂的计算模型,以便快速识别其他数据中的相同特征。德国海德堡欧洲分子生物学实验室(European Molecular Biology Laboratory)的计算机科学家安娜·克瑞舒克(Anna Kreshuk)说:“当你在进行深度学习时,你会说,‘好吧,我只给出例子,你会把一切都弄清楚’。”
但即使使用深度学习,Lichtman和Jain也有一项艰巨的任务,试图绘制他们的人类皮层片段1.仅对5000个左右极薄的组织切片进行成像就花了326天。两名研究人员花了大约100个小时手动标注图像并追踪神经元,以创建“基本真相”数据集来训练算法,这种方法被称为监督机器学习。然后,经过训练的算法自动将图像拼接在一起,并识别神经元和突触,以生成最终的连接体。
Jain的团队为解决这个问题带来了大量的计算资源,包括数千个张量处理单元(tpu),谷歌内部相当于专门为神经网络机器学习构建的图形处理单元(gpu)。Jain说,在几个月的时间里处理所需的数据约为100万TPU小时,之后人类志愿者在协作过程中对连接体进行校对和更正,“有点像谷歌文档”,Lichtman说。
他们说,最终的结果是,在任何物种中,在这种详细程度上重建的数据集是最大的。不过,它只占人脑的0.0001%。但随着算法和硬件的改进,研究人员应该能够绘制出大脑更大的部分,同时有分辨率发现更多的细胞特征,如细胞器甚至蛋白质。“在某些方面,”Jain说,“我们只是触及了可能从这些图像中提取的东西的表面。”
虚拟组织学
组织学是医学上的一个重要工具,在化学或分子染色的基础上被用于诊断疾病。但这很费力,整个过程可能需要几天甚至几周的时间才能完成。活组织切片被切成薄片并染色以显示细胞和亚细胞特征。病理学家随后阅读幻灯片并解释结果。Aydogan Ozcan认为他可以加速这一进程。
![](https://media.nature.com/w400/magazine-assets/d41586-022-02964-6/d41586-022-02964-6_23486264.jpg)
Python升级:新的图像工具可以可视化复杂数据
奥兹坎是加州大学洛杉矶分校的电气和计算机工程师,他训练了一个定制的深度学习模型,通过向该模型展示同一切片的数万个未染色和染色版本的例子,并让模型计算出它们之间的差异。
虚拟染色几乎是瞬间完成的,经过认证的病理学家发现几乎不可能将结果图像与常规染色图像区分开来2.Ozcan还表明,该算法可以在几秒钟内复制乳腺癌生物标志物HER2的分子染色,这一过程在组织学实验室中通常需要至少24小时。由三名经委员会认证的乳腺病理学家组成的小组认为,这些图像具有与常规免疫组化染色相当的质量和准确性3..
Ozcan的目标是将虚拟染色商业化,希望能在药物开发中得到应用。但他说,通过消除对有毒染料和昂贵染色设备的需求,这项技术也可以增加全世界获得组织学服务的机会。
细胞的发现
如果你想从细胞图像中提取数据,你必须知道细胞在图像中的实际位置。
研究人员通常通过在显微镜下观察细胞或在软件中绘制细胞轮廓来完成这一过程,称为细胞分割。帕萨迪纳市加州理工学院(California Institute of Technology)的计算生物学家摩根•施瓦茨(Morgan Schwartz)正在开发用于生物图像分析的深度学习工具,他说:“最能形容人们一直在做的事情的词是‘辛苦’。”但随着成像数据集变得越来越大,这些艰苦的方法遇到了瓶颈。“如果没有自动化的过程,有些实验就无法分析。”
![人类母亲蜕膜组织,由人工智能确定,不同细胞标记为不同颜色](https://media.nature.com/lw767/magazine-assets/d41586-022-02964-6/d41586-022-02964-6_23486236.jpg)
基于谱系的分割揭示了人类怀孕期间子宫内膜细胞的形状。资料来源:n.f.格林沃尔德等.生物科技自然》。40, 555-565(2022)。
施瓦茨的研究生导师、生物工程师大卫·范·瓦伦(David Van Valen)创建了一套人工智能模型(可在deepcell.org上找到),用于从活细胞和保存组织的图像中计数和分析细胞和其他特征。Van Valen与加利福尼亚斯坦福大学的癌症生物学家Noah Greenwald等合作者合作,开发了一种名为Mesmer的深度学习模型,可以快速准确地检测不同组织类型的细胞和细胞核4.范瓦伦说:“如果你有需要处理的数据,现在你只需上传数据,下载结果,并在门户网站或使用其他软件包中可视化它们。”
根据格林沃尔德的说法,研究人员可以利用这些信息来区分癌组织和非癌组织,并在治疗前后寻找差异。他说:“你可以通过观察基于成像的变化来更好地了解为什么一些患者有反应或没有反应,或者识别肿瘤的亚型。”
蛋白质定位
人类蛋白质图谱项目开发了深度学习的另一个应用:细胞内定位。“几十年来,我们已经生成了数百万张图像,勾勒出人体细胞和组织中的蛋白质表达,”斯坦福大学生物工程师、该项目的联合经理艾玛·伦德伯格(Emma Lundberg)说。起初,该项目手动注释这些图像。但由于这种方法无法长期持续,伦德伯格转向了人工智能。
![](https://media.nature.com/w400/magazine-assets/d41586-022-02964-6/d41586-022-02964-6_16573690.jpg)
NatureTech中心
伦德伯格首先将深度学习与公民科学结合起来,让志愿者在玩大型多人游戏《星战前夜》(EVE Online)时为数百万张图像进行注释5.在过去的几年里,她已经转向了一个众包的人工智能解决方案,发起了Kaggle挑战——科学家和人工智能爱好者竞争完成各种计算任务——37,000美元和25,000美元,设计有监督的机器学习模型来注释蛋白质图谱图像。Lundberg说道:“Kaggle挑战之后便吸引了许多玩家。获胜的模型在蛋白质定位模式的多标签分类方面比伦德伯格先前的努力高出约20%,并且可以在细胞系中推广6.她补充说,他们成功地完成了以前没有发表过的模型所做的事情,那就是准确地对存在于多个细胞位置的蛋白质进行分类。
伦德伯格说:“我们已经证明,一半的人类蛋白质定位于多个细胞区室。”而且位置很重要,因为相同的蛋白质在不同的地方可能表现不同。她说:“了解一种蛋白质是在细胞核中还是在线粒体中,有助于了解关于其功能的许多事情。”
![鱼游泳的视频,用不同颜色的标记记录它们的单个运动](https://media.nature.com/lw767/magazine-assets/d41586-022-02964-6/d41586-022-02964-6_23486244.gif)
用于DeepLabCut训练的鱼的注释。资料来源:J. Laueret al。自然方法19, 496-504(2022)。(Cc乘4.0)
追踪动物行为
位于日内瓦的瑞士洛桑联邦理工学院校园生物技术中心的神经科学家Mackenzie Mathis长期以来一直对大脑如何驱动行为感兴趣。她开发了一个名为DeepLabCut的程序,使神经科学家能够从视频中跟踪动物的姿势和精细动作,将“猫视频”和其他动物的记录转化为数据7.
DeepLabCut提供了一个图形用户界面,这样科学家就可以上传和标记他们的视频,并在点击一个按钮后训练一个深度学习模型。今年4月,马西斯的团队扩展了软件,可以同时估计多种动物的姿势,这对人类和人工智能来说通常都是一个挑战8.
研究人员将多动物DeepLabCut应用于狨猴,发现当动物们靠近时,它们的身体是对齐的,它们倾向于看向相似的方向,而当它们分开时,它们倾向于面对彼此。“这是一个很好的例子,姿势实际上很重要,”马西斯说。“如果你想了解两只动物是如何互动的,如何相互观察或观察世界的。”