十几年来,分子生物学家马丁·贝克和他的同事们一直在试图拼凑一个世界上最大的拼图游戏:一个详细的模型在人类细胞中最大的分子机器。

这庞然大物,称为核孔复杂,控制分子和细胞的细胞核,基因组坐落的地方。数以百计的这些复合物存在于每一个细胞。每一个由1000多个蛋白质组成环通过核孔膜。

这1000个拼图都来自30多个蛋白质的基石,以无数方式交错。使难题更加困难,这些构建块的实验确定三维形状是结构的混合物从许多物种聚集,所以不要总是交织在一起。和图片拼图的盒子——一个低分辨率的核孔复合体的3 d视图——缺乏足够的细节来知道多少块组合在一起。

贝克领导的研究小组,在2016年,基于生物物理学的马克斯普朗克研究所(MPIBP)在法兰克福,德国,报道一个模型1覆盖了大约30%的核孔复杂,大约一半的30构建块,称为nu蛋白质。

然后,去年7月,总部位于伦敦的公司DeepMind字母表的一部分——谷歌的母公司-公开一种叫做AlphaFold人工智能(AI)的工具2。该软件可以预测蛋白质的基因序列的三维形状,在大多数情况下,定位精度。这改变了贝克的任务,和成千上万的其他生物学家的研究(见“AlphaFold狂热”)。

AlphaFold狂热:条形图显示研究论文的数量和预印本引用AlphaFold以来释放。

“AlphaFold改变了比赛,”贝克说。“这就像是一场地震。你到处可以看到它,”奥拉说Schueler-Furman,计算结构在以色列耶路撒冷希伯来大学的生物学家,谁在使用AlphaFold模型蛋白质相互作用。“7月之前和之后。”

使用AlphaFold,贝克和其他在MPIBP——分子生物学家阿格涅斯卡Obarska-Kosinska和为首的一群生物物理学家哈悍马,以及领导的团队结构分析员Jan辛斯的欧洲分子生物学实验室(EMBL)在德国汉堡,可以预测人类版本的国家联盟蛋白质形状更准确。并利用调整帮助AlphaFold模型蛋白质如何交互,他们设法去年10月发布一个模型覆盖了60%的复杂3。它揭示了复杂的稳定原子核中的漏洞,以及暗示如何复杂控制什么。

在过去的半年,AlphaFold狂热席卷生命科学。“每次开会我在,人们说‘为什么不利用AlphaFold呢?计算生物学家”,克里斯汀Orengo伦敦大学学院。

在某些情况下,人工智能就节省了科学家的时间;在其他的研究成为可能,以前不可想象的或过于不切实际。它有一定的局限性,一些科学家也发现其预测是不可靠的。但实验的速度是狂热的。

即使是那些开发软件都在努力跟上其使用领域从药物发现和蛋白质设计复杂生命的起源。“我醒来和类型AlphaFold到Twitter,”约翰说跳投,在DeepMind AlphaFold团队负责人。“这是相当的经验看一切。”

一个惊人的成功

2020年12月AlphaFold引起了轰动,当它主导比赛称为蛋白质结构预测的关键评估,或比赛。比赛,每两年举行一次,措施进展生物最大的挑战之一:确定蛋白质的氨基酸序列的三维形状。计算机软件条目评价对结构相同的蛋白质决定使用x射线晶体学等实验方法或低温电子显微镜(低温电子显微镜),发射x射线或电子束在蛋白质建立其形状的照片。

AlphaFold的2020版软件的第二版。它也赢得了2018年的比赛早些时候,但它的努力大多不够好站在实验性地确定结构,说跳投。然而,AlphaFold2的预测,平均而言,与经验结构。

还不清楚当DeepMind会使软件或其预测广泛使用,因此研究人员使用信息从公共讨论的跳投,和自己的见解,发展自己的人工智能工具,叫做RoseTTAFold

2021年7月15日,论文描述RoseTTAFold和AlphaFold2出现了2,4以及免费开源的代码和其他信息需要专家来运行他们自己的版本的工具。一个星期后,DeepMind宣布AlphaFold用来预测几乎每一个蛋白质的结构由人类以及整个20其他广泛的蛋白质组研究生物体,比如老鼠和细菌大肠杆菌——超过365000结构(见“已知的蛋白质组”)。DeepMind也公开发布的这些数据库维护的EMBL的欧洲生物信息学研究所Hinxton (EMBL-EBI)、英国。这个数据库已经增加到近一百万的结构。

了解蛋白质组:条形图的比例结构从PDB和AlphaFold不同物种。

来源:大肠Porta-Pardo公共科学图书馆等。第一版。医学杂志。18e1009818 (2022)。

DeepMind计划发布,今年共有1亿多个结构预测。近一半的所有已知的蛋白质——数百倍的数量实验确定蛋白质数据库(PDB)结构蛋白库。

AlphaFold部署深度学习神经网络:计算体系结构受大脑的神经连接识别数据中的模式。它一直在训练成千上万的实验确定蛋白质结构和序列在PDB和其他数据库。面对一个新的序列,它首先查找相关序列数据库,可以识别氨基酸,往往一起进化,表明它们在三维空间完成。现有相关蛋白质的结构提供了另一种方法来估计氨基酸之间的距离对在新的序列。

AlphaFold迭代线索从这些来回平行的轨道,因为它试图模型3 d氨基酸的位置,不断更新其估计。专家说的软件的应用新思想在机器学习的研究似乎是什么让AlphaFold好——特别是其使用人工智能的机制称为“关注”来确定哪些氨基酸连接最突出的任务。

网络相关的蛋白质序列信息的依赖意味着AlphaFold有一些局限性。它不是被设计来预测基因突变的影响,比如那些引起疾病,蛋白质的形状。也不是训练来确定蛋白质改变形状的其他相互作用的蛋白质,或分子等药物。但它的模型跟分数来衡量网络的信心在其预测每个氨基酸单元的蛋白质,研究人员正在调整AlphaFold的代码来扩展其功能。

到目前为止,已经有超过400000人使用的EMBL-EBI AlphaFold数据库,根据DeepMind。还有AlphaFold“高级用户”:研究人员已经建立了软件在自己的服务器上或转向AlphaFold预测结构的基于云的版本不是EMBL-EBI数据库,或者梦想新用途的工具。

解决结构

生物学家已经对AlphaFold解决结构的能力。“根据我看过到目前为止,我相信AlphaFold很多,”托马斯·Boesen说,在丹麦奥胡斯大学结构生物学家。软件已经成功预测蛋白质的形状Boesen中心已确定但尚未出版。”这是一个很大的验证从我身边,”他说。他和奥尔胡斯微生物生态学家蒂娜Šantl-Temkiv使用AlphaFold模型细菌蛋白质的结构,促进冰的形成,这可能导致冰云的冷却效果,因为生物学家还没能完全确定结构实验5

只要一种蛋白质卷成一个定义良好的三维形状——并不是所有AlphaFold预测很难击败,斯德哥尔摩大学蛋白质bioinformatician Arne Elofsson说。“这是一个一键解决方案让你会得到最好的模型。”

AlphaFold缺乏自信,“很擅长告诉你当它不工作”,Elofsson说。在这种情况下,预测结构可以像漂浮的意大利面线(见“好的,坏的和丑陋的”)。这通常对应区域的蛋白质缺乏定义的形状,至少在隔离。内在无序区域——约占三分之一的人类蛋白质组——可能成为良好定义的只有当另一个分子,如信号的伙伴,现在。

好的,坏的和丑陋的:图形显示AlphaFold不同精度的预测与估计的信心。

图片:j·m·桑顿地中海等。自然。27,1666 - 1669 (2021)。

诺曼·戴维癌症研究所的计算生物学家在伦敦,说AlphaFold识别障碍的能力已经改变了他的工作研究这些区域的属性。“立刻有大量增加的质量预测,我们没有任何的精力,”他说。

AlphaFold转储的蛋白质结构到EMBL-EBI数据库也立即投入使用。Orengo搜索它的团队来识别新的种类的蛋白质(没有实验验证),并出现数以百计,也许数千,潜在的新蛋白质家族,扩大科学家们了解蛋白质是什么样子,能做什么。在另一个的努力,团队在DNA序列的数据库从海洋和浪费水,试图确定新的plastic-eating酶。使用AlphaFold快速近似结构的蛋白质,研究人员希望能更好地了解酶进化到分解塑料,并有可能改善他们。

能够将任何蛋白质编码基因序列转换为一个可靠的结构应该是特别强大的进化研究,谢尔盖Ovchinnikov说,马萨诸塞州剑桥哈佛大学进化生物学家。研究基因序列进行比较,以确定生物和基因跨物种有关。远亲基因,比较可能无法出现进化的亲戚,因为序列已经改变了这么多。但是通过比较蛋白质结构——倾向于快速变化小于基因序列,研究人员可以发现忽略了古老的关系。“这开启了一个惊人的机会来研究蛋白质的进化和生命的起源,“佩德罗Beltrao时表示,计算生物学家在苏黎世瑞士联邦理工学院。

为了测试这个想法,马丁Steinegger领导的研究小组,首尔国立大学计算生物学家,和他的同事们使用他们开发的工具,称为Foldseek,找亲戚SARS-CoV-2 RNA-copying酶的-导致COVID-19的病毒在EMBL-EBI AlphaFold数据库6。这个搜索出现未知可能的古代亲戚:蛋白质在真核生物——包括黏菌——类似,在他们的3 d结构,酶称为反转录酶病毒如艾滋病毒RNA复制到DNA,尽管很少在基因序列相似的水平。

实验助理

科学家们想确定一个特定的详细结构蛋白,一个AlphaFold预测不一定立即的解决方案。相反,它提供了一个初始近似,可以通过实验验证或精炼,这本身有助于理解实验数据。原始数据从x射线晶体学,例如,表现为x射线的衍射模式。通常情况下,科学家们需要一个开始猜测一个蛋白质的结构来解释这些模式。以前,他们会经常在一起鹅卵石信息相关的蛋白质在PDB或使用实验方法,兰迪读说,剑桥大学结构生物学家英国的实验室从事其中的一些方法。AlphaFold的预测已经呈现这种方法不必要的对大多数x射线模式,读说,他的实验室正在努力更好地利用AlphaFold在实验模型。“我们完全重新我们的研究。”

他和其他研究人员利用AlphaFold确定晶体结构的x射线数据无法解释的没有一个适当的模型开始。“人们解决结构,多年来,还没有解决,”克劳迪娅说文澜Nebot,前读博士后的实验室在分析公司现在SciBite在剑桥。她希望看到大量的新的蛋白质结构提交PDB,很大程度上由于AlphaFold。

这同样适用于实验室专门从事低温电子显微镜,它捕获的照片瞬间冷冻蛋白质。在某些情况下,AlphaFold模型准确地预测独特功能的蛋白质被受体(GPCRs)——这是重要的药物靶点,其他计算工具有错误,结构生物学和药理学家布莱恩·罗斯说,在北卡罗莱纳大学教堂山分校。“这似乎是很好的生成第一个模型,然后我们提炼一些实验数据,”他说。“我们节省一些时间。”

但罗斯补充说,AlphaFold并不总是准确的。几十个GPCR结构实验室的解决,但尚未发表,他说,“大约一半的时间,AlphaFold结构相当好,一半的时间他们或多或少无用的对于我们的目的”。他说,在某些情况下,AlphaFold标签预测高信心,但实验结构表明,它是错误的。即使软件是正确的,它不能模型蛋白质如何看当绑定到一个药物或其他小分子(配体),它可以大幅改变结构。这样的警告让罗斯奇迹药物发现的有用AlphaFold将如何

在药品研发的努力越来越普遍使用computational-docking软件屏幕数十亿小分子发现一些可能与蛋白质结合——一个迹象表明他们可以使有用的药物。Brian Shoichet罗斯现在使用药用化学家加州大学,旧金山,看看AlphaFold的预测与实验确定结构在此练习。

Shoichet说他们限制工作AlphaFold的蛋白质的预测与实验结构编钟。但即使在这些实例,对接软件出现不同药物撞击的实验结构和AlphaFold,表明小差异可能很重要。“这并不意味着我们不会找到新的配体,我们就会发现不同的“Shoichet说。他的团队现在是合成药物识别使用AlphaFold结构潜力,在实验室和测试他们的活动。

关键的乐观

制药公司和生物技术公司的研究人员对AlphaFold感到兴奋与药物发现的潜在的帮助,Shoichet说。“关键乐观是我描述它。”2021年11月,DeepMind推出了自己的分拆,同构实验室,旨在AlphaFold和其他人工智能工具应用到药物发现。但该公司曾表示,几乎没有其他的计划。

薛定谔Karen Akinsanya领导疗法发展药物公司总部设在纽约,还发布chemical-simulations软件,说她和她的同事们使用AlphaFold结构已经取得了一些成功,包括GPCRs,候选药物在虚拟屏幕和配方设计。她发现,正如与实验结构,额外的软件是需要细节的氨基酸侧链或位置单个氢原子可以坐。一旦做出了选择,AlphaFold结构证明了足够好的指导药物发现——在某些情况下。

“很难说这是灵丹妙药”;因为你可以做得很好为一个结构——这是惊人的和令人兴奋的非常适用于所有结构。显然不是,”Akinsanya说。和她和她的同事们发现,AlphaFold的准确性预测不显示结构是否稍后将用于药物筛选。AlphaFold结构永远不会完全取代实验的药物发现,她说。但他们可能会加快这一进程,以补充实验方法。

药物开发者好奇AlphaFold 1月份收到好消息,当DeepMind解除了商业应用的关键限制它的使用。当该公司发布AlphaFold代码2021年7月,有规定的参数,或者重量,需要运行AlphaFold神经网络——网络培训的最终结果成千上万的蛋白质结构和序列——仅供非商业使用。Akinsanya说这是一些行业的瓶颈,有一个“波兴奋”当DeepMind改变策略。(RoseTTAFold了类似的限制,Ovchinnikov说,它的一个开发人员。但下一个版本将会完全开源的。)

AI工具不仅仅是改变科学家如何确定蛋白质是什么样子的。一些研究人员正在使用他们做出全新的蛋白质。“深度学习是完全改变蛋白质的方式设计是在我的小组,”大卫·贝克说,西雅图华盛顿大学的生物化学家和一个领导者在设计领域的蛋白质,以及预测其结构。领导他的团队,计算化学家Minkyung门敏RoseTTAFold开发工作。

贝克小组被AlphaFold RoseTTAFold“产生幻觉”新的蛋白质。研究人员改变了人工智能代码,这样,由于随机序列的氨基酸,软件将优化直到他们像神经网络识别的东西作为蛋白质(见“做梦了蛋白质”)。

做梦了蛋白质:图形相比,蛋白质结构预测的神经网络的实际结构。

图片:Ref。7

2021年12月,贝克和他的同事报道表示129年细菌,这些蛋白质时,发现大约五分之一的折叠成类似他们预测的形状7。“这是第一个演示,您可以使用这些网络设计蛋白质,”贝克说。他的团队已经使用这种方法设计的蛋白质做有用的事情,如催化特定化学反应,通过指定的氨基酸负责所需的功能,让其余AI的梦想。

动画Alphafold四个蛋白质结构预测的人工智能系统

四个例子的蛋白质“幻觉”。在每种情况下,AlphaFold提出了与一个随机的氨基酸序列,预测结构,改变了顺序,直到软件满怀信心地预计,它将与一个定义良好的蛋白质折叠成3 d形状。颜色显示预测的信心(从红色非常低的信心,黄色和浅蓝色到深蓝色很高的信心)。初始帧已经放缓了清晰度。信贷:谢尔盖Ovchinnikov

黑客AlphaFold

当DeepMind发布其AlphaFold代码,Ovchinnikov想更好地了解工作的工具。几天之内,他和计算生物学的同事,包括Steinegger,建立了一个网站叫ColabFold允许任何人提交一个蛋白质序列AlphaFold RoseTTAFold和结构预测。Ovchinnikov想象,他和其他科学家会使用ColabFold试图打破AlphaFold,例如,通过提供虚假信息对目标蛋白质序列的进化的亲戚。通过这样做,Ovchinnikov希望他能确定预测结构的网络已经学了。

事实证明,大多数研究人员曾经ColabFold只想得到一个蛋白质结构。但其他人使用它作为一个平台修改输入AlphaFold应对新的应用程序。“我没想到黑客的各种类型的数量,“跳说。

目前最受欢迎的黑客一直在运用该工具蛋白复合物组成的多个交互,常常交织在一起——的肽链。与核孔复杂一样,许多蛋白质在细胞获得其功能与多个蛋白亚基形成复合物。

AlphaFold旨在预测单一肽链的形状,及其训练包括完全的蛋白质。但是网络似乎已经学会了一些如何复合物叠在一起。几天后AlphaFold的代码被释放,Yoshitaka森胁:蛋白质bioinformatician东京大学,推,它可以准确地预测交互两个蛋白质序列之间如果他们一起缝长链接器序列。门敏很快共享另一个黑客预测复合物,从RoseTTAFold发展。

ColabFold后合并预测配合物的能力。2021年10月,DeepMind称为AlphaFold-Multimer发布了一个更新8这是专门训练的蛋白复合物,不像它的前身。跳投的团队应用PDB成千上万的复合物,并发现它预计大约70%的已知的蛋白质相互作用。

这些工具已经帮助研究人员发现潜在的新蛋白质的合作伙伴。Elofsson AlphaFold的团队用来预测65000人类蛋白质的结构对被怀疑在实验数据的基础上进行交互9。和贝克领导的研究小组用AlphaFold和RoseTTAFold模型之间的交互几乎每一条由酵母蛋白质编码,确定100多未知的复合物10。这样屏幕只是起点,Elofsson说。他们做好预测一些蛋白质搭配,尤其是那些是稳定的,但难以识别更多的瞬态交互。“因为它看起来好并不意味着它是正确的,”Elofsson说。“你需要一些实验数据表明你是对的。”

核孔复合体的工作是一个很好的例子,如何预测和实验数据可以一起工作,说库辛斯基(见“基因组网关”)。“不像我们所有的30个蛋白质,把他们扔进AlphaFold和结构。“一起把预测蛋白质结构,该团队使用核孔复合体的3 d图像,用低温电子显微镜的一种形式称为低温电子断层扫描捕获。在一个实例,实验可以确定蛋白质的接近了一个令人惊讶的复杂的两个组件之间的交互,然后AlphaFold的模型证实。

基因组网关:人类核孔复合体的两个视图显示它如何嵌入在核膜

改编自参考图片。3 /阿格涅斯卡Obarska-Kosinska

辛斯看到球队目前的核孔复合体的地图作为起点的实验和模拟研究孔隙复杂的功能,以及该故障的疾病。

AlphaFold的限制

所有AlphaFold的进展,科学家们说,重要的是要清楚它的局限性——尤其是因为研究人员不擅长预测蛋白质结构使用它。

试图AlphaFold适用于各种突变,破坏蛋白质的天然结构,包括一个早期乳腺癌,已经证实的软件不具备预测新的突变蛋白的后果,因为没有evolutionarily-related序列检查11

AlphaFold团队现在正考虑如何设计一个神经网络来处理新的突变。网络跳线预计这将需要更好地预测蛋白质从其展开折叠状态。可能需要软件,仅依赖于它所了解物理预测蛋白质结构,计算生物学家穆罕默德AlQuraishi说,纽约哥伦比亚大学的城市。“我们感兴趣的一件事是做预测的单一序列不使用进化信息,”他说。“这是一个关键问题,并保持开放的心态。”

AlphaFold也旨在预测单一结构,虽然它已经砍吐出不止一个。但许多蛋白质在多个构象,这可能是重要的功能。“AlphaFold不能处理蛋白质,可以采用不同的结构在不同的构象,“Schueler-Furman说。和结构的预测是隔离,而许多蛋白质功能与配体如DNA和RNA,脂肪分子和矿物质,如铁。“我们仍失踪的配体,我们丢失的一切关于蛋白质,“Elofsson说。

发展这些新一代的神经网络将是一个巨大的挑战,AlQuraishi说。AlphaFold依赖数十年的研究产生的实验结构蛋白质网络可以借鉴。目前没有可用的数据量捕获蛋白质动力学,或数万亿的形状小分子蛋白质相互作用。PDB包括结构的蛋白质与其它分子相互作用,但这仅仅抓住一片化学多样性,跳投补充道。

研究人员认为,他们需要时间来确定如何最好地发挥AlphaFold和相关人工智能工具。AlQuraishi认为与早期的电视,当一些项目包括无线电广播只是阅读新闻。“我认为我们会找到新的应用程序的结构,我们还没有怀孕的。”

AlphaFold革命最终是任何人的猜测。“事情只是改变如此之快,”贝克说。“即使在第二年,我们会看到真正重大突破使得使用这些工具。“珍妮特•桑顿EMBL-EBI,计算生物学家认为AlphaFold最大的影响可能只是为了让生物学家更开放的见解从计算和理论方法。“对我来说,革命是心态改变,”她说。

AlphaFold革命激发了库辛斯梦想大。他认为AlphaFold-inspired工具可以用于模型而不是单独的蛋白质复合物,但整个细胞器甚至细胞单个蛋白质分子的水平。“这是我们的梦想将会在接下来的几十年”。