AlphaFold预测核孔的结构复杂的蛋白质的蓝色、黄色和橙色的颜色在一个白色背景

Foldseek允许研究人员识别蛋白质的形状类似于其它蛋白质。信贷:DeepMind

当你发现一种蛋白质,你如何决定什么?格里高利Gloor正面临的问题。

西安大略大学的生化学家在伦敦,加拿大,Gloor正在研究细菌社区炼油污水处理厂,希望帮助他们识别蛋白质降解有毒物质。作为一个概念证明,他开始研究蛋白质表达的病毒称为噬菌体感染细菌。不幸的是,已知蛋白质的数据库的搜索匹配是空的。

然后Gloor得知一个叫做Foldseek的搜索工具,在2021年第一次分享的创造者和描述的可能自然生物技术1。“这就像,哈利路亚,”他说。他的项目“从基本上不可能的”。

蛋白质氨基酸链构建,及其折叠形状决定其功能。在过去的几年中,人工智能工具,预测蛋白质的三维结构的氨基酸序列——而不是确定结构实验——已经大大改善。研究人员使用AlphaFold 2,从谷歌DeepMind在伦敦;RoseTTAFold,西雅图华盛顿大学的团队;等工具来编译数据库包含数以百万计的结构。Foldseek可以快速搜索这些数据库的蛋白质也有类似的形状,大概类似的功能——感兴趣的蛋白质。

最好的两个世界

传统的计算方法来确定一个陌生的蛋白质的功能是寻找相似的蛋白质氨基酸序列。如果已知相关蛋白质的功能,研究人员可以猜测新的蛋白质可能做什么。

序列搜索快,像硬盘寻找一个文件名。但是他们经常错过好的匹配,因为蛋白质具有相似形状可以有截然不同的序列。小搜索方法寻找形状而不是序列,但这可能需要数千倍的时间,因为计算很难比较复杂的3 d对象。Foldseek,研究人员得到了两全其美:软件代表了蛋白质的形状作为字符串的信件——“结构性字母表”——从而提供shape-based搜索的敏感性,但序列的速度的。

”的一个关键思想是为了产生一个好的结构搜索,重要的是获得正确的编码,”马丁Steinegger说,首尔国立大学的生物学家和Foldseek论文的主要作者之一。

Gloor使用ColabFold,一个基于云计算的computational-notebook接口AlphaFold 2,来预测他发现噬菌体的结构蛋白质,然后Foldseek匹配他们已知的蛋白质。一些蛋白质,他发现,形成病毒的外层;其他酶2。他的评估:Foldseek是“非常聪明”。

Foldseek不是第一个算法减少蛋白质结构一个字母。其他搜索工具通常为每个氨基酸分配一个字母的基础上其取向相对于前后氨基酸在蛋白质序列。然而,这种方法忽略了氨基酸之间的相互作用距离的线性链,但附近的3 d空间。Foldseek分配每个氨基酸20封信之一,其距离的基础上,和方向相对于氨基酸,蛋白质折叠起来的太阳最亲密的。Steinegger说,通过关注这些空间桥梁Foldseek“3 d交互字母表”更好的捕捉全球结构。

看到在时间

说:“生物学发生在三维珍妮特•桑顿欧洲分子生物学实验室的计算生物学家Hinxton欧洲生物信息学研究所,英国。比较蛋白质的能力的基础上,其形状”可以让你看到更久远一点的进化,它允许您确定是从遥远的亲戚一样的前兆”蛋白质,她说。

为了测试Foldseek, Steinegger团队使用一个数据库的365000蛋白质的形状已经预测使用AlphaFold 2。他们给100这些形状Foldseek问排名,对于每个人来说,最相似的蛋白质数据库中。分数是基于多少真阳性的检索的算法(即蛋白质得分超过一定相似性阈值根据原子模型)在检索一个假阳性。Foldseek表现两种流行的基于结构的搜索工具,TM-align和大理表现更好,24%和8%分别,速度快了近35000年和20000年。与一个叫做CLE-SW structural-alphabet-based工具相比,Foldseek更好,23%和11倍1

Foldseek是可作为开源软件macOS和Linux计算机。开发人员还为研究人员创建了一个web服务器搜索任何七覆盖数以百万计的蛋白质结构数据库。根据Steinegger,软件已经安装至少14000次,和研究人员每天在服务器上运行约300搜索。

桑顿说Foldseek可以帮助研究人员识别蛋白质功能在新病原体,或简单地阐明生物体是如何运作的。例如,应用Foldseek Steinegger和他的团队发现集群AlphaFold数据库和相关蛋白质的鉴定细菌蛋白质结构类似于人类的组蛋白3

至于Gloor,与现有的搜索工具,他发现匹配的只有一小部分噬菌体蛋白质在他的研究中,没有一个已知的函数。使用Foldseek,他发现匹配一半的蛋白质,发现15%的酶2

“相互作用下的三维体积转换为字符串需要不少的洞察力和创意,“Gloor说。和使用Foldseek,科学家可以理解更多的蛋白质更多的生物。“这是真的会改变我们的方式进化研究,”他说。“这将增加我们的能力在真正独特的生态系统,并找出它们是如何工作的。”