摘要
本文提供的数据集包含通过AlphaSeq法收集的针对SARS-CoV-2靶标肽的单链抗体格式的定量结合评分,可用于机器学习模型的开发和基准测试。从使用人类naïve文库的噬菌体展示活动中鉴定出的三个种子序列开始,设计了四组29,900个抗体在网上通过创建所有k= 1突变和随机k= 2和k= 3个互补决定区(cdr)突变。在119,600个设计中,104,972个被成功地内置到AlphaSeq库中,随后对71,384个设计进行了目标绑定测量,从而对至少一个重复测量值进行了预测亲和值。数据包括预测亲和度测量范围为37 pM至22 mM的抗体。据我们所知,该数据集是最大的公开数据集,包含抗体序列、抗原序列和结合分数的定量测量,并提供了一个机会作为评估机器学习的抗体特异性表示模型的基准。
测量(s) | 抗体绑定 |
技术类型(年代) | AlphaSeq |
因素类型(年代) | 抗体序列 |
样本特征-有机体 | 智人 |
背景与总结
蛋白质建模是机器学习研究的一个领域,对蛋白质工程有潜在的吸引力。考虑到一个给定蛋白质的设计空间的巨大尺寸,以经验方法测量所有可能设计的表型特性是不可可行的。机器学习方法可以帮助限制设计空间,并作为建议在实验室进行测试的设计的基础,以节省时间和降低成本1.这种方法已被用于改造酶2,荧光蛋白3.,和抗体4等5,6.机器学习蛋白质工程的成功例子依赖于对大型标记蛋白质序列数据集的访问,这些数据集通常是作为高通量实验活动的一部分生成的。当数据集和模型公开时,整个领域都受益于随后的比较和基准测试1,7.
虽然这些方法已被证明用于抗体工程,但在公共领域仍然缺乏可用的标记数据来推进这一领域的抗体结合研究。大规模的筛选工作已经导致数据库中有超过10亿个没有目标或结合亲和值的抗体序列8.其他的努力已经产生了近1000个带有标签的抗体数据集——或者是目标序列9或者中和值10.抗体结合预测的附加工作报告了生成和使用的数据子集4.在抗体结合之外,一个小组已经发布了超过100种抗体的多种可制造性测量,这些抗体已经完成或通过了FDA的批准11,12,13.
与在没有机器学习的情况下寻找具有目标表型的设计相比,这种缺乏标记数据可能是训练机器学习模型的数据需求差异的结果。例如,噬菌体展示旨在为研究人员提供从>10中少量顶级结合物的信息6设计14,15.这种类型的数据不适合用于训练模型,因为不良的绑定序列是未知的,并且没有产生定量的绑定测量。提供定量测量的方法,如酶联免疫吸附测定16表面等离子体共振17这些方法依赖于单个抗体的分离,因此它们的通量明显较低,成本更高。
最近使用工程酵母表达系统和下一代DNA测序的方法克服了这些挑战,可以生成定量蛋白质-蛋白质结合相互作用(包括抗体-抗原相互作用)的大规模数据集18,19.我们使用这样一种称为AlphaSeq的技术来生成这里描述的数据集。重要的是,我们首先进行了噬菌体展示实验,以确定与我们的目标(冠状病毒中的保守肽)结合的三种候选分子。这些候选的是种子序列,除了设计所有的单一突变体,我们执行在网上随机化,在互补决定区域(cdr)中引入两到三个随机突变,用于119,600种设计。因此,我们生成了一个涵盖相当宽的序列空间的数据集,并具有广泛的绑定测量范围,适用于训练机器学习算法。
方法
数字1提供实验工作流程的概述。
目标选择
抗体针对SARS-CoV-2刺突蛋白HR2区域的一种肽,已经观察到中和抗体20..此外,据报道,该序列在冠状病毒之间具有低变异性,可以对病毒变异保持治疗价值21.准确定位的氨基酸序列为PDVDLGDISGINAS。
噬菌体展示
GenScript美国公司进行了噬菌体显示筛选实验,以确定候选粘结剂。生物素化靶肽LCBiot-PDVDLGDISGINAS-OH (vivitide, LLC)提供给GenScript USA Inc.。Genscript美国公司使用的人类naïve噬菌体库在市场上销售来自300名健康的人类捐赠者,大小为1.1 × 1010并且是Fab格式。
AlphaSeq抗体筛选
在概念证明AlphaSeq实验中评估了scFv格式的共5个抗体序列;这5个序列中有3个与目标结合并被继续进行。所有5个抗体序列都在重轻(HL)和轻重(LH)链方向上进行了测试。一般来说,除了Ab-91-HL (3.39 nM)外,链取向对其结合亲和力几乎没有影响,从而导致预测的KD值低于1 nM。为每个抗体选择最佳的链取向;Ab-14选择HL, Ab-91选择LH, Ab-95选择HL。
在抗体库的硅化设计中
从表中所列的3个抗体种子序列中任意选择2个重链和2个轻链1抗体库设计分别为Ab-14-VH、Ab-91-VH和Ab-14-VL、Ab-95-VL。硅内设计过程的目标是在120,000个总序列预算中为每个链生成29,900个序列变体,留下400个序列作为分配给绑定实验的对照。K-点突变,其中k=1、2,对每条链的cdr产生3。点突变仅限于氨基酸取代;为了保证氨基酸序列的长度恒定,避免了吲哚。到k= 3个突变被选择,以保证至少有一个实例,在给定的时间内,在给定链的所有cdr中发生了一个氨基酸取代。应用Martin Lab的CDR规则集,从CDR在每条链中的近似位置提取CDR。的变体数k= 1突变是根据给定链的cdr中氨基酸位置的总和和每个位置上可能的氨基酸取代的总数来确定的。所有k= 1的变体被保留,确保重复和原始的链序列被删除。使用序列变量的数量k= 1时,应用~6的比例因子来确定从总数中抽样的变量数k= 2和k= 3个可能的序列变体,如表所示2.
AlphaSeq数据收集
酵母媒体
按标准方案制备酵母蛋白胨右糖(YPAD)、酵母蛋白胨半乳糖(YPAG)和添加80 mg/mL腺嘌呤的合成脱液(SDO)培养基。我们酵母培养基的供应商如下:Bacto酵母提取物(Life Technologies), Bacto Tryptone (Fisher BioReagents),葡萄糖(Fisher Chemical),半乳糖(Sigma-Aldrich),腺嘌呤(ACROS有机),酵母氮碱无氨基酸(Thermo Scientific), SC-His-Leu-Lys-Trp-Ura粉(Sunrise Science产品),酵母合成滴出培养基补充(Sigma-Aldrich), l -组氨酸(Fisher BioReagents), l -色氨酸(Fisher BioReagents), L-Leucine (Fisher BioReagents),尿嘧啶(ACROS有机),和Bacto琼脂(Fisher BioReagents)。
等基因酵母转化
Twist Bioscience构建了编码酵母表面显示盒的AlphaSeq兼容质粒,并以100 ng/µL重悬。用PmeI酶在37°C下消化100 ng质粒1小时以线性化,如前所述,在5 '和3 '端留下染色体同源性以整合到ARS314位点18.根据制造商的说明,使用Frozen-EZ酵母转化试剂盒II (Zymo Research)进行酵母转化。将酵母镀在SDO-Trp板上,在30°C下生长2-3天。成功的转化菌被放在YPAD板上,在30°C的温度下生长一夜。
蛋白表达验证-流式细胞术
酵母接种在YPAD中,在30°C下培养过夜。酵母用fitc -抗c -myc抗体(免疫学咨询实验室,Inc.)在PBS (Gibco) + 0.2% BSA(赛默飞世尔科学公司)中标记30分钟。酵母被制成颗粒,并在PBS + 0.2% BSA中重悬,并在LSRII细胞仪上进行测序。
DNA文库构建
Twist Bioscience合成的300 bp寡核苷酸池在20 ng/µL的分子级水中重新悬浮。使用KAPA DNA聚合酶从寡核苷酸池中PCR扩增文库(Roche)。利用Gibson等温组装(NEB)将寡核苷酸扩增片段插入到种子单链抗体的主干中,同时插入含有随机DNA条形码的第二个DNA片段。将组装好的条形码抗体DNA文库进行PCR扩增。碎片在0.8%琼脂糖凝胶上运行,并使用君主凝胶纯化试剂盒(NEB)提取。
酵母文库转化
如前所述,在YPAG培养基中培养MATa AlphaSeq酵母6小时以诱导SceI表达18.所有旋转步骤都在3000转/分的转速下进行,持续5分钟。酵母在50 mL 1 M山梨醇(Teknova) + 1 mM氯化钙中洗涤一次2解决方案。将洗净的酵母重新悬浮在0.1 M LiOAc/ 1mm DTT的溶液中,在30°C下摇晃孵育30分钟。30分钟后,酵母在50 mL 1 M山梨醇+ 1 mM CaCl中洗涤一次2解决方案。酵母在1 M山梨醇+ 1 mM CaCl中重悬至最终体积为400 μ L2与DNA一起在冰上孵育至少5分钟。酵母在2.5 kV和25 uF (BioRad)电穿孔。电穿孔后立即将酵母重悬于5 mL 1 M山梨醇:YPAD的1:1溶液中,并在30°C下摇晃30分钟。回收的酵母细胞在50 mL的SDO-Trp培养基中旋转和重悬,并转移到250 mL的折流式烧瓶中。将20µL重悬细胞镀于SDO-Trp上测定转化效率。瓶和板均在30℃下孵育2-3天。2-3天后,通过计数sds - trp板上的菌落数来确定转化效率。
纳米孔条形码映射
按照制造商的说明,使用酵母DNA提取试剂盒(赛默飞世尔科学公司)提取酵母文库中的基因组DNA。进行单轮qPCR,通过相关的DNA条形码扩增包含该基因的基因组DNA片段池。qPCR在饱和前终止,以减少PCR偏差,一般在15-20个循环之间。最后的扩增片段用KAPA珠浓缩,用quantum (Promega)定量,用SQK-LSK-110结扎试剂盒(Oxford Nanopore)制备,并按照制造商的说明用Minion R10流式细胞(Oxford Nanopore)测序。每个测序读数都与来自抗体的预期抗体序列集对齐在网上抗体库使用BLASTN22确定DNA条形码与抗体序列的映射关系;只考虑观察到至少2个reads的DNA条形码,并且每个DNA条形码与其组成reads中最常见的BLASTN抗体匹配。
图书馆对图书馆的AlphaSeq分析
将2 mL饱和MATa和MATalpha文库混合在800 mL YPAD培养基中,在30°C的震动培养箱中孵育。每种试验均进行3个技术重复(表23.).16小时后,100 mL酵母培养物在50 mL无菌水中清洗一次,转移到600 mL SDO-lys-leu中,加入100 nM ß-雌二醇(Sigma),在30°C的震动培养箱中孵育24小时。24小时后,100 mL酵母转移到新鲜的SDO-lys-leu中,加入100 nM ß-雌二醇,在30°C的震动培养箱中再发酵24小时。除了上述抗体文库外,对照酵母菌菌株还包括前面所述的bcl2家族蛋白的小网络18被包括在每个实验中,作为一组已知bli衍生的相互作用亲和力的标准先天的.
下一代测序库的准备工作
按照制造商的说明,使用酵母DNA提取试剂盒(赛默飞世尔科学公司)提取基因组DNA。进行qPCR扩增基因组DNA片段池,并添加标准Illumina测序适配器和分析特异性指数条形码。qPCR在饱和前终止,以减少PCR偏差,一般在23-27个循环之间。最终扩增片段用KAPA珠浓缩,用quantum (Promega)定量,用NextSeq 500测序仪(Illumina)测序。
AlphaSeq生物信息学
对测序数据进行分析,以确定二倍体酵母中存在的MATa和MATalpha条形码对。每个MATa/MATalpha组合观察到的测序reads数根据单倍体酵母中的频率归一化,以考虑输入种群的不均匀分布。然后给每个aα对分配一个分数,代表观察到的测序reads与假设随机配对的预期测序reads的比率。将这些归一化测序分数与对照酵母菌株的已知亲和度进行线性回归比较,并利用该回归将估计的亲和度分配给每个交配重复的所有其他A α对。
数据记录
数据结构和存储库
在这项研究中生成了一个单一的数据集。该数据集包含作为单一研究的一部分进行的两个AlphaSeq分析的输出,并保存在Zenodo23(https://doi.org/10.5281/zenodo.5095284).数据集包含Table中列出的变量4.
数据集和文件类型
数据存储在单个.csv文件中。所有数据都可以从Zenodo下载23.
技术验证
图书馆覆盖
为了确保设计序列的足够比例被组装到每个库中,并确认没有基于突变数量的合并偏倚,我们评估了每个库的合并百分比k每个库的突变(表2).文库内的变异很小,从不超过2%,表明没有因突变数量而导致的偏倚。由于每个库都是单独构建的,因此库间在合并方面的差异预计将大于库内范围的差异。合并比例从75.2%到99.7%不等。根据这些观察,我们得出结论,库的构造是充分的。
再现性
为了评估归因于AlphaSeq过程的变异,每个酵母交配实验进行了三次,分别测定Kd每个技术复制的值。数字2包含给定库中每对复制的成对皮尔逊相关值的矩阵。Pearson相关性范围从0.66 (AAYL52 Rep 1 vs Rep 2)到0.93 (AAYL50 Rep 1 vs Rep 3)2 b展示了AAYL49中每个重复的成对比较的可视化。在较低的预测亲和值下观察到的更好的相关性现象在每个库中都是正确的。亲和度测量,特别是亚微摩尔亲和度,在AlphaSeq重复之间是高度可重复的。
标准分析
对照酵母菌株,如前所述,由bcl2家族蛋白组成的小网络24,25是否包括在每个实验中作为一套标准,其中生物层干涉测量衍生的相互作用亲和力是已知的先天的.数字3表示已知K之间的对应关系d这些PPIs的值和alphaseq预测的亲和值,计算线性为R2= 0.85。
1/2/3-位点变异的结合亲缘性分析
为了通过识别预期模式来进一步验证分析结果,比较了所有抗体序列的alphaseq衍生的结合亲和力,并将每个抗体与其种子序列(1、2或3)分离的突变数量进行分类。结果如图所示。3 b;正如预期的那样,中位数亲和力随着每一个额外的突变而降低(2.08 log10nM, 2.70 log10nM, 3.21 log10对于1、2、3个突变,分别为nM),而每增加一个突变,方差都增加(四分位范围1.69 log10nM, 2.06 log10nM, 2.09 log10海里)。换句话说,每增加一个突变都增加了打破抗体的概率,但与野生型相比,还有更多的改进空间。
使用笔记
绑定到负控件
不表达POI的MATα酵母的加入为鉴定具有非特异性结合的MATa酵母提供了机会。这些阴性对照酵母菌株:AlphaNeg1、AlphaNeg2和AlphaNeg3表达AGA2,其中n端HA表位标记和c端Myc标记不含POI。因此,数据集中的许多条目表示MATa酵母与表达负靶的MATα酵母之间的相互作用。与这些测量相关的值范围为1.03 log10nM到7.14日志10nM为测定1和1.35 log10nM到7.32 log10nM用于测定2。由于这些值高于目标绑定值的分布,它们可以作为pred_affinity测量是目标绑定的结果的额外确认。与阴性对照相比测量的结合亲和力代表了在PCR和测序过程中引入条形码的非特异性酵母交配和分子伪产物的某种组合,并可以作为该数据集空白限制的经验读数。请注意,鉴于随着pred_affinity值的增加而观察到的技术变化的增加,不建议从目标pred_affinity测量值中减去这些值。
重复和测定的归一化
每个试验和重复都包含三个种子序列中的每一个,并可用于在试验或重复之间标准化数据。这些序列也可以包括在未来的分析,以允许集成额外的数据。此外,用于将测序丰度转换为预测亲和值的回归对每个重复执行一次,然后应用于整个重复;复制中相互作用的相对排名对计算中的任何技术变化都不敏感,但这种误差将传播到该复制中所有定量预测的亲和测量。
没有pred_aff值的序列
指定了序列和目标对但没有pred_aff值的数据项表明绑定交互较差。这些抗体序列在MATa单倍体酵母群体的DNA测序中被观察到,但在二倍体酵母群体中没有,这肯定了该序列存在于MATa文库中,但没有观察到交配。对于如何在下游应用程序中处理这些条目,有多个选项,包括从数据集中删除它们。虽然不是决定性的,但缺乏二倍体是结合亲和力差的有力证据;输入亲和值来表明这一点可能是有利的。例如,在所有重复中都没有测量值的序列,可以将值计算为最大pred_aff值或中值pred_aff值。
代码的可用性
与抗体设计随机化相关的代码可在GitHub (https://github.com/mit-ll/Insilico_Ab_Variant_Generator).
用于序列分析的代码在功能上类似于先前发布的代码18.此代码可以在GitHub (https://github.com/dyounger/yeast_synthetic_agglutination).
参考文献
徐,Y。等.深入研究蛋白质工程的机器学习模型。j .化学。正无穷。模型。60, 2773-2790(2020)。
吴铮,阚淑波,李瑞德,魏特曼,吴志军,阿诺德。机器学习辅助定向蛋白质进化的组合库。Proc。国家的。学会科学。116, 8852-8858(2019)。
斋藤,Y。等.荧光蛋白定向进化的机器学习引导诱变。ACS合成器。医学杂志。72014-2022(2018)。
刘,G。等.基于高容量机器学习的抗体互补确定区设计。生物信息学36, 2126-2133(2020)。
杨凯凯,吴卓,阿诺德。H.机器学习引导定向进化的蛋白质工程。Nat方法。16, 687-694(2019)。
Alley, E. C., Khimulya, G., Biswas, S., AlQuraishi, M. & Church, gm .统一合理蛋白质工程与基于序列的深度表示学习。Nat方法。16, 1315-1322(2019)。
饶,R。等.用TAPE评估蛋白质迁移学习。神经导过程。系统。32, 9689-9701(2019)。
Kovaltsuk,。等.观察到的抗体空间:数据挖掘的新一代抗体序列的资源。j . Immunol。201, 2502-2509(2018)。
Ferdous, S. & Martin, a.c.r. AbDb:抗体结构数据库- pdb衍生抗体结构的数据库。数据库https://doi.org/10.1093/database/bay040(2018)。
尹,H。等.CATNAP:编译、分析和统计中和抗体面板的工具。核酸测定。43, w213-w219(2015)。
陆,X。等.131种临床期抗体的脱酰胺和异构化倾向分析。马伯11, 45-57(2019)。
杨,R。等.通过中下游LCMS快速评估121个临床期单克隆抗体的氧化与蛋氨酸侧链溶剂可及表面积相关。马伯9, 646-653(2017)。
Jain, T。等.临床阶段抗体图谱的生物物理特性。Proc。国家的。学会科学。114, 944-949(2017)。
Clackson, T, Hoogenboom, H. R, Griffiths, A. D. & Winter, G.使用噬菌体显示库制作抗体片段。自然352, 624-628(1991)。
温特,G.格里菲斯,A. D.霍金斯,R. E.和胡根布姆,H. R.用噬菌体显示技术制造抗体。为基础。启Immunol。12, 433-455(1994)。
envall, E. & Perlmann, P.酶联免疫吸附试验(ELISA)免疫球蛋白G的定量测定。免疫化学8, 871-874(1971)。
Liedberg, B, Nylander, C. & Lunström, I.用于气体检测和生物传感的表面等离子体共振。参议员致动器4, 299-304(1983)。
Younger, D., Berger, S., Baker, D. & Klavins, E.通过重编程酵母交配对蛋白质-蛋白质相互作用的高通量表征。Proc。国家的。学会科学。114, 12166-12171(2017)。
斯塔尔,t.n.等.SARS-CoV-2受体结合域深度突变扫描揭示了折叠和ACE2结合的限制。细胞182, 1295 - 1310。e20(2020)。
赖,研究所。等.严重急性呼吸综合征冠状病毒(SARS-CoV)刺突蛋白HR2区15个残基表位的中和单克隆抗体的鉴定j .生物医学。科学。12, 711-727(2005)。
SARS-CoV-2抗体的两种不同的抗体依赖增强(ADE)风险。前面。Immunol。12, 640093(2021)。
阿特舒,S. F.,吉什,W.,米勒,W.,迈尔斯,E. W. &李普曼,D. J.基本的局部对齐搜索工具。J. Mol.生物学。215, 403-410(1990)。
沃尔什米。等.mit-ll/AlphaSeq_Antibody_Dataset:首次发布AlphaSeq抗体数据集.Zenodohttps://doi.org/10.5281/zenodo.5095284(2021)。
Procko E。等.一种计算设计的Epstein-Barr病毒Bcl-2蛋白抑制剂诱导受感染细胞凋亡。细胞157, 1644-1656(2014)。
伯杰,S。等.计算设计的高特异性抑制剂描述了BCL2家族蛋白在癌症中的作用。eLife5, e20352(2016)。
确认
作者对Darrell O. Ricke博士在目标肽序列选择方面的贡献表示感谢。此外,作者感谢亚历山大·提图斯博士对手稿所作的评论。发行声明A.批准公开发行。分销是无限的。本材料是基于美国空军根据空军合同编号支持的工作。fa8702 - 15 d - 0001。本材料中表达的任何意见、发现、结论或建议都是作者的观点,并不一定反映美国空军的观点。©2021麻省理工学院。根据DFARS Part 252.227-7013或7014(2014年2月)的定义,以无限权利交付给美国政府。尽管有任何版权声明,美国政府对本作品的权利由上述DFARS 252.227-7013或DFARS 252.227-7014定义。 Use of this work other than as specifically authorized by the U.S. Government may violate any copyrights that exist in this work.
作者信息
作者及隶属关系
贡献
E.E.进行了酵母菌株构建和验证、酵母文库构建和条形码映射、酵母配种试验和Illumina文库制备,进行了数据分析并撰写了手稿。R.E.进行了数据分析并撰写了手稿。L.S.进行了硅随机化并撰写了手稿。C. Lennartz进行数据分析和可视化。D.G.进行酵母交配试验和Illumina文库制备。M.K.进行了酵母菌株的构建和验证以及酵母文库的构建和条形码映射。C. Lin进行酵母菌株构建和验证。R.L.构思了这个项目并撰写了手稿。D.Y.构思了这个项目并撰写了手稿。M.E.W.构思并监督项目,选择目标肽序列,并撰写稿件。
相应的作者
道德声明
相互竞争的利益
R.L.和D.Y.是A-Alpha Bio, Inc. (A-Alpha Bio)的创始人和现任员工,并拥有A-Alpha Bio的股票/股票期权。e.e., r.e., C. Lin, M.K和D.G.是A-Alpha Bio的员工;所有员工都拥有A-Alpha Bio的股票/股票期权。a - alpha Bio拥有一项与本文中描述的某些研究相关的专利(US10988759B2)。l。s。c。伦纳兹和m。e。w。声明没有利益冲突。
额外的信息
出版商的注意施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。
权利和权限
开放获取本文遵循知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果内容未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.
关于本文
引用本文
恩格尔哈特,艾默生,R,盛,L。et al。该数据集包含针对SARS-CoV-2肽的104,972个抗体的结合相互作用。科学数据9, 653(2022)。https://doi.org/10.1038/s41597-022-01779-4
收到了:
接受:
发表:
DOI:https://doi.org/10.1038/s41597-022-01779-4