背景与总结

蛋白质建模是机器学习研究的一个领域,对蛋白质工程有潜在的吸引力。考虑到一个给定蛋白质的设计空间的巨大尺寸,以经验方法测量所有可能设计的表型特性是不可可行的。机器学习方法可以帮助限制设计空间,并作为建议在实验室进行测试的设计的基础,以节省时间和降低成本1.这种方法已被用于改造酶2,荧光蛋白3.,和抗体456.机器学习蛋白质工程的成功例子依赖于对大型标记蛋白质序列数据集的访问,这些数据集通常是作为高通量实验活动的一部分生成的。当数据集和模型公开时,整个领域都受益于随后的比较和基准测试17

虽然这些方法已被证明用于抗体工程,但在公共领域仍然缺乏可用的标记数据来推进这一领域的抗体结合研究。大规模的筛选工作已经导致数据库中有超过10亿个没有目标或结合亲和值的抗体序列8.其他的努力已经产生了近1000个带有标签的抗体数据集——或者是目标序列9或者中和值10.抗体结合预测的附加工作报告了生成和使用的数据子集4.在抗体结合之外,一个小组已经发布了超过100种抗体的多种可制造性测量,这些抗体已经完成或通过了FDA的批准111213

与在没有机器学习的情况下寻找具有目标表型的设计相比,这种缺乏标记数据可能是训练机器学习模型的数据需求差异的结果。例如,噬菌体展示旨在为研究人员提供从>10中少量顶级结合物的信息6设计1415.这种类型的数据不适合用于训练模型,因为不良的绑定序列是未知的,并且没有产生定量的绑定测量。提供定量测量的方法,如酶联免疫吸附测定16表面等离子体共振17这些方法依赖于单个抗体的分离,因此它们的通量明显较低,成本更高。

最近使用工程酵母表达系统和下一代DNA测序的方法克服了这些挑战,可以生成定量蛋白质-蛋白质结合相互作用(包括抗体-抗原相互作用)的大规模数据集1819.我们使用这样一种称为AlphaSeq的技术来生成这里描述的数据集。重要的是,我们首先进行了噬菌体展示实验,以确定与我们的目标(冠状病毒中的保守肽)结合的三种候选分子。这些候选的是种子序列,除了设计所有的单一突变体,我们执行在网上随机化,在互补决定区域(cdr)中引入两到三个随机突变,用于119,600种设计。因此,我们生成了一个涵盖相当宽的序列空间的数据集,并具有广泛的绑定测量范围,适用于训练机器学习算法。

方法

数字1提供实验工作流程的概述。

图1
图1

实验工作流程生成的AlphaSeq数据集。发现了一种SARS-CoV-2靶标肽,并用于噬菌体展示活动以识别候选抗体。然后验证这些抗体与AlphaSeq试验的兼容性。使用验证过的候选抗体作为种子序列设计变异抗体库,然后用AlphaSeq法进行测量。

目标选择

抗体针对SARS-CoV-2刺突蛋白HR2区域的一种肽,已经观察到中和抗体20..此外,据报道,该序列在冠状病毒之间具有低变异性,可以对病毒变异保持治疗价值21.准确定位的氨基酸序列为PDVDLGDISGINAS。

噬菌体展示

GenScript美国公司进行了噬菌体显示筛选实验,以确定候选粘结剂。生物素化靶肽LCBiot-PDVDLGDISGINAS-OH (vivitide, LLC)提供给GenScript USA Inc.。Genscript美国公司使用的人类naïve噬菌体库在市场上销售来自300名健康的人类捐赠者,大小为1.1 × 1010并且是Fab格式。

AlphaSeq抗体筛选

在概念证明AlphaSeq实验中评估了scFv格式的共5个抗体序列;这5个序列中有3个与目标结合并被继续进行。所有5个抗体序列都在重轻(HL)和轻重(LH)链方向上进行了测试。一般来说,除了Ab-91-HL (3.39 nM)外,链取向对其结合亲和力几乎没有影响,从而导致预测的KD值低于1 nM。为每个抗体选择最佳的链取向;Ab-14选择HL, Ab-91选择LH, Ab-95选择HL。

在抗体库的硅化设计中

从表中所列的3个抗体种子序列中任意选择2个重链和2个轻链1抗体库设计分别为Ab-14-VH、Ab-91-VH和Ab-14-VL、Ab-95-VL。硅内设计过程的目标是在120,000个总序列预算中为每个链生成29,900个序列变体,留下400个序列作为分配给绑定实验的对照。K-点突变,其中k=1、2,对每条链的cdr产生3。点突变仅限于氨基酸取代;为了保证氨基酸序列的长度恒定,避免了吲哚。到k= 3个突变被选择,以保证至少有一个实例,在给定的时间内,在给定链的所有cdr中发生了一个氨基酸取代。应用Martin Lab的CDR规则集,从CDR在每条链中的近似位置提取CDR。的变体数k= 1突变是根据给定链的cdr中氨基酸位置的总和和每个位置上可能的氨基酸取代的总数来确定的。所有k= 1的变体被保留,确保重复和原始的链序列被删除。使用序列变量的数量k= 1时,应用~6的比例因子来确定从总数中抽样的变量数k= 2和k= 3个可能的序列变体,如表所示2

表1靶标和抗体种子序列。cdr的大胆的
表2库和突变的分布和合并k突变。此外,有7个种子序列没有突变。

AlphaSeq数据收集

酵母媒体

按标准方案制备酵母蛋白胨右糖(YPAD)、酵母蛋白胨半乳糖(YPAG)和添加80 mg/mL腺嘌呤的合成脱液(SDO)培养基。我们酵母培养基的供应商如下:Bacto酵母提取物(Life Technologies), Bacto Tryptone (Fisher BioReagents),葡萄糖(Fisher Chemical),半乳糖(Sigma-Aldrich),腺嘌呤(ACROS有机),酵母氮碱无氨基酸(Thermo Scientific), SC-His-Leu-Lys-Trp-Ura粉(Sunrise Science产品),酵母合成滴出培养基补充(Sigma-Aldrich), l -组氨酸(Fisher BioReagents), l -色氨酸(Fisher BioReagents), L-Leucine (Fisher BioReagents),尿嘧啶(ACROS有机),和Bacto琼脂(Fisher BioReagents)。

等基因酵母转化

Twist Bioscience构建了编码酵母表面显示盒的AlphaSeq兼容质粒,并以100 ng/µL重悬。用PmeI酶在37°C下消化100 ng质粒1小时以线性化,如前所述,在5 '和3 '端留下染色体同源性以整合到ARS314位点18.根据制造商的说明,使用Frozen-EZ酵母转化试剂盒II (Zymo Research)进行酵母转化。将酵母镀在SDO-Trp板上,在30°C下生长2-3天。成功的转化菌被放在YPAD板上,在30°C的温度下生长一夜。

蛋白表达验证-流式细胞术

酵母接种在YPAD中,在30°C下培养过夜。酵母用fitc -抗c -myc抗体(免疫学咨询实验室,Inc.)在PBS (Gibco) + 0.2% BSA(赛默飞世尔科学公司)中标记30分钟。酵母被制成颗粒,并在PBS + 0.2% BSA中重悬,并在LSRII细胞仪上进行测序。

DNA文库构建

Twist Bioscience合成的300 bp寡核苷酸池在20 ng/µL的分子级水中重新悬浮。使用KAPA DNA聚合酶从寡核苷酸池中PCR扩增文库(Roche)。利用Gibson等温组装(NEB)将寡核苷酸扩增片段插入到种子单链抗体的主干中,同时插入含有随机DNA条形码的第二个DNA片段。将组装好的条形码抗体DNA文库进行PCR扩增。碎片在0.8%琼脂糖凝胶上运行,并使用君主凝胶纯化试剂盒(NEB)提取。

酵母文库转化

如前所述,在YPAG培养基中培养MATa AlphaSeq酵母6小时以诱导SceI表达18.所有旋转步骤都在3000转/分的转速下进行,持续5分钟。酵母在50 mL 1 M山梨醇(Teknova) + 1 mM氯化钙中洗涤一次2解决方案。将洗净的酵母重新悬浮在0.1 M LiOAc/ 1mm DTT的溶液中,在30°C下摇晃孵育30分钟。30分钟后,酵母在50 mL 1 M山梨醇+ 1 mM CaCl中洗涤一次2解决方案。酵母在1 M山梨醇+ 1 mM CaCl中重悬至最终体积为400 μ L2与DNA一起在冰上孵育至少5分钟。酵母在2.5 kV和25 uF (BioRad)电穿孔。电穿孔后立即将酵母重悬于5 mL 1 M山梨醇:YPAD的1:1溶液中,并在30°C下摇晃30分钟。回收的酵母细胞在50 mL的SDO-Trp培养基中旋转和重悬,并转移到250 mL的折流式烧瓶中。将20µL重悬细胞镀于SDO-Trp上测定转化效率。瓶和板均在30℃下孵育2-3天。2-3天后,通过计数sds - trp板上的菌落数来确定转化效率。

纳米孔条形码映射

按照制造商的说明,使用酵母DNA提取试剂盒(赛默飞世尔科学公司)提取酵母文库中的基因组DNA。进行单轮qPCR,通过相关的DNA条形码扩增包含该基因的基因组DNA片段池。qPCR在饱和前终止,以减少PCR偏差,一般在15-20个循环之间。最后的扩增片段用KAPA珠浓缩,用quantum (Promega)定量,用SQK-LSK-110结扎试剂盒(Oxford Nanopore)制备,并按照制造商的说明用Minion R10流式细胞(Oxford Nanopore)测序。每个测序读数都与来自抗体的预期抗体序列集对齐在网上抗体库使用BLASTN22确定DNA条形码与抗体序列的映射关系;只考虑观察到至少2个reads的DNA条形码,并且每个DNA条形码与其组成reads中最常见的BLASTN抗体匹配。

图书馆对图书馆的AlphaSeq分析

将2 mL饱和MATa和MATalpha文库混合在800 mL YPAD培养基中,在30°C的震动培养箱中孵育。每种试验均进行3个技术重复(表23.).16小时后,100 mL酵母培养物在50 mL无菌水中清洗一次,转移到600 mL SDO-lys-leu中,加入100 nM ß-雌二醇(Sigma),在30°C的震动培养箱中孵育24小时。24小时后,100 mL酵母转移到新鲜的SDO-lys-leu中,加入100 nM ß-雌二醇,在30°C的震动培养箱中再发酵24小时。除了上述抗体文库外,对照酵母菌菌株还包括前面所述的bcl2家族蛋白的小网络18被包括在每个实验中,作为一组已知bli衍生的相互作用亲和力的标准先天的

表3 AlphaSeq测定物组成。

下一代测序库的准备工作

按照制造商的说明,使用酵母DNA提取试剂盒(赛默飞世尔科学公司)提取基因组DNA。进行qPCR扩增基因组DNA片段池,并添加标准Illumina测序适配器和分析特异性指数条形码。qPCR在饱和前终止,以减少PCR偏差,一般在23-27个循环之间。最终扩增片段用KAPA珠浓缩,用quantum (Promega)定量,用NextSeq 500测序仪(Illumina)测序。

AlphaSeq生物信息学

对测序数据进行分析,以确定二倍体酵母中存在的MATa和MATalpha条形码对。每个MATa/MATalpha组合观察到的测序reads数根据单倍体酵母中的频率归一化,以考虑输入种群的不均匀分布。然后给每个aα对分配一个分数,代表观察到的测序reads与假设随机配对的预期测序reads的比率。将这些归一化测序分数与对照酵母菌株的已知亲和度进行线性回归比较,并利用该回归将估计的亲和度分配给每个交配重复的所有其他A α对。

数据记录

数据结构和存储库

在这项研究中生成了一个单一的数据集。该数据集包含作为单一研究的一部分进行的两个AlphaSeq分析的输出,并保存在Zenodo23https://doi.org/10.5281/zenodo.5095284).数据集包含Table中列出的变量4

表4变量及相关说明。

数据集和文件类型

数据存储在单个.csv文件中。所有数据都可以从Zenodo下载23

技术验证

图书馆覆盖

为了确保设计序列的足够比例被组装到每个库中,并确认没有基于突变数量的合并偏倚,我们评估了每个库的合并百分比k每个库的突变(表2).文库内的变异很小,从不超过2%,表明没有因突变数量而导致的偏倚。由于每个库都是单独构建的,因此库间在合并方面的差异预计将大于库内范围的差异。合并比例从75.2%到99.7%不等。根据这些观察,我们得出结论,库的构造是充分的。

再现性

为了评估归因于AlphaSeq过程的变异,每个酵母交配实验进行了三次,分别测定Kd每个技术复制的值。数字2包含给定库中每对复制的成对皮尔逊相关值的矩阵。Pearson相关性范围从0.66 (AAYL52 Rep 1 vs Rep 2)到0.93 (AAYL50 Rep 1 vs Rep 3)2 b展示了AAYL49中每个重复的成对比较的可视化。在较低的预测亲和值下观察到的更好的相关性现象在每个库中都是正确的。亲和度测量,特别是亚微摩尔亲和度,在AlphaSeq重复之间是高度可重复的。

图2
图2

AlphaSeq测量的可重复性。(一个)四个库的技术重复之间的Pearson相关性。深蓝色表示相关性更强。(b) AAYL49库中每对重复的成对比较。没有重复分析的序列不作图。

标准分析

对照酵母菌株,如前所述,由bcl2家族蛋白组成的小网络2425是否包括在每个实验中作为一套标准,其中生物层干涉测量衍生的相互作用亲和力是已知的先天的.数字3表示已知K之间的对应关系d这些PPIs的值和alphaseq预测的亲和值,计算线性为R2= 0.85。

图3
图3

分析标准和确定预期的数据模式。(一个)已知Kd值和alphaseq预测的已知PPI网络的亲和值。(b)盒须图显示alphaseq预测的每个变体对目标的亲和值的分布,按抗体序列中的突变数分类。

1/2/3-位点变异的结合亲缘性分析

为了通过识别预期模式来进一步验证分析结果,比较了所有抗体序列的alphaseq衍生的结合亲和力,并将每个抗体与其种子序列(1、2或3)分离的突变数量进行分类。结果如图所示。3 b;正如预期的那样,中位数亲和力随着每一个额外的突变而降低(2.08 log10nM, 2.70 log10nM, 3.21 log10对于1、2、3个突变,分别为nM),而每增加一个突变,方差都增加(四分位范围1.69 log10nM, 2.06 log10nM, 2.09 log10海里)。换句话说,每增加一个突变都增加了打破抗体的概率,但与野生型相比,还有更多的改进空间。

使用笔记

绑定到负控件

不表达POI的MATα酵母的加入为鉴定具有非特异性结合的MATa酵母提供了机会。这些阴性对照酵母菌株:AlphaNeg1、AlphaNeg2和AlphaNeg3表达AGA2,其中n端HA表位标记和c端Myc标记不含POI。因此,数据集中的许多条目表示MATa酵母与表达负靶的MATα酵母之间的相互作用。与这些测量相关的值范围为1.03 log10nM到7.14日志10nM为测定1和1.35 log10nM到7.32 log10nM用于测定2。由于这些值高于目标绑定值的分布,它们可以作为pred_affinity测量是目标绑定的结果的额外确认。与阴性对照相比测量的结合亲和力代表了在PCR和测序过程中引入条形码的非特异性酵母交配和分子伪产物的某种组合,并可以作为该数据集空白限制的经验读数。请注意,鉴于随着pred_affinity值的增加而观察到的技术变化的增加,不建议从目标pred_affinity测量值中减去这些值。

重复和测定的归一化

每个试验和重复都包含三个种子序列中的每一个,并可用于在试验或重复之间标准化数据。这些序列也可以包括在未来的分析,以允许集成额外的数据。此外,用于将测序丰度转换为预测亲和值的回归对每个重复执行一次,然后应用于整个重复;复制中相互作用的相对排名对计算中的任何技术变化都不敏感,但这种误差将传播到该复制中所有定量预测的亲和测量。

没有pred_aff值的序列

指定了序列和目标对但没有pred_aff值的数据项表明绑定交互较差。这些抗体序列在MATa单倍体酵母群体的DNA测序中被观察到,但在二倍体酵母群体中没有,这肯定了该序列存在于MATa文库中,但没有观察到交配。对于如何在下游应用程序中处理这些条目,有多个选项,包括从数据集中删除它们。虽然不是决定性的,但缺乏二倍体是结合亲和力差的有力证据;输入亲和值来表明这一点可能是有利的。例如,在所有重复中都没有测量值的序列,可以将值计算为最大pred_aff值或中值pred_aff值。