介绍gydF4y2Ba

真核分泌系统流程大约四分之一的蛋白质组gydF4y2Ba1克ydF4y2Ba,gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3gydF4y2Ba,确保正确折叠、装配和交付的蛋白质的细胞外环境,质膜、膜结合细胞器gydF4y2Ba4gydF4y2Ba,gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba。模型分泌货物如酵母羧肽酶Y (CPY)α-1抗胰蛋白酶(AAT)转体基因(竞技场队伍),囊性纤维化跨膜电导调节(雌性生殖道),和水泡性口炎病毒G蛋白(VSVG)有助于理解许多ER -或Golgi-resident的作用和调节蛋白(例如参考文献。gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba,gydF4y2Ba11gydF4y2Ba);然而,精确的功能,启用或阻止成千上万的其他分泌蛋白的分泌系统交通仍然模糊。例如,它通常是未知的,监护人是至关重要的,帮助不同类型的分泌性蛋白质的折叠域,什么序列或结构特点控制出口动力学,或由高尔基糖基转移酶决定多糖改性。广泛的研究蛋白质通过分泌系统整体了解多个流程集成生产的全套分泌蛋白。不幸的是,目前大多数方法都不适合研究全面进入急诊室后蛋白质的折叠。质谱(MS)的蛋白质组学是主要的审讯方法的翻译后的事件,尽管许多技术进步,其广度和深度有限,与样品的复杂性急剧减少;女士在常规设置,一般来说,只有不到70%的所有哺乳动物检测到蛋白编码基因转录gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba,很少是实现蛋白质全覆盖。gydF4y2Ba

重组蛋白的分泌不同的主机一直是受欢迎的选择细胞质表达因为更直接的净化,甚至不是自然分泌的蛋白质或位于膜。然而,获得可检测水平的功能重组蛋白分泌由给定不同的主机仍然常常反复试验的过程。预测重组蛋白和分泌的主机之间的兼容性,以及蛋白质的工程或主机对提高兼容性,需要模型的氨基酸序列或结构决定因素之间的关系和成功的蛋白质分泌。可以说,大规模的蛋白质分泌的可用性数据将有助于阐明为什么蛋白质未能通过分泌途径。平行结构或变种库的筛选感兴趣的蛋白质的重组蛋白表达增加成功率势头gydF4y2Ba14gydF4y2Ba,gydF4y2Ba15gydF4y2Ba,gydF4y2Ba16gydF4y2Ba,gydF4y2Ba17gydF4y2Ba,但它往往集中在细胞内表达,更重要的是,只专注于一个目标。更全面的策略来评估不同的表达整个蛋白质组确实存在,但通常也被限制在细胞内表达gydF4y2Ba大肠杆菌gydF4y2Ba,小的蛋白质组,麻烦clone-by-clone策略gydF4y2Ba18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21gydF4y2Ba。因此,在高通量测量分泌的新方法是需要的。gydF4y2Ba

我们开发一个方法来评估潜在(“secretability”)的分泌蛋白质proteome-wide规模。SECRiFY(酵母secretability筛选重组片段)结合酵母表面展示筛选蛋白质库和深度测序读出,使系统识别外源多肽可以通过(或逃避)分泌质量控制检查点的酵母,高尔基体,分泌囊泡和质膜,分泌。作为第一个使用这种方法需要解决的基本问题,我们问,给定一个特定序列的蛋白质片段,我们可以(1)了解特性导致其secretability和(2)生成machine-learned secretability分类器。因此,我们片段的人类蛋白质组和屏幕这些碎片secretability酵母在两个不同的物种,gydF4y2Ba酿酒酵母gydF4y2Ba和gydF4y2Ba毕赤酵母属pastorisgydF4y2Ba(gydF4y2BaKomagataella phaffiigydF4y2Ba),产生一个大的自由访问存储库20000多实验确定yeast-producible人类的蛋白质片段。我们用它们来为secretability培训(深)机器学习模型预测,它公布的序列和结构决定因素生产力的分泌系统交通、突出的效用SECRiFY提供进一步洞察分泌处理的基本机制。更多的应用级的实现SECRiFY(专注于固定边界蛋白质域或多域片段)应能使生成的数据库实验验证secretable原生蛋白质域片段,可能促进我们理解其具体分泌处理机制。最终,这可能会大大加快实验蛋白表达的研究在许多领域。gydF4y2Ba

结果gydF4y2Ba

检查域级分辨率的规范化片段库gydF4y2Ba

多域蛋白质经常无法表达或分泌全部由于当地问题与特定的蛋白质的错误折叠区域,翻译抑制序列,蛋白酶敏感,缺乏稳定的互动合作伙伴或修改,或毒性。蛋白质的结构、功能和进化模块化的领域,然而,意味着个人某些蛋白质的表达部分,尤其是域,通常还是可以实现的。把困难的蛋白质进入实验驯良的碎片已经利用结构生物学家多年,在合理的目标设计以及随机库屏幕可溶性表达gydF4y2Ba22gydF4y2Ba,gydF4y2Ba23gydF4y2Ba,gydF4y2Ba24gydF4y2Ba,gydF4y2Ba25gydF4y2Ba,gydF4y2Ba26gydF4y2Ba。此外,筛选蛋白质域或碎片可以提供有价值的信息不能立即实现或明显的从屏幕完整的蛋白质gydF4y2Ba27gydF4y2Ba。一些domain-focused interactome研究,例如,允许最小的直接描述相互作用区域和检测更多的扶少团团员不增加假阳性的数量gydF4y2Ba28gydF4y2Ba。我们因此合理化域或domain-sized多肽筛选库,而不是完整的蛋白质,将允许的高分辨率测量secretability在蛋白质组,和便于识别的序列或结构特点导致分泌。gydF4y2Ba

域边界的预测,然而,是出了名的不准确的,甚至是有一个可靠的估计,小的变化准确的N -糖基的片段会导致戏剧性的表达能力上的差异gydF4y2Ba29日gydF4y2Ba。随机方法,另一方面,可以生成库的片段包含大多数域蛋白质组的过采样。因此我们设计并建造了定向,随机分散的互补脱氧核糖核酸数据库覆盖大约的人类转录组片段编码。50 - 100个氨基酸,这是人类蛋白质域大小的中位数(无花果。gydF4y2Ba1 a, cgydF4y2Ba)。由于大动态范围在人类细胞中大量的mRNA转录(不同/ 4数量级),然而,捕获完整的碎片需要难解的多样性大的图书馆,即使分辨率100个基点(无花果。gydF4y2Ba1 bgydF4y2Ba)。因此,我们减少片段丰度差异依赖于核酸的二阶动力学rehybridization变性后,和随后的消化堪察加螃蟹duplex-specific核酸酶(DSN)gydF4y2Ba30.gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba(无花果。gydF4y2Ba1 c, dgydF4y2Ba)。更丰富的DNA物种rehybridize更快,因此消化;这样,即使单轮正常化大大减少丰度差异DNA片段(无花果。gydF4y2Ba1克gydF4y2Ba)。至关重要的是,这允许我们的图书馆规模缩小下兼容下游cDNA克隆库和酵母转换效率(+ /−5×10gydF4y2Ba6gydF4y2Ba5×10gydF4y2Ba7gydF4y2Ba)。gydF4y2Ba

图1:获取蛋白质域从转录组定向,规范化片段库。gydF4y2Ba
图1gydF4y2Ba

一个gydF4y2Ba大多数蛋白质域之间50 - 150个氨基酸(AA)长(左下,Gene3D (v14.0.1)人类蛋白质域,gydF4y2BangydF4y2Ba= 104734)。分裂的mRNA转录到300 bp的片段应该捕获大量domainome的一部分。±100 bp的决议,平均25片段足以覆盖一个典型的成绩单。gydF4y2BabgydF4y2Ba估计库大小之间的关系,假设100个基点决议,和的概率抽样任何片段,根据片段丰富正常化的效率。gydF4y2BacgydF4y2Ba支离破碎的片段库是由标记随机启动聚gydF4y2Ba+gydF4y2BaRNA, G-tailing semi-single滞留适配器结扎,PCR, duplex-specific核酸酶正常化之前克隆入酵母表面展示向量。ds =双链。gydF4y2BadgydF4y2Ba丰富的成绩单rehybridize速度比罕见的活动期间控制rehybridization变性后,这样,消化的双链DNA duplex-specific核酸酶(DSN)可用于规范化片段丰富。gydF4y2BaegydF4y2Ba影响phosphorothioate债券(蓝色恒星)和缓冲序列(蓝色的核苷酸序列)退化的奶嘴序列标签,以深度测序(黑条,上轴)和限制性内切酶/ ligase-based克隆到表面显示向量(红条,底部轴)。与缓冲设计基地(灰色框)是最有效的。引物的5′,3′。CFU =菌落,挥动=下一代测序。gydF4y2BafgydF4y2Ba,gydF4y2BaggydF4y2Ba各种基因的丰度差异片段相比gydF4y2BaGAPDHgydF4y2Ba,作为意味着ΔCt±SEM。所有序列丰度几乎是平衡的,当使用TA-rich (gydF4y2BaggydF4y2Ba),而不是GC-rich (gydF4y2BafgydF4y2Ba)在随机引物标记,与归一化效率到±1000倍(ΔCt 10)gydF4y2BaHPRT1gydF4y2Ba。双向方差分析与图基因果,ns:非重要,*gydF4y2BapgydF4y2Ba< 0.05,* *gydF4y2BapgydF4y2Ba< 0.01,* * *gydF4y2BapgydF4y2Ba< 0.001,* * * *gydF4y2BapgydF4y2Ba< 0.0001。为gydF4y2BafgydF4y2BangydF4y2Ba= 2生物复制没有规范,第一轮,gydF4y2BangydF4y2Ba生物复制轮2 = 3。为gydF4y2BaggydF4y2BangydF4y2Ba在所有条件下生物复制= 9。确切的gydF4y2BapgydF4y2Ba值可以在源数据文件中找到表gydF4y2Ba1克ydF4y2Ba。gydF4y2Ba

确保方向性,随机引物标记rare-cutter限制站点(奶嘴),这是有别于SfiI网站纳入图书馆适配器(图。gydF4y2Ba1 cgydF4y2Ba)。我们最初观察到的随机引物标记序列是容易降解由于endo -和核酸外切酶活动的gydF4y2Ba大肠杆菌gydF4y2Ba我在第二个链合成DNA聚合酶gydF4y2Ba32gydF4y2Ba,gydF4y2Ba33gydF4y2Ba,gydF4y2Ba34gydF4y2Ba,gydF4y2Ba35gydF4y2Ba。结果,不到20%的片段序列包含一个完整的网站,奶嘴负面影响结扎表面显示向量(无花果。gydF4y2Ba1 egydF4y2Ba)。两个nuclease-resistant phosphorothioate债券和缓冲序列可以从降解部分保护标签,和最后的图书馆设计,我们定居在底漆保护效率最大(无花果。gydF4y2Ba1 egydF4y2Ba灰色栏)。gydF4y2Ba

标签成分也丰富归一化效率的影响。在早期设计GC-rich标签,标准化是有效(无花果。gydF4y2Ba1 fgydF4y2Ba比设计与奶嘴标签(图)。gydF4y2Ba1克gydF4y2Ba),其中一个~ 1000倍标准化通常可以获得。标签序列存在在所有序列片段,而最有可能的是,当使用GC-rich标签,rehybridization动力学(因此退化)是由标签而不是自己的序列片段。gydF4y2Ba

,这个图书馆建设协议允许高效的蛋白质编码片段捕捉平铺在真核转录组。正常化的它是一种有效的方法标记random-primed cDNA片段库,它应该找到许多应用程序在一个细胞的蛋白质编码潜力的地区需要有效地覆盖着表情库。gydF4y2Ba

在酵母SECRiFY作为secretability筛选平台gydF4y2Ba

依靠先进的质量控制(QC)真核分泌系统的机械,确保有效的降解不稳定或错误折叠的蛋白质在到达等离子体膜之前,我们进一步推断表面显示有效的分泌可以作为一个代理,其他研究表明gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba36gydF4y2Ba。因此,一旦克隆到表面显示向量和转移到酵母,图书馆多肽直接分泌系统的n端分泌领袖序列来自酵母α交配因子(MFα1 prepro),而且在酵母细胞壁通过c端融合的GPI-anchoring地区gydF4y2Ba酿酒酵母gydF4y2Ba细胞壁蛋白质Sag1(无花果。gydF4y2Ba2 a, bgydF4y2Ba)。碎片fragment-Sag1融合成功的传递(或转义)分泌系统质量控制没有蛋白水解降解被认为通过N - c端表位标记(国旗和V5、职责),和其他人分开使用迭代的高效磁,fluorescence-activated细胞排序(mac /流式细胞仪)(图。gydF4y2Ba2 b, cgydF4y2Ba)。最后,片段识别和分类是通过深度测序片段扩增子从无序和有序的细胞群。简而言之,SECRiFY评估secretability,即潜在的交通通过分泌系统的多肽,高尔基,囊泡,并没有退化,下午的方式独立于原来的内生定位感兴趣的蛋白质。在目前的研究中,我们关注secretability的基本原则。虽然在实践中任何蛋白质编码兼容SECRiFY mRNA池,考虑生物医学的重要性和结构的复杂性,我们专注于屏幕的人类蛋白质组,转录组编码的各种人类细胞系。gydF4y2Ba

图2:筛查secretable蛋白质片段与SECRiFY表面显示平台。gydF4y2Ba
图2gydF4y2Ba

一个gydF4y2Ba表面显示作为分泌的代理。图书馆是克隆诱导启动子的下游(pGal1gydF4y2Ba酿酒酵母gydF4y2Ba,pAOX1gydF4y2Bap . pastorisgydF4y2Ba),分泌领袖序列(MFαprepro),和一个国旗标签;和上游的V5标记和Sag1锚。生产通过图书馆多肽片段通过酵母分泌系统导致并入酵母细胞壁,并显示克隆免疫抗体抗原决定基的标签标记来确定的。gydF4y2BabgydF4y2BaSECRiFY筛查工作流程。片段库转化为酵母。片段表达诱导后,显示国旗gydF4y2Ba+gydF4y2BaV5gydF4y2Ba+gydF4y2Ba克隆在多个轮mac /流式细胞仪排序。碎片被PCR复苏和深度测序的排序和无序细胞池。gydF4y2BacgydF4y2Ba代表流式细胞术情节SECRiFY筛查的人类蛋白质组gydF4y2Ba酿酒酵母gydF4y2Ba。经过3轮浓缩(mac、流式细胞仪、流式细胞仪),double-positive的分数(国旗gydF4y2Ba+gydF4y2BaV5gydF4y2Ba+gydF4y2Ba)克隆增加约30倍。gydF4y2BadgydF4y2Ba免疫印迹的验证片段secretability SECRiFY筛选后的人类蛋白质组gydF4y2Ba酿酒酵母gydF4y2Ba。大多数的人类蛋白质片段分类酵母细胞可以表达和分泌到酵母中Sag1-independent的方式。注意几个片段运行多个物种,可能由于异构O-glycosylation等处理和修改。gydF4y2Ba大肠杆菌gydF4y2BaWT溶解产物:抗体阳性控制:gydF4y2Ba酿酒酵母gydF4y2BaR1158介质(底片。控制),Htt25Q:中等gydF4y2Ba酿酒酵母gydF4y2Ba分泌人类Htt25Q (pos.控制)。分子量标记单位kDa。这个实验被执行一次。Uncropped墨迹图提供了源数据文件。gydF4y2Ba

我们第一次基准测试方法通过构建一个1.96×10gydF4y2Ba6gydF4y2Ba克隆的片段库HEK293T转录组和一式三份执行屏幕gydF4y2Ba酿酒酵母gydF4y2Ba。平均1.76%±0.12%的库细胞显示一个片段一个完整的n端(FLAG-tag)和完整的糖(V5-tag)(补充图。gydF4y2Ba1克ydF4y2Ba)。占1/9的机会,和下游在坐标系克隆,这意味着~ 15.8%在坐标系的碎片明显显示,因此,潜在的secretable。32倍浓缩后这些double-positive细胞通过一个圆的mac电脑和两个后续轮流式细胞仪(补充图。gydF4y2Ba1克ydF4y2Ba),预处理和post-sort人口都在每个基站平均覆盖率最低限度的150测序。平均1.12×10gydF4y2Ba6gydF4y2Ba独特的碎片/复制检测,平均26.45%±0.86%的人类规范的转录组至少有三个读取(补充表gydF4y2Ba1克ydF4y2Ba- - - - - -gydF4y2Ba3gydF4y2Ba)。的secretion-predictive价值评估方法,我们选择随机排序人口的克隆一个实验(补充图。gydF4y2Ba2gydF4y2Ba补充表gydF4y2Ba4gydF4y2Ba)和测试时的分泌片段编码不是锚蛋白Sag1融合。N -或18/20(90%)的c端标记的片段可以可靠地检测到免疫印迹的生长介质,16/20(80%)的片段,标签都是公认的(图。gydF4y2Ba1 dgydF4y2Ba补充表gydF4y2Ba5gydF4y2Ba)。因此,片段显示排序细胞确实是“secretable”高概率的。我们进一步分类片段为那些丰富(也称为secretable)和那些被动耗尽(因此,没有检测到secretable)排序,设定一个截止富集因子(gydF4y2Ba({{E}} \ \{{因素}}= {{log2}} \压裂{{{把}}{{{M}}} _{{{排序}}}}{{{把}}{{{M}}} _{{{无序}}}}\)gydF4y2Ba在1和−1),分别反映了最小2倍增加和减少在标准化序列排序后读计数。170226在坐标系的碎片通常发现在三个实验中,6.83%都浓缩在所有三个复制,80.21%持续枯竭(补充表gydF4y2Ba6gydF4y2Ba补充图。gydF4y2Ba3gydF4y2Ba)。因此,使用这个指标,这些屏幕与87.03%的可再生的复制之间的一致性。这些最后的分层组织的片段,认识提高浓缩或耗尽,将进一步被称为secretable耗尽,分别。gydF4y2Ba

因为我们只执行积极选择secretable碎片在筛选,耗尽分数只包含被动枯竭的片段,和阴性预测价值相对较低(40 - 73%,补充图。gydF4y2Ba4gydF4y2Ba)。根据这个,解释影响分泌的特性必须专注于那些影响secretability,而不是non-secretability。然而,正如有±15倍片段(数据点)在这个耗尽,这仍然相对较低的阴性预测价值提供了足够的信号,让机器学习方法来学习(见下文)。gydF4y2Ba

尽管我们最初测试方法在模型中酵母gydF4y2Ba酿酒酵母gydF4y2Ba在实践中,methylotrophgydF4y2Ba毕赤酵母属pastorisgydF4y2Ba(gydF4y2BaKomagataella phaffiigydF4y2Ba)是一种越来越受欢迎的选择对重组蛋白生产主机。主要是,这归因于酵母高密度增长的强大能力,相对较少的分泌内源性分泌蛋白质,和非常严格的可用性压抑,非常强大的诱导启动子来自酵母甲醇代谢基因gydF4y2Ba37gydF4y2Ba,gydF4y2Ba38gydF4y2Ba。SECRiFY使用的适应的关键gydF4y2Bap . pastorisgydF4y2Ba是发展高效大规模修改协议吗gydF4y2Bap . pastorisgydF4y2Ba转换,导致改善转换效率2 - 3数量级(“方法”和补充图。gydF4y2Ba5gydF4y2Ba)。虽然我们以前观察到轻微的偏见探测碎片在丰富和耗尽在我们的类gydF4y2Ba酿酒酵母gydF4y2Ba飞行员屏幕,减少PCR扩增循环在图书馆一代测序基本上消除了这一趋势,虽然小倾斜发生在克隆和测序还观察(补充图。gydF4y2Ba6gydF4y2Ba)。为gydF4y2Bap . pastorisgydF4y2Ba屏幕呈现在这里,我们首先生成一个新的片段库稍大的插入片段大小池转录组的四个不同的人类细胞系(SK-N-SH_RA, GM12878、HepG2 MCF-7)来自不同人体组织(大脑、血液、肝脏和乳腺),选择最大化表达了人类基因的数量根据编码转录组数据gydF4y2Ba39gydF4y2Ba。我们的高效转换gydF4y2Bap . pastorisgydF4y2Ba生成一个图书馆,估计9.8×10的多样性gydF4y2Ba6gydF4y2Ba克隆。平均在三个复制屏幕,4.06%±0.68%的细胞从这个库是国旗gydF4y2Ba+gydF4y2BaV5gydF4y2Ba+gydF4y2Ba(补充图。gydF4y2Ba7gydF4y2Ba),占频繁出现的多拷贝插入(补充图。gydF4y2Ba8gydF4y2Ba),表明,12.18%在坐标系的片段显示,因此,潜在的secretable。测序未排序后细胞和细胞碎片的1轮mac和1轮的流式细胞仪,每复制我们检测±150万独特的片段,在丰富protein-displaying图书馆,在non-enriched图书馆开始,或在两个,覆盖38.38%±2.25%的人类规范的转录组至少有三个读取(补充表gydF4y2Ba7gydF4y2Ba- - - - - -gydF4y2Ba9gydF4y2Ba)。215004年在坐标系中发现三个复制碎片,4.84%是归类为不断丰富,71%和65.75%,持续减少,导致复制(补充表之间的一致性gydF4y2Ba10gydF4y2Ba补充图。gydF4y2Ba9gydF4y2Ba)。gydF4y2Ba

总的来说,这些数据表明,SECRiFY是可再生的和可靠的方法来估计secretability的蛋白质片段。现在这个数据集代表了迄今为止最大的资源在真核secretability蛋白质碎片。gydF4y2Ba

Secretable片段更灵活和无序gydF4y2Ba

正如胞质蛋白表达受到各种各样的DNA,信使rna,蛋白质序列或结构特点及其复杂的相互影响gydF4y2Ba40gydF4y2Ba,gydF4y2Ba41gydF4y2Ba,gydF4y2Ba42gydF4y2Ba,gydF4y2Ba43gydF4y2Ba分泌的多肽将取决于多个参数的组合,其中的一些独特的环境和QC相关机械的ER。甚至在简单的总体平均水平参数已经在我们secretable vs耗尽蛋白质片段集合,几个有趣的观察了我们的数据。gydF4y2Ba

我们首先检查是否secretable片段与枯竭的不同概率形成二级结构。最大化特性预测的准确性,片段大小和精确匹配过滤Uniprot蛋白质,和浓缩到一个明确的统一的子集序列,以减少冗余序列(见“方法”)。二级结构预测的综合子集表明secretable片段最突出的倾向较低α-helical形式结构(gydF4y2BapgydF4y2Ba= 2.95×10gydF4y2Ba−124gydF4y2BaMann-Whitney-Wilcoxon测试)(无花果。gydF4y2Ba3gydF4y2Ba补充图。gydF4y2Ba11个gydF4y2Ba)。实际上,当集群重叠序列代表片段和映射这些解决结构在PDB(大约50%的代表片段,补充图。gydF4y2Ba12gydF4y2Ba),反向secretability同样与α-helical内容(无花果。gydF4y2Ba3 bgydF4y2Ba补充图。gydF4y2Ba13gydF4y2Ba)(gydF4y2BapgydF4y2Ba= 2.35×10gydF4y2Ba−8gydF4y2BaMann-Whitney-Wilcoxon测试)。相比之下,β-sheet内容只有最小的差异(图gydF4y2Ba3 a, bgydF4y2Ba)。gydF4y2Ba

图3:secretable中的模式片段。gydF4y2Ba
图3gydF4y2Ba

一个gydF4y2BaDynamine二级结构的预测倾向在整合丰富的子集(gydF4y2BangydF4y2Ba= 2005)和耗尽(gydF4y2BangydF4y2Ba= 19618)碎片gydF4y2Ba酿酒酵母gydF4y2Ba。丰富的片段螺旋含量低(gydF4y2BapgydF4y2Ba= 2.95×10gydF4y2Ba−124gydF4y2Ba)和更高的随机线圈(gydF4y2BapgydF4y2Ba= 1.99 * 10gydF4y2Ba−127gydF4y2Ba)的倾向,这进一步证实了映射代表片段在PDB(α-helix已知结构gydF4y2BapgydF4y2Ba= 2.35×10gydF4y2Ba−8gydF4y2Ba,随机线圈gydF4y2BapgydF4y2Ba= 1.24×10gydF4y2Ba−4gydF4y2Ba)。gydF4y2BabgydF4y2Baβ片差异不明显(gydF4y2BapgydF4y2Ba= 1.26×10gydF4y2Ba−3gydF4y2BaDynamine预测和gydF4y2BapgydF4y2BaPBD映射= 0.02)。丰富的片段:gydF4y2BangydF4y2Ba= 3001,枯竭的片段:gydF4y2BangydF4y2Ba= 32434。gydF4y2BacgydF4y2Ba浓缩合并片段(gydF4y2BangydF4y2Ba= 2005)也比耗尽预测更动态的(gydF4y2BangydF4y2Ba= 19618)(gydF4y2BapgydF4y2Ba= 5.08×10gydF4y2Ba−118gydF4y2Ba)。gydF4y2BadgydF4y2Ba同样,预测疾病内容丰富碎片的总组(gydF4y2BangydF4y2Ba= 11625)明显高于在枯竭的片段(gydF4y2BangydF4y2Ba= 136531)(gydF4y2BapgydF4y2Ba< 2.2×10gydF4y2Ba−16gydF4y2Ba)。双面Mann-Whitney-Wilcoxon测试(gydF4y2Ba一个gydF4y2Ba- - - - - -gydF4y2BadgydF4y2Ba)。*gydF4y2BapgydF4y2Ba< 0.05,* *gydF4y2BapgydF4y2Ba< 0.01,* * * *gydF4y2BapgydF4y2Ba< 0.0001。gydF4y2BaegydF4y2Ba两个重叠的碎片的人类蛋白质EDIL3 secretability不同结果。早期折叠(EF)倾向的预测表明,枯竭的片段区域E2, T3 / E3和R4可能枯竭的地区驾驶折叠片段,和缺乏这些地区丰富的片段导致secretability改变。箱形图显示分布的平均螺旋,表,或线圈氨基酸残基的倾向,总结每个片段(合并)。须反映最大值或各自的四分位值* 1.5四分位范围,哪个是更少。切口显示基于中值的置信区间四分位范围+ / - 1.57倍除以根号点的数量。如果两个盒子的等级不重叠,这是强有力的证据表明,他们的中位数明显不同。gydF4y2Ba

自secretable碎片也往往更容易形成随机线圈比耗尽片段,基于二级结构预测(gydF4y2BapgydF4y2Ba= 1.99×10gydF4y2Ba−197gydF4y2BaMann-Whitney-Wilcoxon测试)以及PDB映射(gydF4y2BapgydF4y2Ba= 1.24×10gydF4y2Ba−4gydF4y2BaMann-Whitney-Wilcoxon测试)(无花果。gydF4y2Ba3 a, bgydF4y2Ba),我们进一步研究了动力和内在障碍与secretability支柱。正如预测的那样使用DynaminegydF4y2Ba44gydF4y2Ba,gydF4y2Ba45gydF4y2Basecretable碎片明显更加灵活(gydF4y2BapgydF4y2Ba= 5.08×10gydF4y2Ba−118gydF4y2BaMann-Whitney-Wilcoxon测试)(无花果。gydF4y2Ba3 cgydF4y2Ba补充图。gydF4y2Ba14个gydF4y2Ba)。障碍对完整的secretable vs耗尽集计算快速gydF4y2Ba46gydF4y2Ba也证实了更高的平均内在障碍内容secretable片段(gydF4y2BapgydF4y2Ba< 2.2×10gydF4y2Ba−16gydF4y2BaMann-Whitney-Wilcoxon测试)(无花果。gydF4y2Ba3 dgydF4y2Ba补充图。gydF4y2Ba15gydF4y2Ba)。符合这一点,平均而言,碎片从两个子集出现构图有偏见。secretable一个更大的部分片段有更高比例的带负电荷的残留物和势函数,和疏水性降低趋势(补充图。gydF4y2Ba16gydF4y2Ba)。可能,这增加了障碍secretable片段反映出非结构化片段序列,通常缺乏暴露疏水氨基酸是错过了ER陪伴,可以随后下游旅行。尤其引人注目,因为内源性分泌系统在人类和酵母都是蛋白质,平均而言,比整个蛋白质组无序,当考虑总体障碍内容(gydF4y2BapgydF4y2Ba< 2.2×10gydF4y2Ba−16gydF4y2Ba和gydF4y2BapgydF4y2Ba= 2.46×10gydF4y2Ba−5gydF4y2Ba分别地。,Fisher exact test) as well as absolute number of disordered amino acids (pgydF4y2Ba< 2.2×10gydF4y2Ba−16gydF4y2Ba和gydF4y2BapgydF4y2Ba= 9.44×10gydF4y2Ba−10gydF4y2Ba分别地。,Fisher exact test) (Supplementary Tables11gydF4y2Ba- - - - - -gydF4y2Ba12gydF4y2Ba),这表明进化counterselection。gydF4y2Ba

增加上述结果的保真度,所有功能浓缩观察被复制gydF4y2Bap . pastorisgydF4y2BaSECRiFY屏幕(补充表gydF4y2Ba7gydF4y2Ba- - - - - -gydF4y2Ba10gydF4y2Ba,补充无花果。gydF4y2Ba6gydF4y2Ba- - - - - -gydF4y2Ba18gydF4y2Ba)。此外,我们的结论保持不变在选择替代标准定义secretable vs耗尽片段集,说明我们的观察的鲁棒性。gydF4y2Ba

与机器学习硅片secretability预测gydF4y2Ba

我们SECRiFY方法生成secretability数据规模预测机器学习分类器的训练变得可行。研究存在歧视性的特性的数据集,我们研究了两种截然不同的方法:一个基于特性工程一起梯度提高决策树建模gydF4y2Ba47gydF4y2Ba,深入学习方法基于卷积神经网络(cnn)gydF4y2Ba48gydF4y2Ba。gydF4y2Ba

梯度提高分类器需要一个固定的输入的大小。因此,一系列的手工设计输入特性提出了基于物理化学性质,氨基酸序列长度和频率。十个人分类器训练使用不同的属性,并使用另一个梯度构造了一个整体的提高了分类器的单个分类器的输出作为输入。深度学习方法涉及CNN一个炎热的编码作为输入,紧随其后的是三个街区的卷积,马克斯•池和辍学层。我们探索了不同的策略来处理变量输入的大小,因为这是不支持的标准CNN架构。全球最大池层产生最好的结果。这一层最终连接到一个致密层,其次是一个输出层softmax。gydF4y2Ba

片段短于50个氨基酸被移除的gydF4y2Ba酿酒酵母gydF4y2Ba和gydF4y2Bap . pastorisgydF4y2Ba数据集,因为这些可能不够长正确折叠,旨在缓和他们的相关性。使用限制性10倍交叉验证方案,我们确保蛋白质片段来自同样的基因被包括在相同的褶皱,我们比较了分类器基于接受者操作特征曲线下的面积(AUROC)。梯度增加实现了AUROC 0.781和0.772的gydF4y2Ba酿酒酵母gydF4y2Ba和gydF4y2Bap . pastorisgydF4y2Ba数据集,分别,而cnn AUROCs实现相同的大小,(图0.779和0.768。gydF4y2Ba4gydF4y2Ba)。分类器的分类结果从而证实特色的存在在secretable和减少数据的子集。我们观察到很强的相关性之间的两种方法的预测值,皮尔森相关系数为0.810和0.887在各自的数据集(图。gydF4y2Ba4 bgydF4y2Ba),这表明,两个模型数据中学会使用类似的特色。gydF4y2Ba

图4:机器学习secretability预测。gydF4y2Ba
图4gydF4y2Ba

一个gydF4y2Ba评价(AUROC表示)的梯度增加(GB)和卷积神经网络(CNN,随机选择一个模型训练模型)的十个方法,以及整体的平均预测。gydF4y2BabgydF4y2BaGB和CNN的预测值之间的相关性模型。Secretable数据样本所示红色,耗尽蓝色的样品。gydF4y2BacgydF4y2Ba平均贡献个人的残留物时发生在序列的不同部分。对于每个序列在一个测试集,对积极的预测贡献(secretable)计算为每个单独的残渣。然后规范化的贡献,绝对值的贡献在序列平均增加100。gydF4y2Ba

使用归因特征重要性分析方法导致的决定令人信服的见解CNN(图。gydF4y2Ba4 c, dgydF4y2Ba)。聚合的个体归因地图上的氨基酸残基水平表明,个人在secretability残留的影响在很大程度上是独立的序列中的位置。引人注目的是,有一个积极的倾向较小的残留,符合我们的生物物理预测随机线圈更容易形成secretable碎片。带负电荷的残留物似乎也大大有助于secretability,确认模式我们捡起看简单的平均参数在整个数据集。类似地,观察负偏压对所有疏水氨基酸,肯定我们以前的观察。gydF4y2Ba

我们进一步证实了我们的预测模型的普遍性测试他们的性能在一个独立的数据集组成的片段不断丰富或耗尽在仅仅两个复制而不是三(补充表gydF4y2Ba15gydF4y2Ba,gydF4y2Ba19gydF4y2Ba)。这些碎片最初排除最大化secretability信心,要么是因为他们没有达到2倍变化阈值(设置),或者因为变化的方向(浓缩或枯竭)反对别人的(B),在三个复制。我们现在训练的梯度增加模型和cnn的原始数据集(之前用于交叉验证),在独立的数据和评估。设置一个AUROC (Sc_2consistent_1uncertain和Pp_2consistent_1uncertain)仅略低于交叉验证,价值高达0.750(0.781相比,交叉验证)gydF4y2Ba酿酒酵母gydF4y2Ba0.772和0.770(相比,交叉验证)gydF4y2Bap . pastorisgydF4y2Ba。同时,预测集B (Sc_2consistent_1opposite和Pp_2consistent_1opposite)被证明是不准确的,AUROC高达0.612和0.640,分别。这个预测精度下降是按照数据质量两组之间的差异,作为一个相反的观察在第三复制(B组)破坏标签的可信度分配是基于两个一致的复制。分类阈值之间的数据和第三个复制(设定)似乎并没有受到这个。总的来说,这些发现证实的价值需要不断丰富或耗尽的片段在机器学习实验,并重申我们的机器学习模型的有效性。gydF4y2Ba

Secretable碎片预计在某些折叠和域gydF4y2Ba

尽管上述结果表明secretable碎片丰富灵活或无序链,已知特性影响ER折叠可能会影响这些碎片的secretability褶皱。我们首先假设的存在增加N-glycosylation sequons或者不均匀的半胱氨酸可以支持ER保留片段,但是我们没有观察到明显的差异数量的半胱氨酸或N-glycosylation sequons在我们的数据集(补充图。gydF4y2Ba16 f, ggydF4y2Ba)。此外,分泌和减少碎片没有显著预测不同倾向向折叠结构(EFoldMine崩溃gydF4y2Ba49gydF4y2Ba预测,补充图。gydF4y2Ba14 bgydF4y2Ba)。尽管如此,在选择耗尽的情况下,丰富的片段重叠在同一个蛋白质序列,区域的存在与否是最有可能快速折叠往往与secretability(无花果。gydF4y2Ba3 egydF4y2Ba)。gydF4y2Ba

有趣的是,尽管缺乏全球预测折叠倾向的差异,我们注意到明显的差异预测蛋白质折叠和域架构代表在两个片段组。映射到已知结构的碎片在PDB, secretable碎片富含复杂扭曲的三明治和β折叠而枯竭的片段,这表明这些折叠可能分泌环境中更稳定,而相反的蛋白质,例如,一个α马蹄架构(补充表gydF4y2Ba13gydF4y2Ba数据Figshare链接,在“方法”)。同样,某些领域,包含了如AAA18-domain (PF13238),更突出丰富碎片比枯竭的片段,虽然许多典型的胞质域如核糖体蛋白域或tetratricopeptide重复(TPR, PF13181)被发现只在枯竭的片段(Figshare链接“方法”中的数据,参见补充图。gydF4y2Ba18gydF4y2Ba)。这说明序列——和fold-contextual模式的特性仍然包含太多的信息,不是明显的从平均参数。gydF4y2Ba

与内源性分泌蛋白质secretability并不相关gydF4y2Ba

大多数模式发现富含secretable碎片不一再内源性分泌蛋白中。因此,我们进一步评估是否secretable的人类蛋白质片段衍生,在分泌蛋白浓缩。因为许多蛋白质产生secretable和枯竭的碎片在我们的屏幕,我们只认为这些蛋白质不枯竭的碎片被发现。在这两个gydF4y2Ba酿酒酵母gydF4y2Ba和gydF4y2Bap . pastorisgydF4y2Ba屏幕,分泌蛋白质的比例(即。,with a signal peptide in the endogenous setting) in this set was not significantly higher than the fraction of secretory proteins in the human proteome (Fisher’s one-sided exact test,pgydF4y2Ba= 0.9183 (gydF4y2Ba酿酒酵母gydF4y2Ba),gydF4y2BapgydF4y2Ba= 0.421 (gydF4y2Bap . pastorisgydF4y2Ba),表gydF4y2Ba1克ydF4y2Ba)。高度secretable片段之间的脱节和内源性分泌蛋白可能反映出特性,确定最高效率通过分泌系统并不是最重要的组件为分泌蛋白的进化选择压力。gydF4y2Ba

表1分泌secretable蛋白质的浓缩。gydF4y2Ba

讨论gydF4y2Ba

尽管巨大的进步领域的重组蛋白生产、异种的分泌尚无法预测。更深入地理解错综复杂的方式不同的过程集成生产的全套蛋白质分泌系统,不同的,只是慢慢浮现。虽然模型研究分泌蛋白导致实质性的进展,更需要全球的方法来获得更深刻和全面表征分泌的因素的影响。gydF4y2Ba

我们SECRiFY蛋白质的方法评估secretability proteome-wide domain-sized分辨率规模和酵母。为此,灵感来自发展领域的大规模并行测序图书馆建设和蛋白质工程的随机方法,我们首先开发了一个简化的方法定向克隆,建设规范化,随机cDNA片段文库。这种组合的特性使我们屏幕secretability人类蛋白质组的一个更高的比先前的研究规模和深度gydF4y2Ba17gydF4y2Ba,gydF4y2Ba50gydF4y2Ba,gydF4y2Ba51gydF4y2Ba。推而广之,这种类型的库可能有价值的替代在片段筛选有益的其他应用程序,如高通量蛋白质interactomics。gydF4y2Ba

SECRiFY,酵母表面展示这些库筛选结合高效细胞分类和深度可以有效隔离和识别蛋白质片段测序,通过酵母分泌系统。因此,我们证明了secretability蛋白质片段可以验证整个蛋白质组实验在一个高效、系统性、高通量和可再生的方式。虽然我们在这里使用了人类蛋白质组testcase,我们的方法是通用的,可以用于任何真核屏幕,或细小,甚至原核蛋白质组。生成数据库,我们已经在这工作构成了迄今为止的最大资源yeast-secretable人类的蛋白质片段。值得注意的是,使用一个梯度增加工程,基于特征的方法和一个端到端可训练的卷积神经网络方法,我们实现了一个AUROC高达0.790gydF4y2Ba酿酒酵母gydF4y2Ba0.777,gydF4y2Bap . pastorisgydF4y2Ba。实际上,这意味着secretable和枯竭的片段具有属性,允许歧视,即使没有先验知识的性质。这种公正的方法证实了我们的假说驱动的生物物理特性的观察与影响secretability二级结构和灵活性。Secretability的确是一个蛋白质序列的可学的特征。最终,application-focus实现SECRiFY有利于重组蛋白质表达和新创的设计。gydF4y2Ba

从基本的生物学的角度来看,很可能SECRiFY将提供一种方法来描述基质分泌系统进程的范围调节分泌蛋白通过真核分泌系统proteome-wide的方式。这补充现有的方法,如核糖体剖析gydF4y2Ba52gydF4y2Ba,处理蛋白质生物起源之前通过分泌系统。gydF4y2Ba

我们的屏幕,联合假说驱动的和公正的数据挖掘的数据,发现,secretableα-helical片段往往是少,更灵活,更内在无序比碎片没有明显的显示。监护人负责分泌系统质量控制通常是准备识别主要暴露疏水延伸gydF4y2Ba53gydF4y2Ba,gydF4y2Ba54gydF4y2Ba,gydF4y2Ba55gydF4y2Ba,所以可以想象,灵活但极地和带电碎片会避免这些交互和细胞壁结合快速进展。有限的蛋白水解作用测量最近还证实了热稳定性- sensing逆相关的内在障碍,α-helical二级结构和天冬氨酸含量gydF4y2Ba56gydF4y2Ba。虽然这些测量涉及蛋白质在细胞溶解细胞的内源性上下文,和缺乏数据集重叠杜绝secretability和热变性的直接比较,这将是有趣的调查secretability和稳定性之间的关系。即使我们的结果显示一个明确的障碍和secretability之间的相关性,为有序蛋白质分泌系统的质量控制机制通常会有效地去除展开或不稳定的蛋白质。的确,最近有限的已知的蛋白质水解屏幕小蛋白质域在PDB或建议包含了结构表面展示域定义有一个整体稳定性高的分数gydF4y2Ba57gydF4y2Ba。这补充我们观察到secretable片段更频繁地映射到特定的折叠或域,和更少的经常给别人。虽然他们的实际结构还有待实验确定,这暗示了一个有意义的角色在secretability fold-contextual模式。gydF4y2Ba

片段检测能力的影响也可能导致观察到的浓缩的天冬氨酸和谷氨酸。Phosphomannose酵母细胞壁的蛋白,赋予它一个净负电荷,可能被带负电荷的片段显示,导致更有效的抗体染色由于增加了可访问性。尽管脯氨酸蛋白质通常是局部细胞核或胞浆gydF4y2Ba58gydF4y2Ba,并与核糖体放缓有关gydF4y2Ba59gydF4y2Ba,势函数的内在能力“锁”构象或减少构象自由增强分泌蛋白稳定,因此,显示和分泌。Polyproline或pro-rich延伸也知道图案各种各样的其他蛋白质绑定gydF4y2Ba27gydF4y2Ba,gydF4y2Ba60gydF4y2Ba,gydF4y2Ba61年gydF4y2Ba;因此,人类的氧化还原酶ERp57结合calnexin和calreticulin pro-rich主题,和peptidyl-prolyl异构酶通常在复合物与多个陪伴。函数,也用作看门人残留物对聚合gydF4y2Ba62年gydF4y2Ba,也许通过扩展,也对退化,因此显示。gydF4y2Ba

Secretable碎片不丰富分泌蛋白。SECRiFY检测分泌在片段级别,可能导致影响全身蛋白质分泌一些功能无法实现。然而,缺乏相关还突显出,SECRiFY评估secretability,即。,the capacity to be secreted, rather than actual endogenous cellular localization to the secretory system. Indeed, just like most proteins are only marginally stable, endogenous secretory proteins evolved for function, not secretability.

可以说,我们的方法也有其局限性。随机分裂和大小选择方法并不能保证覆盖所有可能的领域,包括大约11%不连续域发现人类蛋白质组,但这个设计允许我们包含了其中的大部分。更重要的是,在当前SECRiFY设置,secretability测量序列的上下文的α交配因子prepro n端序列,和Sag1细胞壁蛋白质糖基。虽然我们和其他实验室的结果表明,几个单一的蛋白质,显示效率与相对分泌水平gydF4y2Ba63年gydF4y2Ba,gydF4y2Ba64年gydF4y2Ba,gydF4y2Ba65年gydF4y2Ba,gydF4y2Ba66年gydF4y2Ba,gydF4y2Ba67年gydF4y2Ba,它不能被完全排除,至少对某些片段,领袖序列和±300氨基酸Sag1锚可能影响不同片段折叠、溶解度、稳定性。在gydF4y2Ba大肠杆菌gydF4y2Ba融合大量蛋白质,如相扑,gydF4y2Bat . harzaniumgydF4y2Ba纤维素绑定域(CBD),或麦芽糖结合蛋白(MBP)是一种常用的策略来促进“乘客溶解”,虽然又取决于蛋白质的影响gydF4y2Ba68年gydF4y2Ba,gydF4y2Ba69年gydF4y2Ba。考虑翻译的矢量性质,c端融合,一样在我们的设置中,仍然是通常被视为扰乱低于一个氨基端融合,尽管这不是绝对的。Sag1也是GPI-anchored蛋白质、影响途径进入急诊室gydF4y2Ba70年gydF4y2Ba,gydF4y2Ba71年gydF4y2Ba,gydF4y2Ba72年gydF4y2Ba。prepro领袖同样序列,多步骤的处理和对翻译后易位的偏好gydF4y2Ba73年gydF4y2Ba,gydF4y2Ba74年gydF4y2Ba,gydF4y2Ba75年gydF4y2Ba可能偏见secretability某些片段。还有待决定是否会出现类似的模式与不同的分泌领导人,锚、推动者、翻译区域,或增长的条件。gydF4y2Ba

显示也强加限制方法的动态范围,有一个上限的细胞壁可以容纳的分子数。一般来说,这是在大约10的范围gydF4y2Ba4gydF4y2Ba分子/细胞gydF4y2Ba76年gydF4y2Ba,gydF4y2Ba77年gydF4y2Ba。因此,扰动影响分泌效率在这些更高的范围可能会有遗漏。gydF4y2Ba

SECRiFY在所有,我们这里显示片段序列库允许获得大规模并行概念验证评估通过分泌系统,提供学习的机会secretability哪些特性影响,必须遵守什么规则序列通过酵母分泌系统成功的运输。我们预料我们的方法和下一代衍生品将是很有价值的蛋白质工程和分泌系统的基本研究。gydF4y2Ba

方法gydF4y2Ba

质粒构建gydF4y2Ba

所有限制消化,pcr,质粒准备,和DNA方法进行了净化进行根据试剂/除非另有声明设备制造商的指导方针。转换化学主管gydF4y2Ba大肠杆菌gydF4y2BaMC1061细胞是由热休克,细胞被镀上磅琼脂(5 g / l bacto酵母提取物,10 g / l bacto胰蛋白胨,10 g / l氯化钠,15 g / l琼脂)与适当的抗生素,除非另行通知。在处理包含zeocin电阻盒的质粒,gydF4y2Ba大肠杆菌gydF4y2Ba全球细胞被使用和低盐镀磅(5 g / l bacto酵母提取物,10 g / l bacto胰蛋白胨,5 g / l氯化钠,15 g / l琼脂)包含50μg /毫升zeocin琼脂板。初始限制消化后菌落PCR /插入测序检查构建质粒,最后质粒VIB完全测序的基因测序设备在使用前利用Sanger测序。gydF4y2Ba

的gydF4y2Ba酿酒酵母gydF4y2Ba表面显示质粒(pSSDSfiIPacI-FLAGV5-Gal1)是由recombination-based组装3片段:线性化p415-Gal1-noLac向量骨干(gydF4y2BaGAL1gydF4y2Ba启动子,gydF4y2BaCYC1gydF4y2BaTT,岑/农业研究所,gydF4y2BaLEU2gydF4y2Ba标记)的PCR产物pBluescript-ScCatch (FLAG-ministuffer-V5-Sag1)的PCR产物MFα1 prepro pGal1-MF信号。由重叠延伸PCR PCR产品融合,由此产生的产品是重组与线性化向量30分钟RT CloneEZ反应(GenScript)和转换gydF4y2Ba大肠杆菌gydF4y2Ba。促进后续克隆pSSDSfiIPacI-FLAGV5-Gal1,小填充物之间的国旗和V5进一步通过吉布森大会,取而代之的是大量填充物片段生成pSSDSfiIPacI-FLAGV5-Gal1-stuffer。为此,pSSDSfiIPacI-FLAGV5-Gal1消化的克分子数相等的金额是SfiI-site含有益生元(A136)使用限制性内切酶SfiI(内)50°C。反应是冷却,奶嘴(内)补充道,和消化继续在37°C 1 h。纯化向量片段结合PCR扩增填充物片段为吉布森组装。同样,一个insertless显示向量,Sag1是之前在坐标系国旗和V5标签,也是构造函数为空显示的控制后续的流式细胞仪实验(pSSDSfiIPacI-FLAGV5-Gal1-EV)。pSSDSfiIPacI-FLAGV5-Gal1因此消化BamHI / XhoI (Promega)和纯化骨干结合放大FLAG-V5吉布森组装反应。对于Sag1-less secretable表达式,我们还构建了一个向量相似pSSD但缺乏Sag1编码序列。这个质粒,pSCASfiIPacI-FLAGV5-Gal1,是由PCR、磷酸化和降级。pSCASfiIPacI-FLAGV5-Gal1-stuffer长stuffer-containing版本的质粒,使用相同的构造过程是pSSDSfiIPacI-FLAGV5-Gal1-stuffer建设。gydF4y2Ba

的gydF4y2Bap . pastorisgydF4y2Ba表面显示向量pPSDZeoSfiIPacI-FLAGV5-AOX1由切换的pPSDSfiIPacI-FLAGV5-AOX1骨干pPICZ骨干通过HindIII NotI消化(Promega),从凝胶净化,pPICZ脱磷酸作用的骨干,结扎。向量pPSDZeoSfiIPacI-FLAGV5-AOX1-stuffer此外由插入序列的一部分从pPICZαGalMycHisα-galactosidase国旗和V5之间使用SfiI /奶嘴限制消化和结扎。insertless显示向量,Sag1是之前在坐标系国旗和V5标签,也是构造函数为空显示的控制后续的流式细胞仪实验(pPSDZeoSfiIPacI-FLAGV5-AOX1-EV)。gydF4y2Ba

酵母菌株gydF4y2Ba

酿酒酵母gydF4y2Ba应变R1158 (gydF4y2Ba马塔URA3gydF4y2Ba::gydF4y2BaCMV-tTA his3gydF4y2BaΔgydF4y2Ba1 leu2gydF4y2BaΔgydF4y2Ba0,met15gydF4y2BaΔgydF4y2Ba0gydF4y2Ba)是来自开放的生物系统,冷冻,偏在−15%甘油80°C,和生长在SD-Ura(0.67%酵母氮基w / o氨基酸,硫酸铵;2%葡萄糖;0.077% CSM-Ura辍学混合;17 g琼脂;pH值5.8)板,除非特别注明。gydF4y2Ba

所有gydF4y2Ba毕赤酵母属pastorisgydF4y2Ba工作中执行应变GS115 (gydF4y2Bahis4gydF4y2Ba)gydF4y2Ba78年gydF4y2Ba生长在YPD媒体(10 g / L酵母提取物,20 g / L葡萄糖,20 g / L蛋白胨)补充了各种浓度的zeocin和各种小灵通表示,并补充17 g / L琼脂板。所有盘子总是刚投在4°C或保持在黑暗中最大的一周。gydF4y2Ba

人类细胞系gydF4y2Ba

HEK293T细胞培养在杜尔贝科37°C的修改鹰介质(DMEM)补充10% (v / v)胎牛血清,2毫米谷酰胺和110 mg / l丙酮酸钠。所有细胞培养期间PPLO比较消极。细胞被劈胰蛋白酶/ 1/20 EDTA confluency每3天或者当达到最大值80%。gydF4y2Ba

HepG2的细胞株HEK293T MCF7-AZ, GM12787, SK-N-SH从VIB IRC细胞获得银行(HepG2、MCF7-AZ和SK-N-SH)或柯瑞尔研究所(GM12787)。所有细胞都PPLO负在栽培和种植过程中没有使用抗生素在37°C公司5%gydF4y2Ba2gydF4y2Ba湿润的孵化器。细胞分裂时达到70% confluency (HepG2, MCF7-AZ SK-N-SH_RA)或当达到最大值。100万细胞/毫升(GM12878)。HepG2细胞生长在杜尔贝科的修改鹰介质(DMEM)补充10% (v / v)胎牛血清(FCS), 2毫米谷酰胺、丙酮酸钠10毫米,和100年μM非必需氨基酸。MCF7-AZ, G12878 SK-N-SH_RA细胞生长和传播UW编码细胞培养标准操作规程(gydF4y2Bahttp://genome.cse.ucsc.edu/ENCODE/protocols/cell/human/Stam_15_protocols.pdfgydF4y2Ba)。MCF7-AZ,这是鹰与10% FCS的基本媒介,2毫米谷酰胺,和100年μM非必需氨基酸;分裂与Accutase(热费希尔)。GM12878,这是在RPMI 1640 2毫米谷酰胺,FCS的15%。SK-N-SH_RA,未分化SK-N-SH细胞生长在RPMI 1640 2毫米谷酰胺,10% FCS, 10毫米丙酮酸钠和分裂Accutase(热费希尔)。在收获之前,细胞治疗与介质包含6μM 48 hgydF4y2Baall-transgydF4y2Ba视黄酸与神经细胞表型分化。gydF4y2Ba

人类cDNA片段文库建设gydF4y2Ba

人类细胞系总RNA分离使用Innuprep RNA MIDI直接工具包(德国耶拿分析仪器公司)根据制造商的指示,此外消化潜在剩余基因组DNA与DNase(已经没有DNA涡轮细胞装备,Ambion) 1 h在37°C。在安捷伦生物分析仪RNA完整性检查;所有样品总有RIN 9或更高。图书馆的屏幕gydF4y2Bap . pastorisgydF4y2Ba,样品从HepG2 MCF7-AZ GM12878, SK-N-SH_RA细胞系在等量汇集。接下来,多聚腺苷酸gydF4y2Ba+gydF4y2Ba记录被选中的Oligotex mRNA midi设备(试剂盒)和沉淀一夜之间在100% RNase-free EtOH−20°C(3×初始体积)与RNase-free NaOAc pH值5.2(0.3米决赛)包含RNase-free糖原(100 ng /μl决赛)。多聚腺苷酸gydF4y2Ba+gydF4y2Ba二十三RNA被恢复成粒1 h在14000×4°CgydF4y2BaggydF4y2Ba与70% RNase-free EtOH、洗涤,resuspended RNase-free水(Ambion)。样本进一步枯竭的核糖体RNA Ribo-Zero黄金(人/鼠标)磁工具包(中心)制造商的指示后,但是使用7.5μg聚gydF4y2Ba+gydF4y2BaRNA /反应。Ribodepleted样本然后纯化RNeasy MinElute清理工具(试剂盒)。RNA是此外稀释到37.5 ng /μl 16μl反应,并与1.8μl锌分散gydF4y2Ba2 +gydF4y2Ba(100毫米ZnCl碎片缓冲区gydF4y2Ba2gydF4y2Ba在100毫米Tris-HCl pH值7.0)PCR机加热盖1分钟45 s的70°C。这些条件进行了优化产生碎片Poisson-distributed长度约500个基点。分裂停止了1.8μl 0.5米EDTA pH值8.0,和样品池和再次纯化RNeasy MinElute清理工具(试剂盒)。RNA质量和大小分布监控每一步2100生物分析仪使用RNA 6000 pico芯片(安捷伦科技)。gydF4y2Ba

在后续步骤中,污染与环境人类基因组DNA是尽可能避免到适配器结扎后一步。支离破碎的RNA转录到双链cDNA使用Maxima H -双链cDNA合成装备(热费希尔科学)根据制造商的指示但交换第一条随机引物对我们nuclease-protected PacI-tagged随机引物(底漆A196,补充表gydF4y2Ba20.gydF4y2Ba)。核糖核酸酶治疗后,互补脱氧核糖核酸纯化使用RNase-free DNA清理珠子(AMPure XP珠子(Agencourt)或CleanPCR珠子(CleanNA),遵循制造商的指令)1.6:1比例珠子:样本(v / v)。互补脱氧核糖核酸是使用Pyrophage G-tailed 3137 DNA聚合酶挂式-(强光油灯)与0.2毫米dGTP反应和相应Pyrophage聚合酶缓冲为30分钟70°C。DNA清理后珠子(1.8×卷),G-tailed cDNA被绑定到SfiI-adapter (A188_F和A188_R)在1×快速结扎缓冲区和30 U / T4μl超纯DNA连接酶(酶),使用100 pmoles适配器/ 60μl反应,在室温下15分钟。在DNA样本纯化两次清理珠子(1.6×卷)。正常化之前,样品是用引物PCR扩增A141_F(最后的600海里),这与适配器,和1×KAPA HiFi HotStart混合(KAPA生物系统公司)通过变性3分钟在95°C,和20个周期98°C的20年代,67°C 15年代,30年代的72°C。纯化的DNA样本清理珠子(1.6×)和归一化堪察加螃蟹双特定核酸酶(DSN) (Evrogen)如Bogdanov et al。gydF4y2Ba31日gydF4y2Ba。短暂,每4μl反应,200 ng互补脱氧核糖核酸与DNase-free混合水和1×杂交缓冲(4×股票:200毫米消息灵通的pH值7.5和2 M氯化钠),在98°C变性为2分钟,允许hydridize 5 h在68°C PCR与加热盖机。避免样品冷却,加热2的互补脱氧核糖核酸结合5μl×DSN主缓冲区(Evrogen)和平衡在68°C 10分钟,之后0.5μl (1 DSN单位)的DSN酶补充说,消化所得25分钟在68°C。反应停止通过增加10μl预热2 x的EDTA停止解决方案(Evrogen),和短暂孵化后5分钟在68°C,样品是用20μl DNase-free水稀释。单链样本然后使用10μl PCR扩增模板每50μl反应1 x KAPA HiFi HotStart混合和底漆A141_F(最终600海里)(3分钟在95°C,和15个周期98°C的20年代,67°C 15年代,30年代72°C)。执行第二轮正常化后样本清理使用珠子(1.6×),使用相同的协议(杂交+ DSN消化+ PCR +珠清理)但允许杂交15 h和覆盖10μl矿物油的杂交反应蒸发。互补脱氧核糖核酸库大小分布监控每一步的过程在2100高灵敏度生物分析仪使用DNA芯片(安捷伦科技)。归一化效率则由qPCR比较一组参考基因的水平和不同的表达水平(gydF4y2BaGAPDHgydF4y2Ba(B002引物)gydF4y2BaRPL13AgydF4y2Ba(B005),gydF4y2BahmbgydF4y2Ba(B003),gydF4y2BaHPRT1gydF4y2Ba(B004),gydF4y2Ba真沸点gydF4y2Ba(B009),gydF4y2BaPIAS1gydF4y2Ba(B012),gydF4y2BaSTIM1gydF4y2Ba(B013),gydF4y2BaALDH4A1gydF4y2Ba(B014);看到底漆表)在非规范化,必须执行哪些操作标准化样品单轮规范化,两轮。所有样品包括控制稀释到5 ng /μl DNase-free水,最后10μl qPCR反应包含2.5 ng DNA, 1×SensiFast SYBR No-ROX qPCR混合(Bioline), 300 nM底漆和300海里反向引物。反应是运行在一个LightCycler 480(罗氏)与3分钟变性在95°C,紧随其后的是45的周期为3 s 95°C, 65°C 30年代(斜坡率2.5°C / s),并为1 s 75°C。融化曲线生成检查特异性的反应。gydF4y2Ba

人类cDNA克隆库和质粒库准备gydF4y2Ba

被克隆的互补脱氧核糖核酸片段库gydF4y2Ba酿酒酵母gydF4y2BapSSDSfiIPacI-FLAGV5-Gal1和gydF4y2Bap . pastorisgydF4y2Ba向量(pPSDZeoSfiIPacI-FLAGV5-AOX1表面显示gydF4y2Ba酿酒酵母gydF4y2Ba和gydF4y2Bap . pastorisgydF4y2Ba屏幕,resp)。使用SfiI /奶嘴限制消化和结扎制备规模。200μg向量一夜之间第一次消化与SfiI 50°C(内)CutSmart缓冲区(内)和相同摩尔量的SfiI-site含有益生元(A136)根据制造商的协议,在50μl整除。冷却到室温后,奶嘴(内)添加和消化被允许进行1 h在37°C。骨干乐队从琼脂糖凝胶纯化,脱去磷酸1 h在37°C使用不耐热的碱性磷酸酶FastAP(热科学),灭活后5分钟去磷酸化的75°C。互补脱氧核糖核酸库也消化顺序SfiI和奶嘴,没有A136益生元,和纯化NucleoSpin工具包(或DNA清洁和集中器500工具包(ZymoResearch)大规模方法进行了净化),并使用CleanPCR珠子脱盐。消化库和脱去磷酸向量结合在20:1摩尔比率与T4结扎DNA连接酶(热科学)使用提供的T4连接酶缓冲(整除,避免多个冻融循环),整除50μl在PCR反应板,一夜之间在16°C PCR与冷却机盖子。电穿孔之前,反应池,纯化超过1.4 h×CleanPCR珠子,筛选了在纯净水(3/8ths原始结扎反应体积),直到电穿孔和保存在冰。gydF4y2Ba

电穿孔,刚有条纹的gydF4y2Ba大肠杆菌gydF4y2BaMC1061 (gydF4y2Ba酿酒酵母gydF4y2Ba屏幕)或全球(gydF4y2Bap . pastorisgydF4y2Ba屏幕)细胞生长在5毫升的液体LB培养基(5 g / l bacto酵母提取物,10 g / l bacto胰蛋白胨,10 g / l氯化钠)在37°C 1天。固定文化是接种第二天早上新鲜1/100磅摇动烧瓶内的适当大小适当的通风,和成长而摇晃在37°C到ODgydF4y2Ba600年gydF4y2Ba0.5(约2小时)。文化是在冰上冷却至少30分钟,颗粒状在4000×15分钟gydF4y2BaggydF4y2Ba在4°C和冰冷的无菌水清洗两次(第一次使用1×原始文化卷,然后1/2×),每次造粒在4000×15分钟gydF4y2BaggydF4y2Ba在4°C。最后洗了1/50th原始文化的冰冷的无菌10%甘油,resuspend现在electrocompetent细胞在冰冷的无菌10%甘油(每200毫升600μl文化开始)。进行电穿孔在pre-chilled 96 -电穿孔板从BTX (ht - 200系统),使用40μl electrocompetent细胞与2.5μl纯化结扎反应(混合),与基因脉冲发生器电穿孔系统(BioRad)设置为200Ω,25μF的电容,电容扩展125μF,和2.5千伏的电压。细胞被立即转移和集中在SOC介质(5 g / l bacto酵母提取物,20 g / l bacto胰蛋白胨,0.5 g / l氯化钠,氯化钾2.5毫米,10毫米MgClgydF4y2Ba2,gydF4y2Ba20毫米葡萄糖设置为1毫升SOC /反应pH值7.0),并允许恢复1 h在37°C。串行稀释这些恢复细胞在琼脂板镀与适当的抗生素来评估转换效率,和其他文化传播在大琼脂+抗生素24.5厘米×24.5厘米生物测定菜(3 - 4毫升每道菜)使用塑料无菌drigalski刮刀。在16 - 24 h增长37°C孵化器,所有的殖民地都刮的琼脂和汇集。颗粒与无菌水清洗,重评估细胞数量和适当的质粒提取,手册中描述的质粒提取工具使用。从细菌中提取质粒库是使用一个或多个NucleoBond字母x Midi预备(Macherey-Nagel)或QIAfilter质粒Giga预备(试剂盒)和筛选了Tris-HCl pH值8.5。QIAfilter用Giga预备给整体最好的产量和纯度。所有反应和电穿孔缩放或重复。gydF4y2Ba

图书馆多样性估计假设等可能的变体中描述的博斯等。gydF4y2Ba79年gydF4y2Ba,即多样性D = DgydF4y2Ba马克斯gydF4y2Ba* (gydF4y2Ba\ (1 - {{{{{\ mathrm {e}}}}}} ^ {{\ mathrm - {T / D}} _{\马克斯}}\)gydF4y2Ba)与维gydF4y2Ba马克斯gydF4y2Ba最大的多样性(给予无限的转化株),和T转化株的数量。注意,这个数字并不能反映的概率随机选择的片段出现在图书馆,也不反映图书馆的完整性,而仅仅是最大多样性可能给出特定转化株的数量。我们人类的cDNA片段库,我们近似DgydF4y2Ba马克斯gydF4y2Ba= 5×10gydF4y2Ba7gydF4y2Ba1024年(假设一个归一化的因素和基于100个基点分辨率)。请注意,维gydF4y2Ba马克斯gydF4y2Ba大在现实碎片是随机的。为gydF4y2Ba酿酒酵母gydF4y2Ba屏幕上,我们获得了约2.66×10gydF4y2Ba6gydF4y2Ba大肠杆菌gydF4y2Ba转化株(转换效率1.21×10gydF4y2Ba5gydF4y2BaCFU /μg向量DNA)收集从72年大琼脂菜216年后转换反应,从而计算出2.59×10的多样性gydF4y2Ba6gydF4y2Ba质粒克隆。为gydF4y2Bap . pastorisgydF4y2Ba屏幕,我们一共获得了~ 1.28×10gydF4y2Ba7gydF4y2Ba大肠杆菌gydF4y2Ba转化株(平均转换效率约10gydF4y2Ba5gydF4y2BaCFU /μg向量DNA用于结扎反应)收集从318年大琼脂菜1148年后转换反应,从而计算出1.13×10的多样性gydF4y2Ba7gydF4y2Ba质粒克隆。gydF4y2Ba

酿酒酵母gydF4y2Ba图书馆的一代gydF4y2Ba

人类cDNA-surface质粒库转化为显示gydF4y2Ba酿酒酵母gydF4y2Ba应变R1158使用大规模高效LiAc / SS载体DNA /挂钩协议性质的论文中描述热休克方法Gietz SchiestlgydF4y2Ba80年gydF4y2Ba(120×规模)。一小部分细胞连续稀释,镀和成长SD-Leu-Ura琼脂板上28°C 3天来评估转化效率。其余的细胞被立即接种1/20 SD-Leu-Ura液体介质(6.7%酵母氮基w / o氨基酸,硫酸铵;2%葡萄糖;0.077% CSM-Leu-Ura辍学混合;pH值5.8)在摇动烧瓶适当大小的热休克后,和转化株被选为48小时30°C而颤抖。选择后,小整除的细胞连续稀释和镀YPD板(10 g / l酵母提取物,20 g / l蛋白胨,20 g / l葡萄糖,17 g / l琼脂)菌落pcr评估选择的效率。其余的图书馆是整除,冻结在−15%甘油80°C。根据需要转换被扩大或重复。gydF4y2Ba

使用的库在这个屏幕上,我们获得了3.68×10gydF4y2Ba6gydF4y2Ba酵母转化株(转换效率为3.06×10gydF4y2Ba5gydF4y2BaCFU /μg质粒DNA), DgydF4y2Ba马克斯gydF4y2Ba2.59×10gydF4y2Ba6gydF4y2Ba(质粒库多样性),估计这个酵母库的多样性是1.96×10gydF4y2Ba6gydF4y2Ba克隆。在这个领域,是司空见惯的gydF4y2Ba77年gydF4y2Ba,gydF4y2Ba81年gydF4y2Ba,gydF4y2Ba82年gydF4y2Ba,以确保复苏几乎所有克隆在下游的步骤中,我们总是一起工作至少10×尽可能多的细胞估计图书馆多样性。gydF4y2Ba

p . pastorisgydF4y2Ba优化转换过程gydF4y2Ba

质粒或质粒库中线性化AOX1启动子gydF4y2BaMssIgydF4y2Ba(美国伊普斯维奇内),检查完成消化在琼脂糖凝胶和纯化CleanPCR珠子(CleanNA)。我们修改了高效gydF4y2Bap . pastorisgydF4y2Ba电穿孔协议中描述的吴邦国委员长和LetchworthgydF4y2Ba83年gydF4y2Ba。简单地说,细胞从亚文化ODgydF4y2Ba600年gydF4y2Ba1.5,颗粒状在室温下1500×gydF4y2BaggydF4y2Ba5′,resuspended 200毫升无菌LiAc /德勤解决方案(100毫米LiAc, 10毫米德勤(从新鲜1 M股票),600毫米山梨糖醇,10毫米Tris-HCl pH值7.5)每250毫升的文化。悬架是孵化30′在28°C温柔摇(100 rpm)。球团矿(1500×gydF4y2BaggydF4y2Ba5′在4°C)随后洗3次与冰冷的无菌1 M山梨糖醇(37.5毫升每250毫升文化开始),并尽可能地在冰上。使用细胞最后重组在1 M冰冷的山梨糖醇(每250毫升1.875毫升开始文化)和保存在冰到电穿孔。电穿孔,80μl进行预处理gydF4y2Bap . pastorisgydF4y2Ba细胞混合100 ng-1μg脱盐的优化实验期间测试(范围),线性化图书馆DNA (MQ重组)在一个冰冷的0.2厘米电穿孔试管或电穿孔96孔板。这些混合electroporated 200Ω,25μF电容和电容125μF扩展,并使用基因1.5千伏的电压脉冲发生器电穿孔系统(美国大力神BioRad),连接到一个ht - 200板处理程序(美国Holliston BTX)高通量电穿孔。后立即电穿孔,1毫升的冰冷的YPD pH值8.0添加和管细胞转移到适当的烧瓶。的ODgydF4y2Ba600年gydF4y2Ba测量之前和之后在28°C 6 h与孵化复苏而颤抖。细胞随后镀上新鲜YPD pH值8.0琼脂板包含20μg /毫升zeocin使用玻璃珠,以确保均匀分散和种植3天在30°C。转换效率计算基于向量的数量每μg菌落的DNA,修正因子的增长发生在复苏。gydF4y2Ba

p . pastorisgydF4y2Ba图书馆的一代gydF4y2Ba

我们改变了线性化大人类cDNA-surface质粒库来显示gydF4y2Bap . pastorisgydF4y2Ba应变GS115使用上述优化图书馆的转型过程,使用96 - 184年转换好格式电穿孔试管(BTX) 1μg /转换。一小部分细胞电穿孔后连续稀释和恢复,镀和生长在新鲜YPD pH值8.0琼脂板包含20μg /毫升zeocin 2 - 3天在28°C为了评估转换效率。其余的细胞接种在液体1/25 YPD 20μg /毫升zeocin pH值8.0,和生长在28°C而摇晃2天。为了确定转化细胞的一部分,一个串行稀释所选择的文化是镀在大众化的YPD盘子和增长了2天菌落PCR的28°C。其余的细胞储存在−80°C和15%无菌甘油整除。修正为2.74×因素增长发生在复苏,转换效率约为1.23×10gydF4y2Ba5gydF4y2BaCFU /μg DNA,从而获得2,28日×10gydF4y2Ba7gydF4y2Ba转化株,估计最大9.8×10的多样性gydF4y2Ba6gydF4y2Ba克隆。gydF4y2Ba

至于gydF4y2Ba酿酒酵母gydF4y2Ba图书馆,我们总是一起工作至少10×尽可能多的细胞估计图书馆多样性。gydF4y2Ba

酿酒酵母gydF4y2Ba细胞分类gydF4y2Ba

第一轮排序,6.89×10gydF4y2Ba7gydF4y2Ba图书馆酵母细胞从冷冻复苏在10毫升SRaf-Leu-Ura整除(6.7%酵母氮基w / o氨基酸,硫酸铵;棉子糖2%;0.077% CSM-Leu-Ura辍学混合;pH值5.8)和成长为24小时28°C而颤抖。从板控制应变与FLAG-V5-Sag1接种5毫升SRaf-Leu-Ura和生长在同样的条件下。在OD诱导表达gydF4y2Ba600年gydF4y2Ba在10毫升= 5(库)或5毫升(控制应变)SRaf / Gal-Leu-Ura(6.7%酵母氮基w / o氨基酸,硫酸铵;棉子糖1%;超纯半乳糖1%;0.077% CSM-Leu-Ura辍学混合;pH值5.8)24 h,在28°C而颤抖。诱导的细胞球团从两个1.5毫升整除图书馆文化是储存在质粒提取−80°C。剩余的细胞被保存在冰或在4°C在整个染色过程。细胞第一次洗3×在冰冷的缓冲区(PBS EDTA + 1毫米,pH值7.2 + 1完成抑制剂EDTA-free平板(罗氏)每50毫升缓冲区,新鲜和过滤消毒),每次旋转在4°C 3分钟3000×g,并在OD染色gydF4y2Ba600年gydF4y2Ba与鼠单克隆anti-V5 = 4 (1/500, AbD Serotec MCA2892)和/或兔多克隆anti-FLAG (1/200, Sigma-Aldrich F7425)在冰冷的染色缓冲区(清洗缓冲+ 0.5毫克/毫升的牛血清白蛋白)在旋转轮45分钟在4°C,整除2毫升管。细胞能整除洗2×2毫升冰冷的染色缓冲区,和二次染色是山羊anti-mouse AF647-RPE(1/250,生活技术A20990)和/或山羊anti-rabbit AF488(1/500,生活技术A11008)和/或anti-mouse免疫球蛋白微(每毫升的细胞,50μl Miltenyi研究130-048-401),在一个旋转的轮子在黑暗中45分钟在4°C。细胞经历了mac浓缩在mac洗2 x缓冲区(mac BSA原液(Miltenyi研究)1/20 autoMACS清洗解决方案(Miltenyi研究)+ 1完成抑制剂EDTA-free平板(罗氏)每50毫升缓冲区,新鲜和过滤消毒)。mac浓缩了根据制造商的协议在一个LS列。洗脱后,细胞颗粒状3分钟在3000×g在4°C,并于350年恢复μl染色缓冲区。细胞样品没有经过浓缩和冰冷的染色洗2×缓冲区。所有样品都超过35μm细胞过滤器过滤帽前测量。流式细胞术和细胞排序进行MoFlo遗产分类器(贝克曼库尔特)伴随着FlowJo v10.1进行数据分析。在488纳米荧光团很兴奋,荧光收集到605年短传+ 530/40带通滤波器(AF488)和/或一个670/30的带通滤波器(AF647-RPE)。细胞被封闭在一个统一的SSC vs FSC单细胞的人口,和荧光象限盖茨被评为,补偿后,马克斯。 5% of cells of unstained and single stained controls appeared above the background. We sorted out roughly 350 000 MACS-enriched FLAG+gydF4y2BaV5gydF4y2Ba+gydF4y2Ba细胞每屏幕(> 10×图书馆多样性上映),添加9毫升SD-Leu-Ura +笔/喉炎的症状(6.7%酵母氮基w / o氨基酸,硫酸铵;2%葡萄糖;0.077% CSM-Leu-Ura辍学混合;pH值5.8 + 100 U /毫升青霉素和链霉素100μg /毫升(热费希尔科学)收集细胞的复苏。排序细胞增长了3天28°C而颤抖,和冷冻−80°C的15%甘油整除。gydF4y2Ba

排序的第二轮,第一轮排序细胞和控制菌株生长,诱导,染色,排序在第一轮,但省略预富集和选择一个稍微严格的mac门提高特异性。细胞被恢复了4天,文化的一部分被冻结偏−80°C的15%甘油整除,和它的一部分被冻结为质粒DNA隔离球。一系列稀释这些排序第二轮细胞SD-Leu-Ura平皿上镀了针对单一克隆(SD-Leu-Ura + 1.7%琼脂)分析。排序的两轮纯度细胞被生长±2.5×10gydF4y2Ba7gydF4y2Ba细胞20毫升SRaf-Leu-Ura +笔/喉炎的症状(100 U /毫升青霉素和链霉素100μg /毫升)48 h在28°C,而颤抖,又一次在OD诱导表达gydF4y2Ba600年gydF4y2Ba在SRaf = 5 / Gal-Leu-Ura +笔/喉炎的症状为24小时28°C而颤抖。细胞被染色的所述第一和第二排序,数据再次收集MoFlo遗留流式细胞分析仪,并使用FlowJo v10.1分析。整个排序的酵母图书馆独立复制三次在不同的日子。gydF4y2Ba

p . pastorisgydF4y2Ba细胞分类gydF4y2Ba

排序的蛋白质片段显示gydF4y2Bap . pastorisgydF4y2Ba细胞,2.2×10gydF4y2Ba8gydF4y2Ba图书馆酵母细胞从冷冻复苏整除在100毫升的缓冲复杂甘油培养基(BMGY) (10 g / l bacto酵母提取物,20 g / l细菌蛋白胨,100毫米phosohate钾缓冲pH值6.0,1.34%酵母与硫酸铵氮基;4×10gydF4y2Ba−5gydF4y2Ba%生物素,1%甘油)和成长为24小时28°C而颤抖。控制“空向量(EV)”应变与FLAG-V5-Sag1接种于板5毫升BMGY和相同的条件下生长。在OD诱导表达gydF4y2Ba600年gydF4y2Ba= 10后切换中缓冲复杂甲醇介质(BMMY) (10 g / l bacto酵母提取物,20 g / l细菌蛋白胨,100毫米phosohate钾缓冲pH值6.0,1.34%酵母氮基与硫酸铵;4×10gydF4y2Ba−5gydF4y2Ba%生物素,1%甲醇),在25毫升的库和5毫升控制压力。感应被允许在48小时28°C而颤抖,甲醇飙升至1%每8−12 h。在这一点上,几毫升的文化受到了基因组DNA提取的下游使用MasterPure酵母DNA测序净化设备(中心)后,制造商的指示。剩余的细胞被染色,使样品在4°C冰或在整个过程。细胞第一次洗3×在冰冷的缓冲区(PBS EDTA + 1毫米,pH值7.2 + 1完成抑制剂EDTA-free平板(罗氏)每50毫升缓冲区,新鲜和过滤消毒),每次旋转在4°C 1500×3分钟gydF4y2BaggydF4y2Ba在OD,染色gydF4y2Ba600年gydF4y2Ba与鼠单克隆anti-V5 = 2 (1/500, AbD Serotec MCA2892)和/或兔多克隆anti-FLAG (1/200, Sigma-Aldrich F7425)在冰冷的染色缓冲区(清洗缓冲+ 0.5毫克/毫升牛血清白蛋白)在旋转轮45分钟在4°C。细胞被洗2×冰冷的染色缓冲区,和二次染色是山羊anti-mouse AF647-RPE(1/250,生活技术A20990)和/或山羊anti-rabbit AF488(1/500,生活技术A11008)和/或anti-mouse免疫球蛋白mac微(每毫升细胞,50μl Miltenyi研究130-048-401),在一个旋转的轮子在黑暗中45分钟在4°C。细胞经历了mac浓缩在mac洗2×缓冲区(mac BSA原液(Miltenyi研究)1/20 autoMACS清洗解决方案(Miltenyi研究)+ 1完成抑制剂EDTA-free平板(罗氏)每50毫升缓冲区,新鲜和过滤消毒)。mac浓缩根据制造商的协议执行LS两列。洗脱后,细胞颗粒状在1500×3分钟gydF4y2BaggydF4y2Ba在4°C,恢复在2.5毫升的染色缓冲区。细胞样品没有经过浓缩和冰冷的染色洗2×缓冲区。所有样品都超过35μm细胞过滤器过滤帽前测量。流式细胞术和细胞排序进行MoFlo遗产分类器(贝克曼库尔特)伴随着FlowJo v10.1进行数据分析。在488纳米荧光团很兴奋,荧光收集到605年短传+ 530/40带通滤波器(AF488)和/或一个670/30的带通滤波器(AF647-RPE)。细胞被封闭在一个统一的SSC vs FSC单细胞的人口,和荧光象限盖茨被评为,补偿后,马克斯。5%的细胞无污点的和单一的彩色控制出现在背景之上。我们解决大约500万MACS-enriched国旗gydF4y2Ba+gydF4y2BaV5gydF4y2Ba+gydF4y2Ba细胞每屏幕(> 10 x图书馆多样性的一系列活动总共筛选)。排序细胞纺1500×gydF4y2BaggydF4y2Ba5分钟在4°C,恢复在20毫升YPD pH值8.0 +笔/喉炎的症状(100 U /毫升青霉素和链霉素100μg /毫升(热费希尔科学))。12小时后,zeocin 20μg /毫升。排序细胞增长了36 h总共28°C而颤抖,和冷冻−80°C的15%甘油整除。孤立基因组DNA,细胞恢复YPD pH值8.0笔/喉炎和zeocin,并使用MasterPure酵母DNA基因组DNA提取净化设备。图书馆分类是独立复制3乘以不同的三天。gydF4y2Ba

酿酒酵母gydF4y2Ba深度测序图书馆准备gydF4y2Ba

质粒的隔离non-sorted和分类gydF4y2Ba酿酒酵母gydF4y2Ba酵母库进行如怀特黑德et al。gydF4y2Ba82年gydF4y2Ba使用ZymoPrep酵母质粒Miniprep II工具包(Zymo研究)。简单地说,9-20×10gydF4y2Ba7gydF4y2Ba颗粒状冷冻细胞在400年resuspendedμl解决方案我和50个U Zymolyase和孵化4 h 37°C。在一瞬间冻结后液体NgydF4y2Ba2gydF4y2Ba和解冻42°C,质粒提取继续按照制造商的协议,但在30μl淋洗10毫米Tris-HCl pH值8.0。基因组DNA与60 U的核酸外切酶消化我(内)和7.5 Uλ核酸外切酶(内)λ核酸外切酶缓冲(内)90分钟30°C,紧随其后的是失活的20分钟80°C。图书馆质粒纯化使用CleanPCR珠子从缓冲区(2×反应体积)生物技术(GC)和筛选了22个μl MilliQ水。接下来,恢复了人类的cDNA片段的质粒PCR使用两个池的“移码”引物在类比Lundberg et al。gydF4y2Ba84年gydF4y2Ba,以平衡基地分布在第一个排序位置为了测序芯片容量的最大利用。对于A247_F池等摩尔浓度gydF4y2BaxgydF4y2Ba和A247_RgydF4y2BaxgydF4y2Ba。PCR反应是建立使用20μl纯化质粒DNA,每个引物池的300海里,和1×KAPA HiFi HotStart Readymix在最后一卷50μl,并运行3分钟在95°C,紧随其后的是25周期98°C的20年代,61°C 15年代,30年代的72°C。样品纯化使用CleanPCR珠子(1.6×反应体积),筛选了40μl 0.1×TE缓冲(1毫米Tris-HCl EDTA + 0.1毫米,pH值8.0)。Illumina公司适配器序列和条形码添加使用NEBNext超DNA库准备包Illumina公司(内)很大程度上是根据制造商的协议,除了样本纯化使用两轮1.6×体积CleanPCR珠子适配器结扎后删除适配器二聚体,而最终与定制的引物进行PCR (A237_F和A237_R_bcx bcx指示不同的条形码),脱盐Ultramers IDT)和25周期。PCR后,500 - 1200个基点碎片从2%琼脂糖凝胶纯化使用Nucleospin凝胶和PCR清理工具(Macherey-Nagel),特别在一夜之间使溶解琼脂糖块在NT 4°C缓冲,避免碎片变性,减少GC-bias。在缓冲区,洗脱后第二次样品纯化使用CleanPCR珠子(1.6×卷),最后筛选了25μl 0.1×TE缓冲在DNA LoBind管(埃普多夫)。推理的复杂性减少排序片段池需要深度小于无序的片段,样本汇集在一个未排序库/ 2.5/1摩尔比率。使用Nanodrop浓度测定,量子位,KAPA图书馆量化工具对LC480 Lightcycler 480(罗氏)根据制造商的指示。评估在12-capillary片段大小分布分析仪(高级分析)与他们的高灵敏度挥动工具包(dnf - 474、先进的分析),以及生物分析仪(安捷伦)DNA高灵敏度工具包(安捷伦)。gydF4y2Ba

p . pastorisgydF4y2Ba深度测序图书馆准备gydF4y2Ba

互补脱氧核糖核酸片段的排序和分类gydF4y2Bap . pastorisgydF4y2Ba图书馆从基因组DNA, PCR (500 nM A149_F 500海里A149_R 1×KAPA HiFi HotStart大师混合,每20 70 ng基因组DNAμl反应- 95°C 3分钟,其次是20周期98°C的20年代,15秒61°C, 72°C 30年代在冷却之前)。PCR片段长度300 - 1000个基点之间隔绝2%琼脂糖凝胶使用NucleoSpin凝胶和PCR清理工具(Macherey-Nagel)和CleanPCR珠子(CleanNA),增溶的插头在4°C避免变性at富集的片段,在30μl洗脱纯化水。这池fagments然后进一步接受第二个短PCR的移码基地(500 nM A247_F底漆池,500 nM A247_R底漆池,1×KAPA HiFi HotStart大师混合,每50μl 20μl DNA反应- 95°C 3分钟,其次是5周期98°C的20年代,15秒61°C, 72°C冷却之前30年代)和纯化CleanPCR珠子(1.6:1比例珠子:反应体积)和筛选了45μl纯净水。Illumina公司与NEBNext超DNA测序图书馆建设是图书馆准备工具包(内)很大程度上是根据制造商的协议,除了样本纯化使用一个轮1.2×体积CleanPCR珠子适配器结扎后删除适配器二聚体,并最终与定制的引物进行PCR (A237_F和页码A237_R_bcx脱盐Ultramers从IDT)和7周期。这个数字的PCR循环之前被发现后最优优化实验,我们跟着实时PCR反应与SYBR qPCR绿色,来确定最大数量的周期直到到达一个放大高原。碎片纯化使用CleanPCR珠子(0.7×卷),终于在25μl筛选了0.1×TE缓冲DNA LoBind管(埃普多夫)。增加样品产量,我们做了一个额外的4-cycle PCR引物对P5和P7序列(500 nM A240_F 500海里A240_R 1×KAPA HiFi HotStart大师混合,2.5每100μlμl DNA反应- 95°C 3分钟,其次是4周期98°C的20年代,15秒63°C, 72°C冷却之前30年代)。片段又一次纯化使用CleanPCR珠子(0.7×卷),筛选了在DNA LoBind 30μl 0.1×TE缓冲管(埃普多夫)。样本汇集在一个未排序库/ 4.3/1摩尔比率。使用Nanodrop浓度测定,量子位,KAPA库量化工具LC480 Lightcycler 480(罗氏)根据制造商的指示。 Size distributions were assessed on a 12-capillary Fragment Analyzer (Advanced Analytical) with their High Sensitivity NGS kit (DNF-474, Advanced Analytical).

Illumina公司测序,读和测序数据分析处理gydF4y2Ba

对于每个屏幕,汇集样本paired-end测序(2×150个基点)在500年一个Illumina公司NextSeq mid-throughput或高通量(gydF4y2Ba酿酒酵母gydF4y2Ba或gydF4y2Bap . pastorisgydF4y2Ba屏幕,resp)芯片和去复用2.0.2使用NextSeq系统套件。生去复用Illumina公司测序数据处理使用公开可用的工具和自定义脚本。大量的原始读取第一次修剪,修剪!版本0.4.1 (gydF4y2Bawww.bioinformatics.babraham.ac.uk项目/ trim_galoregydF4y2Ba)删除Illumina公司适配器序列。接下来,国旗/ V5和移码序列与Cutadapt修剪版本1.10 (ref。gydF4y2Ba85年gydF4y2Ba),丢弃所有未切边的双只保持正确克隆cDNA片段。执行质量控制原材料fastq文件使用0.11.3 FastQC版本(gydF4y2Bawww.bioinformatics.babraham.ac.uk项目/ fastqcgydF4y2Ba)。处理读取映射到人类已知蛋白编码基因的转录组从运用的BioMart下载gydF4y2Ba86年gydF4y2Ba使用BBMap v35.40 (sourceforge.net/projects/bbmap)。计数表的建立和分析正确配对使用SAMtools映射读取gydF4y2Ba87年gydF4y2Bav1.2 v1.3, BEDtoolsgydF4y2Ba88年gydF4y2Bav2.24.0 v2.25.0,浮雕gydF4y2Ba89年gydF4y2Bav6.6.0 R项目3.3.0 (gydF4y2Bawww.R-project.orggydF4y2Ba)和R包plyr (v1.8.6) ggplot2 (v3.3.4) alakazam (v1.1.0) stringr (v1.4.0)和UpSetR (v1.4.0)gydF4y2Ba90年gydF4y2Ba。总结最重要的脚本可以发现Figshare (figshare.com/s/5dba6b512fa74ef68a40)。碎片被认为是检测片段数> 0时的未分类的样本,或分类的样本。浓缩因子(E因子)计算gydF4y2Ba\ ({\ log} _{2}(\压裂{{{FPTM}} _{{{排序}}}}{{{FPTM}} _{{{无序}}}})\)gydF4y2Ba,FPTM是我们定制的片段数每一千万碎片被定义为读对的数量相同的开始和结束位置每1000万读对。的计算结果一致,FPTMgydF4y2Ba未分类的gydF4y2Ba计算合并复制未分类的样本,从碎片中发现3复制(排序样本或合并无序),只有在坐标系的片段与n和c项融合部分的表面显示构造被认为(我们使用随机启动,有一个能预期的1/9的概率,一个克隆的片段是在相同的阅读框与n和c项融合部分)。gydF4y2Ba

流式细胞术的随机排序gydF4y2Ba酿酒酵母gydF4y2Ba克隆gydF4y2Ba

评估的相关性排序数和表面显示荧光信号,排序47两轮gydF4y2Ba酿酒酵母gydF4y2Ba单一的克隆和控制应变与FLAG-V5-Sag1接种2毫升SRaf-Leu-Ura深陷24-well盘子和成长为24小时28°C而颤抖。细胞颗粒状在3000×4°CgydF4y2BaggydF4y2Ba3分钟,supernatans摘除,细胞在2毫升SRaf / Gal-Leu-Ura resuspended,和诱导24 h 28°C。细胞染色进行了图书馆第二轮,没有mac浓缩,但在96 - v形底Nunc microwell板块(热费希尔)。在染色细胞终于稀释¼缓冲区,和测量LSR-II高温超导流式细胞分析仪(BD)。在488纳米荧光团很兴奋,荧光收集到550年长传球+ 525/50带通滤波器(AF488),和/或670长传球+ 685/35带通滤波器(AF647-RPE)。补偿、浇注和FlowJo v10.1进一步进行数据分析。gydF4y2Ba

进行识别,同样受到菌落PCR克隆针对人类cDNA片段,每个克隆编码。对于每一个克隆,一个单一的殖民地被从板和resuspended 20μl刚煮好的20毫米氢氧化钠和孵化5分钟在室温下(RT)。溶解于80年停止通过添加μl无菌水,和5μl 25μl PCR反应中使用0.5 U Phusion高保真聚合酶(内),500海里的底漆A207_F,反向引物A221_R 500海里,1×Phusion高频缓冲区,和200年μM核苷酸(Promega)。PCR循环条件涉及到30秒的98°C变性;30 98°C的周期10年代,52°C 15 s, 72°C 45 s;完成了5分钟前在72°C冷却。PCR片段被CleanPCR珠子(GC)生物技术净化,桑格从两端使用引物测序A149_F A149_R,和获得序列映射到人类参考转录组序列使用爆炸和重建。门店片段在背景和分类计数细胞库是通过搜索获得计数表相同的片段基因符号和氨基酸序列。gydF4y2Ba

通过免疫印迹分泌验证gydF4y2Ba

验证的片段secretability 20随机单gydF4y2Ba酿酒酵母gydF4y2Ba复制1屏幕类型的克隆生长在2毫升SD-Leu-Ura和质粒被孤立ZymoPrep酵母质粒Miniprep II工具包(Zymo研究)根据制造商的指示。对于每一个克隆,编码cDNA片段通过PCR孤立A262_R A262_F 300 nM和300 nM的引物(pSCA-stuffer下游与悬臂同源克隆),在1×KAPA HiFi PCR反应使用4 ng的质粒DNA / 20μl反应。样本变性3分钟在95°C,和骑车25×20年代在98°C, 57°C 15年代,20年代72°C,在冷却之前。放大DNA从凝胶中提取和纯化。分泌载体pSCASfiIPacI-FLAGV5-AOX1-stuffer消化SfiI和奶嘴(内),和向量骨干也从凝胶分离和纯化。片段和支柱装配使用吉布森组装为30分钟50°C,和转换gydF4y2Ba大肠杆菌gydF4y2Ba。质粒被测序验证。这些20 pSCA-fragment向量转化为酵母使用LiAc /方法Gietz和Schiestl挂钩gydF4y2Ba91年gydF4y2Ba检查了转化克隆colonyPCR如上所述,但是使用引物A221_R A221_F。分泌感应,这些单一酵母克隆最初生长在SRaf-Leu-Ura 48 h在28°C而颤抖,颗粒状,诱导SRaf / Gal-Leu-Ura 24 h 28°C。中收集和冻结在−20°C到蛋白质提取。gydF4y2Ba

分泌蛋白被沉淀的颗粒状介质DOC和柠檬酸。简单地说,对于每一个样品,样品体积的10% 5毫克/毫升脱氧胆酸盐(DOC)补充说,10分钟的样本在冰上孵化,13.54三氯乙酸(TCA)添加10%样品体积,20分钟的样本在冰上孵化,在4°C,沉淀颗粒状离心机在马克斯。速度为30分钟。Supernatans摘除,颗粒与冰冷的丙酮洗两次,一旦用70%的乙醇,每一次成粒的样品在14000×20分钟gydF4y2BaggydF4y2Ba在4°C。丸是干在1×37°C和resuspended磷酸盐PBS。总蛋白浓度估计的microBCA工具包(皮尔斯)根据手册的指示。对于每一个样品,另外10μg蛋白质PNGase F消化(内)一夜之间,根据制造商的协议。最后,每个样品等量的蛋白质变性在1×Laemmli缓冲区(10%甘油、0.1%德勤,63毫米Tris-HCl pH值6.8,2% SDS, 0.0005%溴酚蓝)10分钟在98°C,运行在15% Tris-Glycine SDS - page凝胶,半干涂抹1 h30 PVDF膜在75 mA / 45厘米gydF4y2Ba2gydF4y2Ba污点。墨迹被封锁奶粉3%解决方案2 h RT或一夜之间4°C和彩色多克隆兔anti-FLAG抗体(1/2000,σ,F7425) + anti-rabbit IgG-Dylight800抗体(1/15,000,热科学,35571 #),或鼠标anti-V5单克隆抗体(1/3000 AbD Serotec # MCA1360) + anti-mouse IgG-Dylight8000(1/15,000,热科学、# 35521)。梯子是BioRad精度+双字母x的梯子。墨迹Li-Cor漫游系统成像。gydF4y2Ba

功能富集分析gydF4y2Ba

蛋白质和片段的结构性障碍预测是使用快速完成gydF4y2Ba46gydF4y2Ba。评估secretable碎片是否更有可能来自内生分泌蛋白质比机会时,蛋白质和人类分泌蛋白(即信号肽)是从Uniprot下载(释放2018 _11)和交叉列表secretable和枯竭的碎片。只有蛋白质不枯竭的碎片被发现是保留进行分析。分析N-glycan sequons,我们评估的存在sequon nx NXT但不是NPS或NPT awk使用自定义代码。gydF4y2Ba

结构生物信息学gydF4y2Ba

生物物理预测的序列首先过滤100%的序列匹配UniProt蛋白质和氨基酸长度超过30。二级结构(一个螺旋,b-sheet和随机线圈)和早期折叠倾向预测作为EFoldMine描述gydF4y2Ba92年gydF4y2Ba,但只保留残留在完整的蛋白质序列,明确“隐藏”或“枯竭”在重叠的碎片。分泌,相邻地区或耗尽残留组装到合并的片段,在所有的平均预测从原始片段,片段是浓缩的。使用Dynamine骨干测序片段的动态预测gydF4y2Ba44gydF4y2Ba,gydF4y2Ba45gydF4y2Ba。块生成R (gydF4y2Bawww.R-project.orggydF4y2Ba使用自定义Python脚本)。gydF4y2Ba

PDB映射、蛋白质片段序列的第一个集群为代表片段使用CD-HIT包gydF4y2Ba92年gydF4y2Ba100%的身份参数。这群短序列与完全重叠的时间序列为一个长代表片段。每个数据集的代表性片段被用作查询执行爆炸针对PDB数据库使用独立的爆炸(ncbi-blast-2.6.0 +)。二级结构元素的比例为每一个片段的PDB从相应的DSSP坐标计算。域架构(包含和Gene3D)使用InterProScan检索gydF4y2Ba93年gydF4y2Ba(v 5.24 - -63.0)。中的一个特定领域数据集得到的频率通过移除重复的条目(如果一个特定的域特定片段存在不止一次)的数据集。gydF4y2Ba

统计假设检验gydF4y2Ba

比较图书馆标准化的效率是通过使用双向方差分析与图基因果检验。屏幕可复制性是评估通过计算single-replicate浓缩的斯皮尔曼相关因素因素。功能分布的假设检验在丰富和枯竭的片段进行了使用非参数双边Mann-Whitney-Wilcoxon测试。内源性分泌蛋白浓缩中,我们使用一个片面的确切概率法。在超过10的情况下比较的意义gydF4y2BapgydF4y2Ba价值观是纠正使用Benjamini-Hochberg多个假设测试。所有分析使用R编程语言(gydF4y2Bawww.R-project.orggydF4y2Ba),除了相关的计算流仪平均荧光强度与浓缩的因素单一的克隆,qPCR正常化效率比较,和gydF4y2Bap . pastorisgydF4y2Ba增长,使用GraphPad棱镜v7和v9计算。gydF4y2Ba

为二进制数据集分类gydF4y2Ba

两种机器学习方法探索研究到什么程度secretable和non-secretable碎片可以区分主要序列:一个梯度提高了决策树gydF4y2Ba47gydF4y2Ba模型和卷积神经网络模型gydF4y2Ba48gydF4y2Ba。建立了这两种方法来执行这个二进制分类任务,并被训练和评估在相同的数据集。gydF4y2Ba

的gydF4y2Ba酿酒酵母gydF4y2Ba和gydF4y2Bap . pastorisgydF4y2Ba148156年和151761年数据集包含蛋白质片段分别的(非)secretability一致的三个复制排序实验。在gydF4y2Ba酿酒酵母gydF4y2Ba共有11625个碎片被发现是持续分泌(或浓度),和136531年的碎片被发现是一致非机密(或减少)。gydF4y2Ba对于p pastorisgydF4y2Ba分泌,10404年和141357年非机密的碎片被发现。此外,我们只保留片段的序列长度至少50个氨基酸的数据集,当我们考虑短序列无关紧要,因为他们不正确折叠。这导致了最后的数据集的属性,如补充表所示gydF4y2Ba14gydF4y2Ba。gydF4y2Ba

由于不平衡正负样本数据集,模型的性能评估使用的接受者操作特征曲线下的面积(AUROC)指标,因为它是相对不敏感类分布的变化。而不是使用一个固定的类概率阈值,AUROC需要发现丰富的片段的比例(真阳性)对正确的比例分配耗尽片段(假阳性)的所有可能的阈值。这条曲线的AUC决定性能,值为1.0时表示最好的可实现的性能和随机预测达到值为0.5。AUROC也可以被看作是一个随机的概率抽样丰富片段预测值高于随机采样枯竭的片段。gydF4y2Ba

10倍交叉验证(CV)计划部署计算性能完整的数据集。为了避免偏见之间的训练和测试数据在此简历,褶皱构造,都源自一个基因片段属于同一阵营。如果这项措施会忽视,正确预测测试数据可能的结果序列相似性和模型过度拟合训练数据,导致过于乐观的结果。同时,褶皱构造保持相似类分布。gydF4y2Ba

严格的数据选择方案,要求在三个复制的一致性,导致大量未使用的碎片。因此,除了交叉验证的完整的数据集,额外的数据集是由multi-replicate进一步验证预测模型和设置。对于这两个gydF4y2Ba酿酒酵母gydF4y2Ba和gydF4y2Bap . pastorisgydF4y2Ba碎片,都浓缩或耗尽在仅仅两三个复制选中,和分歧的两个不同的数据集取决于第三复制了一个浓缩在−1和1之间(“设定”,Sc_2consistent_1uncertain和Pp_2consistent_1uncertain),或是否相对一致的复制(“B”, Sc_2consistent_1opposite和Pp_2consistent_1opposite)。概述的碎片数量提取使用此选择过程补充表所示gydF4y2Ba15gydF4y2Ba。积极的和消极的标记片段之间的分布不同于交叉验证数据,结果再次使用AUROC量化,允许其不敏感类分布在数据集比较产生的分数。gydF4y2Ba

梯度增加gydF4y2Ba

可变长度的数据集包含的蛋白质片段。传统的机器学习技术通常依赖于同等大小的特征向量和不支持可变输入大小。为了克服这个问题,我们从初级序列中提取特征向量,以确保一个固定大小的特征向量。gydF4y2Ba

多个物化特性被认为是在提取特征向量。对于每个属性,数据提取和一个单独的模型进行训练。氨基酸量表收集以下属性:极性gydF4y2Ba94年gydF4y2Ba、疏水性gydF4y2Ba95年gydF4y2Ba,平均面积埋gydF4y2Ba96年gydF4y2Ba、埋残留gydF4y2Ba97年gydF4y2Ba,庞大gydF4y2Ba98年gydF4y2Ba,摩尔折射率gydF4y2Ba99年gydF4y2Ba,识别因素gydF4y2BaOne hundred.gydF4y2Ba、分子量、跨膜倾向gydF4y2Ba101年gydF4y2Ba,肽在高效液相色谱保留时间gydF4y2Ba102年gydF4y2Ba。gydF4y2Ba

对于每个属性,五组的特征提取,导致40值为每个数据样本的向量:gydF4y2Ba

氨基酸的相对频率(20特性,独立的属性)。gydF4y2Ba

序列长度(1功能,独立的属性)。gydF4y2Ba

——值属性的前六(n端)和过去六(糖)氨基酸(12)特性。gydF4y2Ba

——房地产在整个序列的平均值(1功能)。gydF4y2Ba

每个地区——该属性的平均值,将每个片段划分为等长六个区域(6)特性。短序列较短的地区。gydF4y2Ba

然后我们建立了一个梯度提高分类器,这些特性集作为输入。一个分类器需要每蛋白质片段40特征作为输入,并生成一个概率的secretability片段。训练后的分类器每个属性,构建一个模型,把十个人的概率分类器作为输入一个新的梯度提高分类器,然后产生一个最终的概率。gydF4y2Ba

梯度提高决策树的hyperparameters单独为每个折交叉验证的测定,使用一个随机搜索。对于这个搜索,训练集的数据在这个折叠使用。梯度提高分类器的结果补充表中列出gydF4y2Ba16gydF4y2Ba。gydF4y2Ba

卷积神经网络gydF4y2Ba

近年来,深度学习技术在蛋白质组学被广泛采用gydF4y2Ba103年gydF4y2Ba,gydF4y2Ba104年gydF4y2Ba,gydF4y2Ba105年gydF4y2Ba。尤其是卷积神经网络(CNN)已经成功地应用在这种情况下,考虑到他们的能力训练的端到端从一级序列(防止需要手动功能工程),他们的学习能力空间独立于位置的关系,和他们的直观的方式编码序列的卷积层。gydF4y2Ba

典型的CNN架构的一个潜在障碍是它期望一个固定大小的输入产生一个固定大小的输出。鉴于secretability数据集序列长度的变化,我们探索四个策略来应对这一变化。在一个炎热的编码和三个街区,每个组成的卷积层,解决线性单元(ReLU)激活函数,辍学层和最大池层,最后的输出块转换使用下列方法之一:gydF4y2Ba

全球最大池、马克斯池操作在一个完整的序列。gydF4y2Ba

kmax池gydF4y2Ba106年gydF4y2Ba最高,K激活保持每通道(在各自的顺序)。gydF4y2Ba

——双向封闭的复发性单元(格勒乌),每个方向的最后隐状态连接。gydF4y2Ba

作为基线,我们还垫0直到一个固定长度的输入序列,并截断任何蛋白质,超越这个长度。这样做之后,不需要转换到一个固定长度了。我们选择最大长度为200个氨基酸,这涵盖了99.8%的碎片。gydF4y2Ba

最后,这个固定大小输出是紧随其后的是一个全层,然后连接到一个输出层与单个神经元。乙状结肠是用于生成概率从最终激活。最后hyperparameters体系结构的测定使用网格搜索和补充表中给出gydF4y2Ba17gydF4y2Ba。每个建筑的结果给出了补充表gydF4y2Ba18gydF4y2Ba。gydF4y2Ba

确定决定性的输入特性gydF4y2Ba

神经网络的挑战,以及各种其他的机器学习技术,是他们缺乏固有的可解释性。归因方法已经发展为了解决这一问题。在这里,我们使用的综合梯度gydF4y2Ba107年gydF4y2Ba方法,该方法是基于反向传播算法。backpropagation-based归因方法的原则是先做一个通过网络,产生一个输出信号,然后backpropagate信号的输入,看看哪部分的输入序列负责预测。这产生了一个所谓的归因(或凸起)地图,每个氨基酸的正面或负面贡献的预测secretability片段。贡献的大小表明强烈指导网络向secretable(积极贡献)或non-secretable(负贡献)预测。贡献的总体大小尺度模型的信心。gydF4y2Ba

为每一个测试集的蛋白质片段给定的褶皱,我们计算的归因地图优化模型(全球最大池)。调查的一般行为模型,然后聚合它们使用两种策略:gydF4y2Ba

我们计算每个氨基酸的平均贡献,无论在序列发生。gydF4y2Ba

我们每个序列分为20个地区,每个地区每个氨基酸的平均贡献计算。这意味着第一个区域包含氨基酸的平均贡献这发生在第一个各自序列的5%,第二个地区从5到10%,等等。gydF4y2Ba

报告总结gydF4y2Ba

进一步研究信息设计是可用的gydF4y2Ba自然研究报告摘要gydF4y2Ba与这篇文章有关。gydF4y2Ba