介绍gydF4y2Ba

小,或短,开放阅读框架(smORFs) DNA和RNA序列,可以翻译成蛋白质的不到100种氨基酸。成千上万的smORF序列是真核基因组中找到gydF4y2Ba1克ydF4y2Ba,gydF4y2Ba2gydF4y2Ba,成千上万的人可以被映射到成绩单,通常假定的非编码rnagydF4y2Ba3gydF4y2Ba,gydF4y2Ba4 gydF4y2Ba,从而挑战我们理解我们的基因组编码的潜力。smORFs一直被视为非编码的基础上高数,体积小,和缺乏实验功能的证据,但人们越来越认识到数百,如果不是数千smORFs翻译gydF4y2Ba3gydF4y2Ba,gydF4y2Ba5克ydF4y2Ba,gydF4y2Ba6gydF4y2Ba,gydF4y2Ba7gydF4y2BasmORF肽可以在后生动物的基本功能,是守恒的gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba。然而,完整的曲目smORF功能肽还不得而知,也不smORF序列的基因和进化的角色。后生动物smORFs可以分为不同类别根据其基因功能和翻译水平,和这些类可能有不同的分子功能gydF4y2Ba11gydF4y2Ba。在后生动物的基因组,(a)数以百计的注释短编码DNA序列(scds)主要出现在monocistronic mrna,强劲翻译成肽长约80 AA与膜倾向和管理规范(> 100 AA)蛋白质与发育gydF4y2Ba8gydF4y2Ba,gydF4y2Ba12gydF4y2Ba或生理gydF4y2Ba9gydF4y2Ba,gydF4y2Ba13gydF4y2Ba角色;(b)成千上万的上游orf (uORFs)位于5′规范化mrna的领导人,不仅调节的翻译规范的蛋白质位于下游,还生产短肽(~ 25 AA)可以与之交互gydF4y2Ba14gydF4y2Ba独立,或功能gydF4y2Ba15gydF4y2Ba,gydF4y2Ba16gydF4y2Ba;最后,(c)长非编码rna (lncRNAs)包含成千上万的smORFs平均20码的长度(lncORFs)。lncRNAs超过200个基点,但缺乏规范的注释orf,因此认为非编码功能。确实,仅仅几个lncRNAs功能介导的RNA序列和结构,从染色质因子mRNA翻译生产微- rnas身子监管机构gydF4y2Ba17gydF4y2Ba。然而,数百名lncRNAs(平均每个包含20 lncORFs)腺苷酸,发现在细胞质中,并能与核糖体,指示micropeptides的翻译和生产潜力gydF4y2Ba18gydF4y2Ba。生产功能micropeptides已经证明在某些情况下参了。gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba但还不清楚到什么程度翻译成micropeptides lncRNA生物学是一个通用的方面,并进一步,有多少这些肽的生物功能。gydF4y2Ba

smORFs提供一个令人兴奋的重叠与另一个新兴的领域:新创基因进化。很长一段时间,数以千万计的存在,如果不是几百种特异的基因(“孤儿”)已经指出gydF4y2Ba23gydF4y2Ba,gydF4y2Ba24gydF4y2Ba,gydF4y2Ba25gydF4y2Ba。就好像这些基因出现突变或复制现有的基因,但是从以前新创非编码序列。然而,更始基因概念一直困扰的问题和争议在识别gydF4y2Ba26gydF4y2Ba,gydF4y2Ba27gydF4y2Ba,gydF4y2Ba28gydF4y2Ba实际上,没有evidence-homologies-was视为缺席的证据。此外,目前还没有达成共识的机制参与新创基因创造。有人建议,源自proto-genes新创基因,序列与功能之间的某种中间惰性DNA和完整的编码,典型的蛋白质gydF4y2Ba29日gydF4y2Ba。尽管这些中间的特性,和参与的机制过渡到一个新创基因已被证明,也建议lncRNAs和smORFs可以提供的例子新创的基因gydF4y2Ba4 gydF4y2Ba,gydF4y2Ba5克ydF4y2Ba,gydF4y2Ba11gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba,翻译的收购是一个关键事件的过程gydF4y2Ba11gydF4y2Ba。gydF4y2Ba

鉴于其易用性,密切相关的物种的基因组测序的曲目,smORFs与脊椎动物的相似性gydF4y2Ba11gydF4y2Ba,gydF4y2Ba黑腹果蝇gydF4y2Ba提供了一个理想的模型来解决smORF和lncRNA翻译的相关问题,进化和功能。先前的研究发现核糖体绑定gydF4y2Ba黑腹果蝇gydF4y2Ba上下文(细胞培养和早期胚胎)gydF4y2Ba3gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba,gydF4y2Ba32gydF4y2Ba,但并没有决定性地证明lncRNAs的翻译。这里我们使用核糖体以前所未有的深度剖析和解决在胚胎发育获得的特征tri-nucleotide周期性映射核糖体保护足迹(rpf)证明翻译gydF4y2Ba33gydF4y2Ba,gydF4y2Ba34gydF4y2Ba。我们表明,核糖体结合集中特定lncRNAs并产生要么micropeptide翻译,或者一个中间“ribo-bound-only”状态,如uORFs最近观察到的gydF4y2Ba5克ydF4y2Ba。此外,我们识别分子特征,不仅支持观察lncRNA翻译,而且涉及的机制。最后,我们的生物信息学管道、GENOR lncORF翻译和演化,揭示了一个惊人的相关性与翻译lncORFs显示自然选择和老系统发育比款非翻译作品的起源。总的来说我们的发现是兼容的可能性lncRNAs获得蛋白质编码函数作为lncORFs从中间ribo-bound-only状态发展到一个完全翻译。gydF4y2Ba

结果gydF4y2Ba

扩大深度和框架决议导致善意的检测体内lncORF翻译gydF4y2Ba

我们确认16334 lncORFs映射到目前的2545个基因注解为lncRNAsgydF4y2Ba黑腹果蝇gydF4y2Ba35gydF4y2Ba。确定他们的翻译状态,我们使用两个生物Poly-Ribo-Seq副本(T和B)gydF4y2Ba5克ydF4y2Ba和mRNA-seq三8小时间隔覆盖整个gydF4y2Ba果蝇gydF4y2Ba腹gydF4y2Ba胚胎发生:gydF4y2Ba早期gydF4y2Ba(主/ h),gydF4y2Ba中期gydF4y2Ba分裂到8 - 16个h ()gydF4y2Ba晚些时候gydF4y2Ba(24小时)。总的来说,我们积累了ca。20亿Riboseq和6.04亿RNAseq读取,ca。5.7亿genome-mapped Riboseq读取(补充表gydF4y2Ba1、方法gydF4y2Ba),显示一个高度显著的相关性(图复制。gydF4y2Ba1gydF4y2Ba补充图。gydF4y2Ba1 egydF4y2Ba)。我们遵循最近发表smORF-suited管道gydF4y2Ba5克ydF4y2Ba在给定的阶段,考虑lncORF翻译如果它满足三个条件:(一)转录(RPKM RNAseq信号gydF4y2Ba核糖核酸gydF4y2Ba> 1的副本);(b)核糖体绑定(RPKM Riboseq信号gydF4y2Ba《外交政策》gydF4y2Ba> 1的副本);和(c)框架ORF-aligned 32 nt rpf (tri-nucleotide周期性通过二项考试gydF4y2BapgydF4y2Ba< 0.01的副本(补充图。gydF4y2Ba1gydF4y2Ba)。我们发现124 866 lncRNAs转录翻译lncORFsgydF4y2Ba黑腹果蝇gydF4y2Ba胚胎发生。这个数字与1258年的翻译uORFs发现使用一个类似的策略gydF4y2Ba5克ydF4y2BaRPKM,可以解释为低gydF4y2Ba核糖核酸gydF4y2Ba和RPKMgydF4y2Ba《外交政策》gydF4y2Ba信号lncORFs相比其他子类别(无花果。gydF4y2Ba1 bgydF4y2Ba)。gydF4y2Ba

图1:检测lncORF翻译。gydF4y2Ba
图1gydF4y2Ba

一个gydF4y2Ba相关情节和枪兵的相关性lncORF(绿色)和规范orf RPKM(紫色)gydF4y2Ba《外交政策》gydF4y2Ba值在副本B (gydF4y2BaygydF4y2Ba轴)和T (gydF4y2BaxgydF4y2Ba早期胚胎发生的轴)。gydF4y2BabgydF4y2Ba平均(RPKM核糖体绑定gydF4y2Ba《外交政策》gydF4y2Ba)在胚胎发生不同类型的编码序列。中值的分布如图所示。gydF4y2BacgydF4y2Ba反褶积模型框架gydF4y2Ba黑腹果蝇gydF4y2BaPoly-Ribo-Seq。31-nt长rpf包含一个混合的读取映射到相邻帧0和2,反映了1-ribonucleotide 5′和3′位置,分别相比32-nt读取(或更长时间),主要是映射到框架2(蓝色)。30元读取(短)主要映射到框架0,1-nt解释道。损失5′和3′位置在这个人口。底,规范ORF框架在核糖体足迹长度26-36 nt。0(红色),帧1(绿色)和第二帧(蓝色)。红色虚线:第一帧传播在短RPF长度;蓝色虚线:第二帧传播的跨长RPF长度。gydF4y2BadgydF4y2Ba冗余lncORF翻译信号。左情节:读取每帧的数量RPF长度(26-36 nt)映射在一个生物lncORFs Poly-Ribo-Seq样本(主/ h,复制B)。热图:检测框架事件(黄色)每RPF长度(y轴)lncORF (x轴),排序从高(7)低(1)检测;191年348事件框架支持翻译lncORFs在这个示例。事件的总数/ RPF长度是显示在右边。gydF4y2BaegydF4y2BalncORFs数量根据他们的翻译信号。gydF4y2BafgydF4y2BaFLAG-tagged lncORFs翻译信号翻译在S2细胞(左)而lncORFs缺乏翻译信号(右)。图表示每个构造使用;5´utr出现白色,lncORFs颜色根据他们Riboseq翻译状态(上)。gydF4y2BaggydF4y2Ba强劲的immunity-related lncRNA IBIN是翻译。ORF1 IBIN记录显示内部积累RPF读,但不是ORF2。在S2细胞表达FLAG-tagged IBIN ORF1(见gydF4y2BafgydF4y2Ba)证实了其翻译的地位。源数据作为源数据文件提供。gydF4y2Ba

显著改善来自扩大我们的分析参数。gydF4y2Ba黑腹果蝇gydF4y2BaRiboSeq样本显示显著的RPF大小分散(26-36 nt,然而在其他后生动物RPF大小一致gydF4y2Ba36gydF4y2Ba,gydF4y2Ba37gydF4y2Ba每长度RPF)和变量框架模式gydF4y2Ba3gydF4y2Ba,gydF4y2Ba5克ydF4y2Ba,gydF4y2Ba31日gydF4y2Ba(无花果。gydF4y2Ba1 c, dgydF4y2Ba尚不清楚),其试验或生物基地。有趣的是,我们的metagene分析框架的规范记录显示rpf的不同长度显示tri-nucleotide周期一致,但在不同的帧(无花果。gydF4y2Ba1 c, dgydF4y2Ba补充图。gydF4y2Ba1gydF4y2Ba)。此外,大小不一的rpf显示框架在同一或相邻的基码,符合源自相同的翻译ORF但造成变量核糖核酸酶保护(无花果。gydF4y2Ba1gydF4y2Ba)。例如,13235(84%)与框架规范ORF 30 - 32元rpf后期副本B对应相同的子。这些数据表明,统计上显著的框架模式在不同的rpf显示相同的ORF翻译实例(图。gydF4y2Ba1 c, dgydF4y2Ba)。lncORF rpf呈现规模分散像canonical rpf(集中26至36元)。然后我们确定是否non-32 nt。RPF lncORFs框架也代表真正的翻译信号,通过执行一个全球框架的比较规范的开放和lncORFs和关联读取每帧的数量每RPF长度在两个ORF类。全球框架模式非常lncORFs之间高度相关,规范orf相同的复制品(gydF4y2BaρgydF4y2Ba在副本0.88和1之间,看到补充图。gydF4y2Ba1 bgydF4y2Ba)表明读取映射到lncORFs是指示性的翻译规范的基因。gydF4y2Ba

因此,我们扩大我们的框架检测所有26-36 nt RPF大小,期待这增加映射读取将改善框架事件的数量和可靠性低表达lncRNA成绩单(无花果。gydF4y2Ba1 bgydF4y2Ba)。现在我们发现292 lncORFs显示翻译信号(在任何RPF大小)。鉴于这种翻译检测增加235%,我们利用复制实验,测量框架独立在每个T和B复制品。107年lncORFs出现强劲翻译(即显示给定阶段的框架在两个副本)虽然185显示有限的翻译(如框架在只有一个副本)(图gydF4y2Ba1 egydF4y2Ba,参见补充数据gydF4y2Ba1克ydF4y2Ba)。比较我们的RNA-Seq和Ribo-Seq数据集,我们观察2832 lncORFs转录,腺苷在细胞质中发现,在一个或多个阶段,但从未显示可再生的核糖体协会,我们称之为“transcribed-only”(无花果。gydF4y2Ba1 egydF4y2Ba)。有趣的是,我们还发现一组331 lncORFs显示可再生的核糖体(RPKM有约束力gydF4y2Ba《外交政策》gydF4y2Ba> 1给定阶段的两个副本),但没有证据表明框架在任何示例(图。gydF4y2Ba1 egydF4y2Ba)。这些lncORFs与前所述ribo-bound-only uORFsgydF4y2Ba5克ydF4y2Ba,并可能与核糖体翻译生产以外的原因。gydF4y2Ba

因为大小不一的RPF可能来自不同的核糖核酸酶保护事件,因此从独立的分子事件ribosome-ORF绑定,检测不同框架的RPF长度进一步翻译检测(图。gydF4y2Ba1 d, egydF4y2Ba)。我们发现强劲支持翻译lncORFs至少20框架之间的读取和4和85个独立翻译事件(rpf显示出不同大小的框架,要么,或来自不同的副本或阶段)(图gydF4y2Ba1 d, egydF4y2Ba补充图。gydF4y2Ba1 cgydF4y2Ba)。有趣的是很多记录与公认的非编码功能(如lncRNAs特征。gydF4y2BaIBIN,斯芬克斯gydF4y2Ba,gydF4y2Barox2gydF4y2Ba,gydF4y2BaHsr-omegagydF4y2Ba,gydF4y2BabxdgydF4y2Ba强劲)显示一个或多个翻译lncORFs(无花果。gydF4y2Ba1 fgydF4y2Ba)。gydF4y2Ba

独立证实lncORF翻译我们生成FLAG-tagged lncORFs和量化的版本S2细胞培养的表达式。lncORFs框架支持多个RPF大小显示强大的和可再生的标志信号,而ribo-bound-only或transcribed-only lncORFs不(图。gydF4y2Ba1 fgydF4y2Ba补充图。gydF4y2Ba1 dgydF4y2Ba),即使位于相同的RNA转录(见CR30055之后)。重要的是我们两Poly-Riboseq和标签数据证实lncRNAs的翻译提出了非编码功能,如gydF4y2BaIBINgydF4y2Ba38gydF4y2Ba(无花果。gydF4y2Ba1克gydF4y2Ba补充图。gydF4y2Ba1 dgydF4y2Ba)。gydF4y2Ba

的gydF4y2Ba果蝇gydF4y2Ba基因组注释基因预测算法使用不同的标准(如奥古斯都gydF4y2Ba39gydF4y2Ba、对比gydF4y2Ba40gydF4y2Ba,GeneIDgydF4y2Ba41gydF4y2BaNCBI日晷,简单gydF4y2Ba42gydF4y2Ba),同源性搜索引擎(主要是BLAST-based),与长期表现良好的编码序列,但那么短的gydF4y2Ba1克ydF4y2Ba,gydF4y2Ba11gydF4y2Ba,gydF4y2Ba43gydF4y2Ba,因此我们组的缺乏注释翻译lncORFs编码序列。最近PhyloCSF等编码序列预测gydF4y2Ba44gydF4y2Ba或AnABLASTgydF4y2Ba45gydF4y2Ba翻译非常有限,只有确定比lncORFs(分别为4.45%和0.7%)检测由Ribo-seq翻译研究中(是否健壮或有限)(补充图1 f),完全强调实验证据的重要性评估短羊痘疮的翻译。gydF4y2Ba

发展的监管lncORF翻译gydF4y2Ba

我们分析了lncORF翻译如何变化在三个不同的胚胎阶段。lncORFs翻译信号似乎更丰富的复制品在早期和中期发展阶段,188年和162年lncORFs,分别比83年年底胚胎发生(无花果。gydF4y2Ba2gydF4y2Ba)。总共259 lncORFs(89%的翻译在任何阶段)显示stage-specific翻译,而只有11%的本构翻译信号(33 292)(图gydF4y2Ba2gydF4y2Bab)。这种模式类似于uORFs和不同于规范羊痘疮,90%显示翻译,其中67%在阶段本构gydF4y2Ba5克ydF4y2Ba。这种发育调控可能涉及转录变化,变化量的核糖体绑定,或者在核糖体订婚的质量(框架)。转录变化不解释所有stage-specificity,表明真正的转化涉及监管。首先,多数翻译lncORFs转录在所有阶段(292年62%,182)(图gydF4y2Ba2 bgydF4y2Ba)。其次,翻译这些constitutively-transcribed lncORFs stage-specific的方式也会发生(无花果。gydF4y2Ba2摄氏度gydF4y2Ba)。进一步,我们观察到不断增长的大量的核糖体协会不一定决定生产翻译,如框架(补充图所示。gydF4y2Ba二维gydF4y2Ba)表明大量的核糖体协会并不是唯一的因素,有利于lncORF翻译,支持核糖体订婚的质量的重要性。gydF4y2Ba

图2:发展的监管lncORF翻译。gydF4y2Ba
图2gydF4y2Ba

一个gydF4y2Ba转录(白色),ribo-bound(红色),每个胚胎发育和翻译(绿色)lncORFs窗口。gydF4y2BabgydF4y2Ba维恩图解显示lncORFs每阶段,翻译信号lncRNAs。gydF4y2BacgydF4y2Ba既定的转录lncORFs也stage-specific的方式翻译。gydF4y2BadgydF4y2Ba定量波动lncORF翻译的阶段。TE(转化效率)为既定的转录lncORFs Z-ratios在胚胎发生。插图有重大变化的情节显示比例的lncORFs TE(17.6%)和那些没有显著的TE的变化。绝大多数(82.4%)的翻译lncORFs与表达在胚胎发生显示没有明显的量化调制在阶段转化效率(−1.5≥Z-ratio≥1.5),用于分析发展窗口(Early-to-Mid和中后期)的转换。lncORFs显著TE变化以红色突出显示。箭头表示从early-to-mid差别upregulation或对这些(浅蓝色)或中后期(深蓝色)转换。gydF4y2BaegydF4y2BalncORFs与本构不同细胞转录上下文显示高百分比的上下文相关的翻译:胚胎(蓝色,上面),36% (34 lncORFs);S2细胞(橙色,右)44% (42);和鸡蛋(绿色,左)40% (18)。gydF4y2Ba

比较样本182规范并具有类似特征的(本构转录和核糖体协会水平低(RPKMgydF4y2Ba《外交政策》gydF4y2Ba)证实,平移监管更为普遍在lncORFs(补充图。gydF4y2Ba2 a - cgydF4y2Ba),观察到的高水平的平移监管不仅仅是由于随机低表达水平的变化。gydF4y2Ba

进一步探索这转译监管发展的基础上,我们研究了定性的贡献变化核糖体绑定(从翻译(框架)非生产性绑定(仅ribo-bound))。我们观察到,这种定性的变化发生在38%(69 182)的既定的转录lncORFs。这是规范化并观察水平的两倍多,要么在我们lowly-expressed规范控制集(182年15%,27),或在规范orf孕产妇在早期胚胎发生(14%合子的过渡gydF4y2Ba5克ydF4y2Ba)。gydF4y2Ba

我们下一个使用182年的既定的转录lncORFs量化的作用强度的变化核糖体结合连续胚胎阶段之间的转化效率指标(TE = RPKMgydF4y2Ba《外交政策》gydF4y2Ba/ RPKMgydF4y2Ba核糖核酸gydF4y2Ba的比例,即转录翻译)。17% (32 lncORFs)在TE(图显示显著变化。gydF4y2Ba二维gydF4y2Ba),而其余的核糖体结合的稳定水平。只有1%(182)的低表达规范并进行定量转化的监管(补充图。gydF4y2Ba2 a - cgydF4y2Ba)。gydF4y2Ba

我们扩展我们的分析两个不同的上下文:S2细胞培养(来自晚了gydF4y2Ba黑腹果蝇gydF4y2Ba胚胎),未孕gydF4y2Ba黑腹果蝇gydF4y2Ba鸡蛋gydF4y2Ba31日gydF4y2Ba。虽然不同,但这些胚胎环境密切相关,但更复杂,因此提供其他生物设置我们可以检查lncORF平移的监管。我们确定了176 lncORFs翻译这三个语境里都转录信号。其中很大一部分lncORFs(44%、36%和40%,在S2细胞,胚胎和鸡蛋lncORFs,分别)显示上下文相关翻译信号(图。gydF4y2Ba2 egydF4y2Ba)。这些结果证实,定性转化监管lncRNA翻译的普遍特征。gydF4y2Ba

翻译是本地化的多顺反子lncRNAs的子集gydF4y2Ba

大多数转录lncORFs(2832 602年lncORFs lncRNA RPKM成绩单gydF4y2Ba核糖核酸gydF4y2Ba> 1)核糖体协会(RPKM缺乏gydF4y2Ba《外交政策》gydF4y2Ba> 1)。令人惊讶的是,大多数lncORF ribosome-binding在胚胎发生和翻译活动都包含在30%的转录lncRNAs(602 264年lncORFs lncRNAs,无花果。gydF4y2Ba3gydF4y2Ba)。的集群ribo-bound lncORFs lncRNAs这30%的显著不同,预计随机(无花果。gydF4y2Ba3 bgydF4y2Ba)。这表明,转录的一个子集lncRNAs比其他人更倾向于核糖体绑定。引人注目的是,77%的包含lncORFs lncRNAs健壮的翻译还包含其他lncORFs ribosomal-binding和/或有限的翻译。同样,63%的lncORFs有限的翻译与其他分享lncRNA lncORFs显示ribosome-binding或健壮的翻译(见下文,无花果。gydF4y2Ba3 egydF4y2Ba)。最后,还有一个重要的数量之间的相关性ribo-bound-only(非生产性)和其他lncORFsgydF4y2Ba独联体gydF4y2Ba显示翻译信号(有限或健壮的)(皮尔森gydF4y2BargydF4y2Ba= 0.5998,gydF4y2BapgydF4y2Ba< 0.0001)(图gydF4y2Ba3 cgydF4y2Ba)。gydF4y2Ba

图3:集群lncRNAs翻译的。gydF4y2Ba
图3gydF4y2Ba

一个gydF4y2Ba的一个子集lncRNA成绩单显示了翻译活动的积累gydF4y2Ba独联体gydF4y2Ba。根据翻译,比例文氏图代表lncRNAs信号检测在lncORFs(括号= lncORF数字)。底,两两重叠比较,显示相应的表现因素,及其意义(* * * *gydF4y2BapgydF4y2Ba< 0.0001,表示因素分析,看到“方法”)。gydF4y2BabgydF4y2Ba相同的lncORFs lncRNA核糖体绑定(RPKMgydF4y2Ba《外交政策》gydF4y2Ba> 1、橙),与预期相比,由泊松模型(蓝色)。向右值的交点(虚线)的浓缩gydF4y2Ba独联体gydF4y2Ba相关的绑定。gydF4y2BacgydF4y2Baribosome-bound-only之间的相关性和翻译lncORFs lncRNA相同。皮尔森的gydF4y2BargydF4y2Ba= 0.5998。gydF4y2BadgydF4y2BalncRNA长度并不能解释集群的特定lncRNAs核糖体绑定和翻译事件。小提琴块注释lncRNA记录长度(nt)在其lncORFs翻译信号检测的功能。gydF4y2BaNgydF4y2Ba= 866转录lncRNAs(见3面板)。“*”表示gydF4y2BapgydF4y2Ba值< 0.05。gydF4y2BapgydF4y2Ba为“reproducible-variable”比较= 0.0133;gydF4y2BapgydF4y2Ba为“reproducible-ribo-only”比较= 0.0183;gydF4y2BapgydF4y2Ba= 0.0198“reproducible-transcribed”比较。Mann-Whitney测试,双尾。gydF4y2BaegydF4y2BaCR30055是一个与多个orf lncRNA: ORF2强劲由Riboseq翻译,和ORF2-FLAG节目在S2细胞中表达,而ORF4 ribo-bound-only,并显示在S2细胞没有表情,尽管分享ORF2一样的成绩单。gydF4y2BafgydF4y2BaPolysomal RNA RPKM lncRNAs值从低多核糖体在S2细胞(2 - 4每lncRNA核糖体,顶部)和鸡蛋(2 - 6,底部)增强embryo-translated lncRNAs,表明翻译lncRNAs内在更高的亲和力核糖体。gydF4y2Ba

这个集群表明核糖体协会是一个属性的特定lncRNAs lncORFs反过来影响着。即给定lncORF的翻译似乎视其lncRNA参与核糖体的能力,因此与其他lncORFs ribosomal-binding在同一RNA。这个浓度的ribosome-binding并不是因为长lncRNA长度;事实上,lncRNAs没有ribosome-binding可以显著长于那些健壮的翻译(中位数:898元gydF4y2BavsgydF4y2Ba。687年,分别;gydF4y2BapgydF4y2Ba= 0.0198)(图gydF4y2Ba3 dgydF4y2Ba)。gydF4y2Ba

以证实核糖体协会优先显示某些lncRNAs不管上下文,并排除任何影响我们的PolyRiboSeq协议,我们生成的RiboSeq数据从单体lncRNAs分数(由一个核糖体rna结合)的S2细胞,并从鸡蛋RiboSeq数据分析gydF4y2Ba31日gydF4y2Ba。翻译的重叠lncORFs单体与多核糖体是非常重大的(73%,补充图。gydF4y2Ba3 bgydF4y2Ba),每lncORF及其分布的翻译事件(补充图也非常相似。gydF4y2Ba3 egydF4y2Ba)。这些结果排除特定于协议的偏见,即观察到集群不是由于我们的方法,PolyRiboSeqgydF4y2Ba5克ydF4y2Ba,关注polyribosomal rna(的方法)。为了进一步排除协议或上下文的偏见,我们研究Polysomal性能分析数据,由直接测序rna位于Polysomal分数gydF4y2Ba31日gydF4y2Ba。我们观察到lncRNAs包含翻译orf的胚胎也显示非常重要在polysomal RNA RPKM upregulation S2细胞平均记录RPKM约52.5,在低(无花果。gydF4y2Ba3 fgydF4y2Ba)和高polysomal分数(补充图。gydF4y2Ba3 cgydF4y2Ba)。同样,lncRNAs embryo-translated orf也显示polysomal表达明显高于鸡蛋(图。gydF4y2Ba3 fgydF4y2Ba补充图。gydF4y2Ba3 cgydF4y2Ba)。gydF4y2Ba

有趣的是,一些以前描述的lncRNAsgydF4y2BabxdgydF4y2Ba,gydF4y2BaHsr-omegagydF4y2Ba和gydF4y2BaUhg1gydF4y2Ba等等,都是这群的一部分lncRNAs多核糖体与高亲和力,而其他人没有(gydF4y2BaUhg2gydF4y2Ba)。我们的翻译分析还表明,从这些lncRNA成绩单gydF4y2Ba位点gydF4y2Ba包含不同的lncORFs具有不同程度的核糖体协会gydF4y2Ba独联体gydF4y2Ba:lncORFs ribosome-binding没有生产力的翻译,lncORFs有限的翻译,和强劲lncORFs翻译。的gydF4y2BaHsr-omegagydF4y2Ba成绩单也港口microrna的序列,它之前已经表明lncRNAs可以作为microrna的前兆gydF4y2Ba46gydF4y2Ba,microrna的前兆记录可以编码功能micropeptidesgydF4y2Ba47gydF4y2Ba。这促使我们研究重叠带注释的microrna的序列和我们组lncRNAs microrna的存在是否有任何关系lncRNAs的翻译。总的来说,我们发现61 lncRNAs可以充当microrna的前兆,翻译的也只有三个代码lncORF(是否强劲或变量)(补充图。gydF4y2Ba4gydF4y2Ba),这表明翻译lncRNAs事实上microrna的枯竭,因此,这些bi-functional成绩单是罕见的。gydF4y2Ba

从三个不同的技术,数据(PolyRiboSeq RiboSeq和Polysomal剖析)表明lncRNA-ribosome协会多次在lncRNAs的子集,发现,lncORF翻译与这个属性相关联。lncORF翻译,这表明一支模型中特定lncRNAs往往与核糖体,它是必要的,但不充分,条件最终翻译一些lncORFs多顺反子或quasi-polycistronic方式,与特定的身份lncORFs要翻译由于内在和外在因素之间的相互作用(见部分发育调控lncORF翻译上面和下面的“分子因素驱动lncORF翻译”)。gydF4y2Ba

分子因素lncORF翻译gydF4y2Ba

为了更好地理解机制个人lncORF翻译,我们分析了不同的特性和相关个人lncORFs的翻译方式。翻译的一般预测更高数量的核糖体结合相对于转录,翻译lncORFs显示类似的分布转化效率(TE)值的规范编码基因和uORFs翻译gydF4y2Ba5克ydF4y2Ba(无花果。gydF4y2Ba4gydF4y2Ba)。gydF4y2Ba

图4:表达水平gydF4y2Ba独联体gydF4y2Ba因素影响lncRNA翻译。gydF4y2Ba
图4gydF4y2Ba

一个gydF4y2Ba转化效率在lncORF类别。小提琴情节转化效率值(TE),平均在胚胎发生)中所有lncORFs每个翻译类,和规范注释orf uORFs(数据从Patraquim et al。gydF4y2Ba5克ydF4y2Ba)。厚的虚线表示中位数,细虚线表示低级和高级质量(注意适度调整RNA水平——补充图。gydF4y2Ba3gydF4y2Ba)。gydF4y2BabgydF4y2Ba科扎序列,对规范ORF序列共识,得分lncORFs翻译不同状态(0 = canonical平均;颜色如gydF4y2Ba一个gydF4y2Ba)。强劲翻译lncORFs大幅科扎序列接近规范羊痘疮。NgydF4y2BaTranscribed-onlygydF4y2Ba= 2701;NgydF4y2BaRibo-bound-onlygydF4y2Ba= 310;NgydF4y2BaVariableTransl。gydF4y2Ba= 185;NgydF4y2Ba健壮的gydF4y2Ba= 107。“*”表示gydF4y2BapgydF4y2Ba< 0.05(具体gydF4y2BapgydF4y2Ba= 0.0364。Mann-Whitney测试,双尾)。gydF4y2BacgydF4y2Ba频率分布的相对lncORF职位lncRNA (cistronicity)(1 =接近5′末端),每个翻译类(颜色一样gydF4y2Ba一个gydF4y2Ba)。虚线和数字表示中位数的值。gydF4y2BadgydF4y2Ba类似的翻译lncORFs cistronic职单体(暗橙色)和多核糖体(淡黄色)。gydF4y2BaegydF4y2Ba在多顺反子的开放框架2的翻译gydF4y2Ba塔尔gydF4y2Ba成绩单丢失在上游ORF的终止密码子gydF4y2Ba1gydF4y2Ba(gydF4y2Ba塔尔gydF4y2Ba1 a-nsgydF4y2Ba),它扩展超出了终止密码子的开放框架1 2(黄色),没有机会离开5′- 3′重启发生。ATG:起始密码子。TAA:实际的终止密码子。AAA:突变的终止密码子。源数据作为源数据文件提供。gydF4y2Ba

我们也分析了科扎克7-nucleotide序列,已知影响转化在起始密码子开始gydF4y2Ba48gydF4y2Ba,gydF4y2Ba49gydF4y2Ba(无花果。gydF4y2Ba4 bgydF4y2Ba补充图。gydF4y2Ba4 bgydF4y2Ba)。科扎克强劲翻译lncORFs显示序列明显接近最优共识(gydF4y2BapgydF4y2Ba= 0.0364 *gydF4y2BaVsgydF4y2Balimitedly-translated lncORFs;gydF4y2BapgydF4y2Ba= 0.0079 * *gydF4y2BaVsgydF4y2BaRibosome-bound lncORFs)。科扎克本品翻译lncORFs显示得分只有ribosome-bound(类似gydF4y2BapgydF4y2Ba= 0.6798gydF4y2BaNSgydF4y2Ba),这表明一个组件的变化可能是弱科扎序列。有趣的是,RPKM之间没有相关性gydF4y2Ba《外交政策》gydF4y2Ba和科扎上下文(皮尔森gydF4y2BargydF4y2Ba= 0.03716,gydF4y2BapgydF4y2Ba= 0.3627),而此背景下有一个小但是很显著相关框架(皮尔森gydF4y2BargydF4y2Ba= 0.1054gydF4y2BapgydF4y2Ba= 0.0096 * *)。因此,科扎克序列可能主要影响特定的识别8月来指导在坐标系lncORF翻译,符合其已知的角色在促进核糖体的组装在规范开始,而核糖体协会(RPKM的净额gydF4y2Ba《外交政策》gydF4y2Ba)必须包括额外的因素,如5′帽和3′UTR序列。gydF4y2Ba

我们发现一个惊人的相关性的翻译状况lncORF及其5′,3′位置gydF4y2Ba独联体gydF4y2Ba在其lncRNA成绩单,相对于其他orf(无花果。gydF4y2Ba4摄氏度gydF4y2Ba)。虽然lncORFs transcribed-only显示中间位置的7日记录,ribo-bound-only的显示值第四的位置。限度地翻译并显示较低的中间位置,第三,而对于强劲翻译中地位下降2。在后一种情况下,超过三分之一的lncORFs是第一个ORF在他们的成绩单。这个引人注目的位置效应也观察到单体(无花果。gydF4y2Ba4 dgydF4y2Ba),这表明它影响lncRNA翻译的开始。这个职位对翻译的影响潜在适合的模型5′,3′重启多顺反子成绩单的翻译,在酵母和建议gydF4y2Batarsal-lessgydF4y2Ba8gydF4y2Ba。通过这种机制,翻译可以re-initiate 3′(唯一的)翻译ORF,但与减少效率不是所有核糖体re-initiate翻译的3′羊痘疮gydF4y2Ba50gydF4y2Ba,gydF4y2Ba51gydF4y2Ba。我们证实了这种机制的良好多顺反子gydF4y2BatarsallessgydF4y2Ba成绩单gydF4y2Ba5克ydF4y2Ba,gydF4y2Ba8gydF4y2Ba,gydF4y2Ba52gydF4y2Ba,gydF4y2Ba53gydF4y2Ba在下游,我们延长了tal1A ORF tal2A ORF,通过移除tal1A停止密码子,所以由此产生的ORF tal2A开始后才停止密码子。这一修改完全排除了tal2A翻译,因为,在这种情况下,核糖体只re-initiate tal2A起始密码子的下游(无花果。gydF4y2Ba4 egydF4y2Ba补充图。gydF4y2Ba4摄氏度gydF4y2Ba)。gydF4y2Ba

更令人吃惊的是缺乏密码子和胺基酸的使用对翻译的影响的信号,因为使用罕见的图示和AAs可以推迟翻译gydF4y2Ba54gydF4y2Ba。尽管lncORFs一般显示非规范使用AA(补充图。gydF4y2Ba4 dgydF4y2Ba参,见也。gydF4y2Ba3gydF4y2Ba,gydF4y2Ba11gydF4y2Ba(补充图)和最优密码子用法。gydF4y2Ba4 egydF4y2Ba),我们观察到的翻译和ribo-bound种群之间没有显著差异的度量(补充图。gydF4y2Ba4 d, egydF4y2Ba),这表明翻译lncORFs不是进化调整编码效率,可能反映了较低的资源需求,考虑到他们一般温和的翻译水平和发展受限制的表达模式,和/或最近的进化起源。gydF4y2Ba

系统保护支持lncRNA翻译和micropeptide函数gydF4y2Ba

子从一个非编码区最近指出,和中立进化gydF4y2Ba55gydF4y2Ba。然而,评估确定orthologues保护取决于能力。我们组曾表明,标准homology-detection方法等不适合smORFs爆炸gydF4y2Ba1克ydF4y2Ba。基于检测和实验上的成功经验确凿smORF orthologues,包括假定的lncRNAsgydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba56gydF4y2Ba,gydF4y2Ba57gydF4y2Ba1.0,我们已经开发出GENOR,生物管道smORF同源性检测(无花果。gydF4y2Ba5gydF4y2Ba和“方法”)。简单地说,它依赖于复发gydF4y2Ba手提钻gydF4y2Ba搜索识别潜在smORF同系物,使用搜索和倒数MAFFT对齐得分达到验证。我们已经在网上翻译这个管道应用于广泛的转录组数据用于12 Drosophilid物种。gydF4y2Ba

图5:lncORF序列在进化gydF4y2BaDrosophilidsgydF4y2Ba和小说的出现的编码基因。gydF4y2Ba
图5gydF4y2Ba

一个gydF4y2BaGENOR管道的检测smORF进化的保护的gydF4y2Ba果蝇gydF4y2Basp.属。每个smORF用于查询,通过手提钻、smORF数据库获得可用的RNA表达数据为每个目标物种,确保假定的同系物来自基因转录。匹配相互打击使用MAFFT对齐,smORF-calibrated阈值的分数决定的保护地位最高达到每ORF(见“方法”)。gydF4y2BabgydF4y2Bascds的同系物被GENOR,策划反对的数量gydF4y2Ba果蝇gydF4y2Ba物种的同系物是确定。gydF4y2BacgydF4y2BaCG1307 AA序列比对,sCDS缺乏注释同系物,及其GENOR-identifiedgydF4y2BaDsimgydF4y2Ba和gydF4y2BaDvirgydF4y2Ba同系物。gydF4y2BadgydF4y2Ba平均保护得分在强劲翻译或ribo-bound-only lncORFs,和翻译scds的6种gydF4y2Ba果蝇gydF4y2Ba发展史。浅绿色矩形:系统距离与实质性保护信号翻译lncORFs GENOR探测到。黄色:百万年前(缅甸)。gydF4y2BaegydF4y2BaRobustly-translated lncORFs表明净化选择。分布的dN / dS值测量自然选择(部分保守核苷酸变化与核苷酸变化保存AA序列)作用于强劲翻译(绿色)或ribo-bound-only lncORFs(红色),两两之间的ORF比对gydF4y2BaDmelgydF4y2BalncORFs和syntenic羊痘疮gydF4y2BaDsimgydF4y2Ba或gydF4y2BaDsecgydF4y2Ba。“* *”表示gydF4y2BapgydF4y2Ba< 0.01(具体gydF4y2BapgydF4y2BaDmel-Dsim = 0.0074;确切的gydF4y2BapgydF4y2BaDmel-Dsec = 0.0029)。Mann-Whitney测试,双尾。gydF4y2BafgydF4y2BaAA和核苷酸序列比对lncORF FBtr300230_2,内gydF4y2Bauhg4gydF4y2Ba成绩单,其gydF4y2BaDsimgydF4y2Ba同系物被GENOR,很大程度上AA的保护,和一种核苷酸的变化(dN / dS得分:0.33)与一个编码函数lncORF一致。替换高亮显示的黄色方块。蓝色:同义替换,红色:非同义的。gydF4y2BaggydF4y2BaGENOR-detected同系物的翻译gydF4y2BaDmelgydF4y2BalncORFs在gydF4y2BaDvirgydF4y2Ba或超越,加载到多核糖体gydF4y2BaDvirgydF4y2Ba,这表明他们的翻译也可以保存(完全与分子量凝胶可以在这个手稿的“源数据”文件)。gydF4y2BaDmel: d。Dsim: d . simulans。Dsec: d . sechelia。溪谷:d . erecta。Dpse: d . pseudoobscura。Dmoj: d . mojavensis。Dvir: d virilisgydF4y2Ba。源数据作为源数据文件提供。gydF4y2Ba

首先,我们已经验证了这个管道通过分析862注释shortCDSs,即smORFs已经标注为编码,倾向于编码多肽的大约80 aa在monocistronic mrna的长度gydF4y2Ba11gydF4y2Ba。GENOR检测同源666 670 sCDS的带注释的orthologues,通常延长更遥远的物种的同源性。进一步,191年smORFs没有注释在果蝇同源,GENOR-detected同系物为186(标识阈值> 50%,无花果。gydF4y2Ba5 b, cgydF4y2Ba补充图。gydF4y2Ba5gydF4y2Ba)。其中,153年同系物在多个物种(无花果。gydF4y2Ba5 bgydF4y2Ba。这些结果表明,GENOR达到和超出标准方法检测对小型个开放式框架同源性。gydF4y2Ba

应用管道lncORFs,我们观察到,虽然他们是卑微的守恒的,那些有核糖体协会内可以是守恒的gydF4y2Ba果蝇gydF4y2Ba属(无花果。gydF4y2Ba5 d, fgydF4y2Ba补充图。gydF4y2Ba5 bgydF4y2Ba,参见补充数据集gydF4y2Ba1克ydF4y2Ba)。在这一群体中,强劲翻译lncORFs显示比纯ribo-bound更高程度的保护。换句话说,保护深度(ORF年龄)和翻译状态(图关系非常密切。gydF4y2Ba5 dgydF4y2Ba)。这种保护可以扩展到属,但多限于姊妹物种gydF4y2Ba黑腹果蝇gydF4y2Ba(gydF4y2Bad . simulansgydF4y2Ba和gydF4y2Bad . secheliagydF4y2Ba),兼容lncORFs出现在小说翻译的编码序列(基因)gydF4y2Ba果蝇gydF4y2Ba属(补充图。gydF4y2Ba5 bgydF4y2Ba)。lncORF组之间在这些物种中,重叠的守恒(按GENOR)或强劲翻译(按框架分析)是显著和显著高强劲翻译lncORFs(补充图。gydF4y2Ba5度gydF4y2Ba),表明先前观测到的关联翻译的地位和保护预计不会在一个随机样本之间的传播的预计4和8倍。这丢弃被动保护由于系统发生亲密关系的解释这些结果。这些强劲的几个例子翻译和守恒lncORFs (gydF4y2Ba果蝇simulans)gydF4y2Ba可以咨询补充图。gydF4y2Ba5 dgydF4y2Ba。gydF4y2Ba

然而,保护orf编码并不意味着编码的肽的功能。例如,uORFs可以有一个非编码功能gydF4y2Ba独联体gydF4y2Ba平移监管机构,由核糖体绑定和捕获、和独立编码的多肽。确定保护编码函数,我们研究了在lncORF序列核苷酸替换的模式,特别是是否有一个进化自然选择作用于这些编码序列的签名。dN / dS分析显示相当流行的同义替换保存翻译lncORFs的编码序列,而这种效应不明显出现在ribo-bound或转录只lncORFs(无花果。gydF4y2Ba5 dgydF4y2Ba,参见补充数据集gydF4y2Ba2gydF4y2Ba)。这种效果不是一个人工制品由于偏见和更强烈的替换率翻译lncORFs,自净的核苷酸保护所有lncORFs(补充图相似。gydF4y2Ba4 fgydF4y2Ba)。这观察表明,翻译lncORFs被选中。gydF4y2Ba

最后一个观察的进化和选择符合翻译lncORFs ORF长度。子长度的比较表明,强劲翻译lncORFs往往大大超过ribo-bound只有ORF(补充图。gydF4y2Ba4 ggydF4y2Ba),一个有趣的观察,因为大比短的肽可能会更稳定,因此更容易传达一个生物功能。这个观察不是一个人工制品,但可能反映了翻译序列的进化选择;首先,我们不是length-dependent二项式管道gydF4y2Ba5克ydF4y2Ba。第二,lncORFs预期的随机长度gydF4y2Ba11gydF4y2Ba强劲,而翻译lncORFs只要ribo-bound的两倍,这是高度不可能只是偶然发生。gydF4y2Ba

讨论gydF4y2Ba

lncRNA翻译gydF4y2Ba

应用核糖体与广泛的测序深度和分辨率的增加框架分析揭示了动力学与核糖体lncRNA协会。lncRNA翻译可以反复观察到lncRNAs的30%,在至少两个独立的生物样品,每个包括几个独立的翻译事件。此外,这个翻译可以复制体外细胞培养中使用标记羊痘疮。最后,这种转换的分子签名(RNA的脚印大小由核糖体保护,偏爱密码子框架)是相同的在规范mrna羊痘疮,这样通常无法区分一个人是否规范的开放框架数据标识ORF,或lncORF。例外可能是核糖体结合强度和翻译,lncORFs通常较低,尽管案件canonical-like强劲的信号。我们得出这样的结论:lncRNA翻译是一个规范化的复制品,但较低的强度和较低的机会本构,因素阻止了其明确的识别和表征。我们注意到其他的研究依赖于小样本大小(无论是从绝对数量的RiboSeq读取,读取映射到基因组的数量,和读取用于确定框架)gydF4y2Ba31日gydF4y2Ba,gydF4y2Ba36gydF4y2Ba。这样的“平均”抽样,虽然足够规范mrna, lncRNA翻译的可能不允许可靠的检测;我们建议最小深度/覆盖4000万映射读取映射每~ 1000转录必须使用lncRNAs复制品。gydF4y2Ba

lncRNA翻译似乎是一个两步的过程受到特定因素的影响(图gydF4y2Ba6gydF4y2Ba):首先,一些lncRNAs倾向于定位与核糖体多核糖体和关联,所揭示的PolyRiboSeq Polysomal剖析。集群在同一lncRNA lncORFs显示强劲或有限的翻译,或者ribosomal-binding-only,可以解释的亲和力lncRNA核糖体。上下文的环状RNA翻译,每个RNA进行几个周期的翻译同样的核糖体,核糖体RNA 5′捕获的帽,和随后的核糖体接触和保留一些羊痘疮可以受益所有其他羊痘疮的成绩单。特定数量的翻译将会由科扎克拟合优度,5′位置,这表明一个重启机制所显示的gydF4y2Ba塔尔gydF4y2Ba,5′,3′效率递减。gydF4y2Ba

图6:激活模型lncRNA翻译,和小说的演变的编码基因。gydF4y2Ba
图6gydF4y2Ba

一个gydF4y2Ba分子特性直接关系到lncRNA翻译(红色)和那些与相关流程(蓝色)。gydF4y2BabgydF4y2Ba进化收购lncORF翻译通过吸积的分子特性gydF4y2Ba一个gydF4y2Ba),导致小说的出现编码基因。数据从这个和其他作品gydF4y2Ba5克ydF4y2Ba,gydF4y2Ba11gydF4y2Ba。gydF4y2Ba

核糖体绑定必须需要特定RNA属性,如稳定性、细胞质本地化,多聚腺苷酸尾,和一个适当的RNA的长度,和它的主要功能不需要翻译,但是一些监管活动,其他记录,或lncRNAs本身。甚至有可能为一些lncRNAs polysomal本地化最初是次生的结果大多是无关紧要的非编码功能:例如,聚(反面可能加强lncRNA稳定,polysomal定位可能是一个意想不到的小单元格的功能意义的结果。然而,有证据表明多核糖体是一个活跃的站点lncRNA退化gydF4y2Ba58gydF4y2Ba,这将提供一个非编码功能的相关性。类似的核糖体结合可能是一个开创性的来源,非生产性一轮核糖体扫描NMD打样的一部分。最后,核糖体绑定可以监管或结构性lncRNAs非编码功能的作用。uORFs已被证明gydF4y2Ba独联体gydF4y2Ba规范的翻译规范并在同一mRNA,要么消极gydF4y2Ba59gydF4y2Ba或者通过稳定gydF4y2Ba5克ydF4y2Ba。gydF4y2Ba

在第二个步骤中,在这些ribosome-bound lncRNAs,翻译特别lncORFs青睐的特定分子的特性,如核糖体接触强度和保留ORF (TE)透露,科扎克最优序列指导8月启动,最后,核糖体,成绩单由5′位置,因为效率3′重启更低。虽然角色non-AUG翻译一直在塑造建议翻译项目,我们还没有解决它在目前的研究中,作为其效率低,8月开始基码相比,预计将显著影响其检测对于lncRNAs。它,然而,可以想象,这些lncORFs Ribo-bound或显示有限的翻译实际上是强劲翻译但缺乏框架由于漏水的核糖体占领信号来自一个重叠non-AUG lncORFsgydF4y2Ba60gydF4y2Ba。最后,发展stage-specific因素必须利用这些特性对翻译在监管的方式。例如,这些因素可能会相对可用的特定因素,翻译或特定核糖体组件或转运rna(根据密码子的使用,lncORF tRNA需求不同的礼服)。健壮或有限的表达翻译也可能取决于内在的结合(RNA和ORF)和/或上下文相关的特性。因此lncORFs拥有有限的翻译在胚胎发生可以显示出旺盛的翻译在其他生命阶段或非标准环境条件下。gydF4y2Ba

这些观察又符合规范的翻译模式,外加多顺反子重启(科扎克)。健壮的翻译5′lncORF可能导致核糖体绑定和/或有限的翻译另一个lncORF位于3′的重启,偶尔会产生多顺反子的翻译。我们证明机制的多顺反子的翻译(重启)gydF4y2Ba塔尔gydF4y2Baex-lncRNA,我们通过基因编码显示功能肽gydF4y2Ba8gydF4y2Ba,由RiboSeq翻译gydF4y2Ba5克ydF4y2Ba。gydF4y2Ba

lncORF进化gydF4y2Ba

分子特征有利于lncORF翻译可能最初随机(图。gydF4y2Ba6 bgydF4y2Ba),然后保存或改善lncORFs编码优势肽,表示的保护他们的AA序列在进化。反过来,净化选择的观测实例是强大的证明这些编码micropeptides翻译和功能。如果他们没有功能,AA序列就不会被选中和守恒的;但被选中,这些序列需要暴露在自然选择,即。,他们必须被翻译成肽。gydF4y2Ba

强劲翻译在短的进化距离lncORFs要么是守恒的,或似乎出现新创gydF4y2Bad .腹gydF4y2Ba。因此,他们看起来像预期的那样新奇的编码基因,拟合,其密码子使用还没有进化成规范的最适条件,和核苷酸水平整体的进化(揭示了Phylo-P(这项工作),PhastConsgydF4y2Ba3gydF4y2Ba,密码gydF4y2Ba30.gydF4y2Ba。反过来,限制翻译,ribo-bound-only lncORFs像原基因,即与亚阈值核糖体翻译协会和随机序列,形成一个水库的pre-adaptations等待有利条件成为新创的基因。这些条件可以持续的压力或其他细胞或有机体的环境的变化,导致基因表达的变化和翻译在特定的器官或时刻的生命周期。观察到的易感性lncORFs平移监管可以支持这一过程,反过来,为新肽功能领域的收购。gydF4y2Ba

对于我们大多数的生物标记,我们观察连续从transcribed-only ribo-bound-only,限制翻译,最后强劲lncORFs翻译;然后,从强劲翻译lncORFs短信用违约互换和规范羊痘疮gydF4y2Ba5克ydF4y2Ba,gydF4y2Ba11gydF4y2Ba。这包括(a)分子标记的翻译;(b) AA保护,和(c)编码的肽的特征,如长度和AA的使用(见也gydF4y2Ba11gydF4y2Ba)。这些相关性表明,这个连续体进化,从规范的编码基因的非编码序列,从而导致小说编码基因(图。gydF4y2Ba6 bgydF4y2Ba)。从非编码lncORFs过渡到编码的似乎发生在一个属,即在时间尺度的数百万至数千万年。这个时间尺度符合观察单细胞真核生物gydF4y2Ba30.gydF4y2Ba,但必须进一步测试,和分子过程进一步的定义。例如,非编码转换/编码似乎发生在潜在的多顺反子rna,无论是lncRNAs(本文)或通过uORFs mrnagydF4y2Ba5克ydF4y2Ba,gydF4y2Ba14gydF4y2Ba。借款uORFs概念我们提出,似乎lncRNAs也像“基因苗圃”。然而,单细胞真核生物基因组包括uORFs,但lncRNAs程度较轻,所以“基因出生”机制可能在进化过程中多元化。gydF4y2Ba

lncRNA翻译功能gydF4y2Ba

建立了lncRNA翻译的原则,首先通过实验证明特定lncORFs的编码功能gydF4y2Ba8gydF4y2Ba,gydF4y2Ba10gydF4y2Ba,gydF4y2Ba12gydF4y2Ba,gydF4y2Ba56gydF4y2Ba,gydF4y2Ba61年gydF4y2Ba,gydF4y2Ba62年gydF4y2Ba,然后通过扩展这个发现基因组水平gydF4y2Ba6gydF4y2Ba,gydF4y2Ba63年gydF4y2Ba,gydF4y2Ba64年gydF4y2Ba和本研究),下一个问题是实际的翻译orf的分子功能,并执行他们的细胞作用的编码和micropeptides翻译。我们发现强劲lncORFs翻译成一组包含AA保护序列,明确证据表明一个好的比例的这个群体是在蛋白质水平发挥它的功能。Micropeptide函数并不排除共存,甚至协同编码lncRNA非编码功能。例如,uORFs有稳定的翻译gydF4y2Ba独联体gydF4y2Ba下游正则子gydF4y2Ba5克ydF4y2Ba,但也生产micropeptides绑定和功能配合蛋白质编码等gydF4y2Ba独联体gydF4y2Ba规范并gydF4y2Ba14gydF4y2Ba。同样,micropeptides lncRNA已被证明产生的增强的功能产生的microrna lncRNA相同gydF4y2Ba65年gydF4y2Ba,但我们观察到gydF4y2Ba果蝇gydF4y2Ba腹gydF4y2Ba,这种类型的双重职能必须是罕见的。或者,它可能lncORF micropeptides lncRNA功能独立的编码;最后,主要或唯一一些lncRNAs生产功能性micropeptides的函数。的确,有重复的证据归类为非编码的基因,却被发现是编码功能micropeptides至关重要的和多样化的功能在多细胞真核生物,植物,脊椎动物和无脊椎动物gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba。一般主题micropeptide函数的能力和管理规范的蛋白结合,一个函数适合他们的体积小,也可能限制结构的角色。这里我们观察翻译在lncRNAs非编码特征函数,但只有进一步的研究可以区分这些可能性。gydF4y2Ba

lncRNAs然而,最重要的功能可能不实际,但潜在的:他们有能力充当“基因苗圃”为我们的基因组提供新的基因进化,因此不局限于回收现有编码序列在产生新的适应当前和新的挑战。反过来,我们看到诱人的可能性研究的潜在能力lncORF“原基因”:例如,lncORF micropeptides“异国情调”AA序列没有观察到典型的蛋白质gydF4y2Ba11gydF4y2Ba(补充图。gydF4y2Ba4摄氏度gydF4y2Ba),而sCDS肽的抗菌活性是一种常见的功能gydF4y2Ba10gydF4y2Ba,gydF4y2Ba11gydF4y2Ba,gydF4y2Ba66年gydF4y2Ba,翻译lncORF与抗菌肽潜在应该遇到不自然抗性如果他们人为表达。gydF4y2Ba

澄清这些可能性的数百名lncRNAs和lncORFs每个物种可能需要确定实验工作,在可预见的未来。我们无法评估1679 lncRNAs不显示转录翻译的胚胎,并进一步,鉴于lncRNA可变性翻译,也有可能一些lncRNAs我们观察在胚胎发生可能不会翻译翻译在另一个上下文中gydF4y2Ba黑腹果蝇gydF4y2Ba,或者在一个相关的物种。鉴于许多lncRNAs特点我们已经测试了也发现在脊椎动物和植物gydF4y2Ba11gydF4y2Ba,我们期望这适用于真核多细胞动物。从我们的数据外推法,揭示了每个转录lncRNA 0.3 micropeptides,我们估计约7000 non-annotated,小说micropeptides存在于人类。lncRNA功能因此,虽然这些不确定性还在继续,我们相信保持毛毯分类成千上万的在每一个基因组的非编码rna缺乏相关数据的情况下,只能阻碍我们这些序列的科学认识。寻找科学精确,为了避免混淆,解决方案可能是保护lncRNA缩略词,然而改变其意义非规范rna′′长,不歧视他们的功能。gydF4y2Ba

方法gydF4y2Ba

RNA序列和基因表达的量化gydF4y2Ba

RNA-Seq和Poly-Ribo-SeqgydF4y2Ba

我们第一次使用发表胚胎RNA, Poly-Ribo-Seq样本gydF4y2Ba5克ydF4y2Ba,收集所有以前获得读取和执行额外的排序相同的样本- 822额外的原始Poly-Ribo-Seq RNA-Seq读取,进一步获得7700万genome-aligned核糖体的足迹和3900万genome-aligned细胞质RNA读取,总共570 Riboseq和256米RNAseq读取。所有小说测序的胚胎阶段就进行以前收集的生物样品和汇集所有以前公布的数据相同的生物样品和协议,在生物处理之前描述的管道gydF4y2Ba5克ydF4y2Ba;genome-alignment和羊痘疮的量化表达的实验条件都重新计算完成测序,使用前面描述的方法。gydF4y2Ba

Polysomal剖析gydF4y2Ba

Genome-alignment和基因表达分析以前公布polysomal分析数据集进行相同的方式为他人测序出版。数据集的分析发表在其他地方,和网上gydF4y2Ba3gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba。gydF4y2Ba

lncORF预测和选择gydF4y2Ba

所有ncRNAs果蝇库6.13版本(gydF4y2Badmel-all-ncRNA-r6.13.fastagydF4y2Ba)是公认的orf扫描(AUG-STOP)最低的10码,用浮雕gydF4y2BagetORFgydF4y2Ba(gydF4y2Bagetorf找到1反向不-minsize 30最大容量450gydF4y2Ba),产生22262羊痘疮。这组的基因组坐标长非规范RNA orf (lncORFs)然后消除重复和内部子相比,导致一组18507个orf独特的坐标。最后,这些羊痘疮的坐标是相对于其他羊痘疮类(命令gydF4y2Babedtools相交- v - s - agydF4y2Ba;没有重叠的注释编码序列和uORFs)获得一组16335个不同的,重叠lncORFs进行进一步分析。子从其他RNA以前定义的类集gydF4y2Ba5克ydF4y2Ba。gydF4y2Ba

比较框架的开放框架类gydF4y2Ba

核糖体rRNA-depleted读取(角度)的完整的预测ORFome保持一致gydF4y2Ba黑腹果蝇gydF4y2Ba。对于每个集开放框架中,AUG-STOP包括地区,以及−18 + 15核苷酸ORF周围的延伸。ORF类被分离和分析全球框架模式,单独使用riboSeqR包;所有rfp 26-36核苷酸长度被使用,以及随后的框架分析。每RPF长度,占主导地位的帧在每一个ORF类被定义为正确地翻译框架,与其余两个噪音。这允许我们比较全球框架模式类使用枪兵的排序相关性。gydF4y2Ba

高分辨率框架gydF4y2Ba

在每个子框架模式分别进行评估每个RPF 26-36核苷酸长度使用二项测试gydF4y2BapgydF4y2Ba< 0.01gydF4y2Ba5克ydF4y2Ba。每个RPF长度的帧被认为是翻译定义为主要框架的ORF类(见上图)。orf的阅读模式,通过了二项测试在一个给定的RPF被认为是分阶段或框架。gydF4y2Ba

定义一组真正的转化子gydF4y2Ba

每阶段,我们定义了一个ORF翻译成RNA-Seq RPKM > 1两种复制(转录),以及Poly-Ribo-Seq RPKM > 1生物复制(Ribo-bound)和框架在至少一个RPF长度(框架)。如果最后一个条件没有满足,并被认为是Ribo-Bound-only,没有高效的翻译。转录事件的唯一信号在一个给定的ORF,我们将它定义为“Transcribed-only”。这使得转录组的定义,Ribo-bound以及翻译orf每阶段。在翻译组,并显示框架在一个副本只被认为是“有限的”,这些框架在两个副本“健壮”。gydF4y2Ba

克隆gydF4y2Ba

我们的战略ORF RNA和子上下文标记方面,引入3′标签lncORFs同时保持他们5′utr。选择lncORFs 5′utr和cd,通过PCR,从胚胎cDNA克隆到pAWF GCG国旗ATG起始密码子的突变。克隆是由内音响组装、消化pAWF向量EcoRV和子囊,和用引物重叠区域,重组标志序列。gydF4y2Ba

S2细胞培养、转染和成像gydF4y2Ba

S2细胞种植在标准条件下施耐德´s中有10%的边后卫。转染,进行Effectene(试剂盒),在poly-l-lysine盖玻片,在12-well文化板块,播种500000细胞800µL媒体,并使用300 ng的DNA转染(100 ng Act5-lncORF-FLAG 100 ng act5-gal4 100 ng UAS-mCD-RFP8)。48 h后,细胞被固定为20分钟4%甲醛、洗1 x PBS, 0.1% Triton x - 100 (PBTx),与PBTx阻塞,2% wt /卷BSA在免疫染色主要鼠标anti-FLAG M2抗体(σ)1/1000和二级anti-mouse FITC(西格,杰克逊PA)在1/500。转染都孵化与DAPI 10分钟(σ)根据制造商的说明细胞核染色和安装Vectashield(向量实验室,伯林盖姆,CA)。使用徕卡63 x计划高度消色透镜成像进行了油浸在徕卡镜头Stellaris共焦显微镜,收购350µm / 350µm 4-tile数组,和Z-stack 1.6μm拍摄的图像片间隔(6片/数组)。图像J和标准插件(v 1.53 c)被用于量化的旗语。为每个数组,阈值图像合并后所有的颜色被用来创建一个面具为了映射数组中的所有细胞颗粒(使用粒子分析仪插件,大小100无限)。对于每个粒子,绿色和红色的平均强度测量。对于每个实验我们绘制的前30名值绿色信号(国旗),正常的平均排名前30位的红色信号(mCD8-RFP)值(考虑到实验)之间可能的转染效率的变化。R (v.4.0.3)和GraphPad棱镜(v.9.1.1)是用于统计分析。gydF4y2Ba

定量的变化翻译效率gydF4y2Ba

我们使用Z-ratios评估重要的定量变化转化效率/羊痘疮。简而言之,翻译效率(TE) ORF首次计算的分数正常读取(RPKM核糖体绑定gydF4y2Ba《外交政策》gydF4y2Ba)正常化RNAseq读取(RPKMgydF4y2Ba核糖核酸gydF4y2Ba)。然后,我们执行Z-ratio计算的TE变异time-contiguous发展阶段(从早期到中期,和从中期到晚期),使用建议±1.5分的经验来定义重要的监管活动gydF4y2Ba5克ydF4y2Ba,gydF4y2Ba67年gydF4y2Ba。gydF4y2Ba

翻译标记gydF4y2Ba独联体gydF4y2Ba

此上下文得分gydF4y2Ba

规范的开放,我们提取的核苷酸组成但不包括注释起始密码子(−5到6,但不含核苷酸1 - 3)。对于每一个位置,然后计算了gydF4y2Ba日志gydF4y2Ba观察和背景之间的比值比核苷酸频率这个后者计算位置无关的相对频率相同的序列)。这提供了一个得分表善意的position-specific核苷酸频率gydF4y2Ba科扎克gydF4y2Ba上下文来个人lncORFs得分。科扎克最后得分每ORF当时获得通过添加个人所有观察到的核苷酸position-specific值。gydF4y2Ba

ORF的位置gydF4y2Ba独联体gydF4y2Ba

lncRNA ORF位置gydF4y2Ba独联体gydF4y2Ba被定义为它的绝对位置排名)5′3′链/注释记录在所有预测子在“lncORF预测和选择”(见上图),无论转录翻译的地位。gydF4y2Ba

密码子的使用gydF4y2Ba

密码子的使用偏置计算每lncORF使用MILC度量(R包gydF4y2Ba警戒线gydF4y2Ba68年gydF4y2Ba所有注释规范),使用similarly-calculated密码子偏见并控制集。gydF4y2Ba

dN / dSgydF4y2Ba

评估任何签名的自然选择作用于我们lncORF集,我们应用一个dN / dS测试使用的两两比对gydF4y2BadndgydF4y2BaR的函数包gydF4y2Ba猿gydF4y2Ba,这是一个实现度规的发表在李et al。gydF4y2Ba69年gydF4y2Ba。R包gydF4y2BaseqinrgydF4y2Ba70年gydF4y2Ba是用于读取syntenic成对排列每ORF (gydF4y2BaDmel-DsimgydF4y2Ba,gydF4y2BaDmel-DsecgydF4y2Ba,gydF4y2BaDmel-DyakgydF4y2Ba和gydF4y2BaDmel-DeregydF4y2Ba)。syntenic对齐都从以前计算全基因组比对(加州大学)。gydF4y2Ba

Homology-detectiongydF4y2Ba

查询lncORF同源,我们开发了一个新颖的管道,GENOR于一体的主要元素与manually-curated我们实验室以前公布的努力搜索同系物。每ORF, GENOR进行向前搜索在网上翻译对一个手提钻子;所有的在网上翻译smORF NCBI-deposited est序列(02/2020,10至150 AA)是用于12个不同gydF4y2Ba果蝇gydF4y2Ba物种:gydF4y2Ba果蝇simulansgydF4y2Ba(Dsim)gydF4y2Ba,果蝇secheliagydF4y2Ba(Dsec)gydF4y2Ba,果蝇erectagydF4y2Ba(溪谷)gydF4y2Ba,果蝇yakubagydF4y2Ba(迪雅克族)gydF4y2Ba,果蝇ananassaegydF4y2Ba(Dana)gydF4y2Ba,果蝇pseudoobscuragydF4y2Ba(Dpse)gydF4y2Ba,果蝇persimilisgydF4y2Ba(dp)gydF4y2Ba,果蝇willistonigydF4y2Ba(Dwil)gydF4y2Ba,果蝇mojavensisgydF4y2Ba(Dmoj)gydF4y2Ba,果蝇virilisgydF4y2Ba(Dvir)和gydF4y2Ba果蝇grimshawiigydF4y2Ba(Dgri)。所有重要向前冲击每一个物种都是评估在互惠的整个ORFome手提钻搜索gydF4y2Ba黑腹果蝇gydF4y2Ba。如果一个前锋也是顶部相互冲击,进一步调整的开放框架被提出使用MAFFT评价gydF4y2Ba71年gydF4y2Ba以及定制的得分。职位与fully-conserved残留物('gydF4y2Ba*gydF4y2Ba”)是一个相对的重量100;对齐的氨基酸具有非常相似的生化特性('gydF4y2Ba:gydF4y2Ba”——250年PAM得分> 0.5矩阵)“70”的重量,而残留较差的相似之处(“。”)有30的相对权重。每对齐,分数添加跨职位,除以总查询长度获得GENOR打分数。gydF4y2Ba

统计和再现性gydF4y2Ba

表示因素gydF4y2Ba

表示因素代表观察到的两个列表重叠的概率随机的orf可能经常发生。表征因子计算的比值/预期重叠,重叠的预期数量相乘得到的基因的基因总数在两组中,最初和除以总数量的基因分析gydF4y2Ba72年gydF4y2Ba。1表明,重叠的一个因素是预期的随机的。> 1一个因素表明,偶然重叠高于预期,而表示重叠因子< 1表明低于预期。gydF4y2Ba

再现性gydF4y2Ba

每个实验在无花果。gydF4y2Ba1克ydF4y2Baf,gydF4y2BaggydF4y2Ba(后者)较低;gydF4y2Ba3 egydF4y2Ba;gydF4y2Ba4 egydF4y2Ba;gydF4y2Ba5克gydF4y2Ba至少重复两次,同样的结果。gydF4y2Ba

报告总结gydF4y2Ba

进一步研究信息设计是可用的gydF4y2Ba自然研究报告摘要gydF4y2Ba与这篇文章有关。gydF4y2Ba