简介gydF4y2Ba

癌症的发生和发展导致谱系特异性表型的去分化和逐渐丧失,并反映早期胚胎发育的多个方面,包括快速增殖、上皮-间充质转化(EMT)、细胞迁移和血管生成。这些与癌症相关的细胞功能和生理变化的机制细节,被称为“癌症的特征”。gydF4y2Ba1gydF4y2Ba,并没有被完全理解。过去的研究表明,在胚胎干细胞(ESCs)中维持多能性并协调正常胚胎发育的一组核心转录因子(tf)和信号通路在癌症中被重新激活,从而成为癌症进展的生理逆转的基础gydF4y2Ba2 gydF4y2Ba,gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba4 gydF4y2Ba,gydF4y2Ba5gydF4y2Ba.例如,核心多能性标记gydF4y2BaOCT3/4gydF4y2Ba而且gydF4y2BaSOX2gydF4y2Ba,是几种癌症的重要生物标志物gydF4y2Ba6gydF4y2Ba,gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba.同样,ESCs的Myc模块在混合谱系白血病的小鼠模型中被重新激活,并且是许多人类癌症患者预后的预测因子gydF4y2Ba5gydF4y2Ba.与这些轶事一致,茎干性的普遍特征准确地预测了白细胞对肿瘤的浸润和对免疫治疗的反应gydF4y2Ba9gydF4y2Ba.除了tf,胚胎发育中涉及的各种信号通路,如Wnt、Notch和Hippo,也在癌症中被重新激活,其相关基因积累致癌突变gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba10gydF4y2Ba,gydF4y2Ba11gydF4y2Ba.gydF4y2Ba

除了基因表达外,替代剪接(AS),即表达同一基因的多个异构体,影响人类95%的多外显子基因gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba它是茎干、分化、发育和衰老等多种生物过程的基础gydF4y2Ba14gydF4y2Ba,gydF4y2Ba15gydF4y2Ba,gydF4y2Ba16gydF4y2Ba,gydF4y2Ba17gydF4y2Ba.大量以基因为中心的研究已经证明了AS在癌症中的关键作用gydF4y2Ba18gydF4y2Ba.例如,Bcl-x蛋白的长亚型和短亚型分别具有抗凋亡和促凋亡作用gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba.受体酪氨酸激酶家族的几个成员表达多种亚型,增强癌细胞的增殖或转移能力。例如,gydF4y2BaFGFR2gydF4y2BaFGFR2III-b亚型主要在上皮细胞中表达,FGFR2III-c亚型主要在间充质细胞中表达gydF4y2Ba21gydF4y2Ba.这种异构体转换涉及上皮-间充质转化(EMT)。gydF4y2Ba22gydF4y2Ba并与结直肠癌的侵袭和转移有关gydF4y2Ba23gydF4y2Ba,gydF4y2Ba24gydF4y2Ba还有乳腺癌gydF4y2Ba25gydF4y2Ba.同样地,基因的交替拼接异构体,如gydF4y2BaP63gydF4y2Ba,周期蛋白D1,gydF4y2BaCD44gydF4y2Ba,gydF4y2Ba极品gydF4y2Ba,gydF4y2BaRAC1gydF4y2Ba,gydF4y2BaPKMgydF4y2Ba能否调节癌细胞的增殖、凋亡、代谢和侵袭性gydF4y2Ba18gydF4y2Ba,gydF4y2Ba26gydF4y2Ba,gydF4y2Ba27gydF4y2Ba.最近跨多个器官的比较转录组分析显示,在发育过程中,选择性剪接事件的流行和跨物种保存gydF4y2Ba28gydF4y2Ba.尽管AS在发育和癌症中的重要性已经确定,以及发育和癌症之间广泛的现象学联系,但仍然缺乏以组织特异性方式对发育和癌症AS事件之间的联系进行公正和全面的调查,这可能对我们对肿瘤发生和癌症治疗的更广泛的机制理解产生重大影响。gydF4y2Ba

在这项工作中,利用人类发育转录组在三个器官的多个时间点gydF4y2Ba29gydF4y2Ba以及来自the cancer Genome Atlas (TCGA)的相应癌症的转录组数据(gydF4y2Bahttps://www.cancer.gov/tcgagydF4y2Ba),我们绘制了在器官特异性癌症中重新激活的胚胎剪接事件的景观,并研究了它们的上游调控因子和下游功能含义。我们关注最常见的AS事件类型,即外显子跳过事件,发现胚胎AS事件与关键的致癌过程有关,如快速增殖、迁移和血管生成,并在肿瘤中显著重新激活。胚胎AS事件的重新激活预示着患者的生存,并与癌细胞系的增殖率相关。在“胚胎阳性”(EP)和“胚胎阴性”(EN)外显子中,亚硝基化结构域(ND)、跨膜区域结构域(TRD)和WD40结构域在三种组织中均显著富集。详细的分子和功能分析表明,NDs和TRDs分别通过协调调节Arf和Ras家族gtpase的活性,以及通过调节低聚糖转移酶亚基的跨膜定位来影响细胞逆行转运。我们进一步训练了基于剪接因子发育基因表达数据的剪接调控模型,该模型能准确预测癌症患者胚胎AS事件的纳入,并识别出可能调控胚胎AS事件的关键剪接因子(CSFs)。所鉴定的csf在癌症中上调,通常伴有拷贝数扩增。利用肿瘤单细胞RNA-seq数据,我们发现CSFs在恶性上皮细胞中被特异性激活,进一步支持了它们在恶性肿瘤中的作用。基于多种互补方法,我们确定了预测调控所识别的CSFs的关键转录因子(tf),包括gydF4y2BaMYCgydF4y2Ba而且gydF4y2BaFOXM1gydF4y2Ba在大脑和肝脏中,可以使用已知的fda批准的药物进行靶向治疗。总的来说,通过多模态数据集成,我们的工作建立了癌症中发展性AS的逆转,并提出了直接针对这种逆转的调节因素的治疗途径。gydF4y2Ba

结果gydF4y2Ba

与人类胎儿发育相关的外显子鉴定gydF4y2Ba

为了确定与胎儿发育相关的AS事件,我们实施了两步方法,首先确定胎儿发育相关的通路,然后获得与这些通路相关的AS事件(图2)。gydF4y2Ba1gydF4y2Ba);这种方法的基本原理和优点已在方法一节和补充注1中讨论。基于跨多个阶段的器官特异性转录组数据(补充数据gydF4y2Ba1gydF4y2Ba)的产前和产后发展gydF4y2Ba29gydF4y2Ba,我们首先估计了332种KEGG通路中的每一种的活性gydF4y2Ba30.gydF4y2Ba,被量化为通路基因的中位表达,在每个样本中,独立地在脑、肝和肾组织中。通路活性的主成分分析(PCA)沿着第一主成分清晰地将产前和产后阶段分开(补充图。gydF4y2Ba1gydF4y2Ba).PCA空间通路的聚类(“方法”)揭示了两组相互排斥的产前或产后通路,它们相应地被分配为“胚胎阳性”或“胚胎阴性”(图2)。gydF4y2Ba1 bgydF4y2Ba).gydF4y2Ba

图1:检测与器官发育相关的AS事件。gydF4y2Ba
图1gydF4y2Ba

一个gydF4y2Ba发育和癌症相关剪接事件的鉴定和比较管道概述。gydF4y2BabgydF4y2Ba小脑KEGG通路的层次聚类。热图中对应通路p和发育时间点t的每个彩色单元格,表示p对前5 PCs的贡献(负荷)与t对前5 PCs的PC评分之间的余弦相似度,从而表示通路p在时间点t的活性(“方法”)。gydF4y2BacgydF4y2Ba包含在(中推断的胚胎通路的基因的GO术语富集的点图gydF4y2BabgydF4y2Ba).点是基于fdr修正的片面着色gydF4y2BapgydF4y2Ba-来自Fisher 's test的值(标记为q-value),该值在clusterProfiler包中以R语言实现,并基于每个功能类别中的基因数量进行大小调整。gydF4y2BadgydF4y2Ba圆形热图显示了与每个外显子正相关和负相关的胚胎通路的数量。树状图中的每一片叶子都是一个外显子。外两行分别表示与外显子正相关和负相关的胚胎通路的数量(每个图例颜色)。最内层为每个外显子的PSI值与其宿主基因表达的Pearson相关系数。为了视觉清晰,图中只随机选择了1000个外显子。gydF4y2BaegydF4y2Ba箱形图显示产前胚胎阳性(EP)和胚胎阴性(EN)事件的差异包含(gydF4y2BangydF4y2Ba= 11)及产后(gydF4y2BangydF4y2Ba= 21)发展阶段。箱线图中的每个数据点是由Cardoso-Moreira等人采样的EP和EN外显子在每个发育时间点的中位数包含水平。gydF4y2Ba29gydF4y2Ba.箱形图中间的水平线为中值,箱形图的上下边缘分别对应包含水平的第25和第75百分位(y轴)。垂直向上/向下延伸的方框是显示四分位间距1.5倍的线(即25和75百分位之间的距离)。点是离群值。这些图的源数据作为源数据文件提供。gydF4y2Ba

正如预期的那样,构成胚胎阳性通路的基因富含与胚胎发育至关重要的过程相关的几个基因本体(GO)术语,如EMT、细胞外基质(ECM)重塑、细胞增殖和血管生成,为我们用于检测胚胎通路的方法提供了额外的验证(图2)。gydF4y2Ba1 cgydF4y2Ba、补充数据gydF4y2Ba2 gydF4y2Ba).接下来,我们使用PEGASASgydF4y2Ba31gydF4y2Ba以确定样本特异性内含物与胚胎阳性通路在发育时间点的活性显著相关的替代外显子(“方法”)。我们将一个外显子定义为胚胎阳性(EP)或胚胎阴性(EN),依据的是其活性分别与外显子包合水平显著正相关或负相关的胚胎阳性途径的比例(图2)。gydF4y2Ba1 d, egydF4y2Ba“方法”)。因此,我们在每个组织中平均鉴定出约2000个EP和EN外显子跳过事件(补充数据)gydF4y2Ba3.gydF4y2Ba);正如预期的那样,EP和EN外显子在产前和产后表现出相反的包涵模式。gydF4y2Ba1 egydF4y2Ba、补充图。gydF4y2Ba1 bgydF4y2Ba).gydF4y2Ba

我们发现EP和EN外显子包含水平与其宿主基因的表达基本不相关,这表明这些AS事件的变化与宿主基因的表达无关(图2)。gydF4y2Ba1 dgydF4y2Ba,补充图。gydF4y2Ba1 cgydF4y2Ba).我们的观察进一步支持了这种独立性,约20-30%的EP/EN外显子的宿主基因实际上同时包含EP和EN事件(补充图。gydF4y2Ba1 dgydF4y2Ba).此外,在几乎所有的情况下(>99%),当一个外显子的包合物与胚胎阳性途径相关时,该外显子的宿主基因不是该途径的成员。总的来说,这些数据表明AS为基因表达程序提供了一个额外的调控层,以控制发育途径。gydF4y2Ba

EP和EN外显子的宿主基因在脑和肝脏的组织特异性过程中显著富集(补充图)。gydF4y2Ba1 egydF4y2Ba、补充数据gydF4y2Ba4 gydF4y2Ba).例如,神经元活动的GO术语,如突触组织、树突发育、神经元死亡、细胞极性、神经递质调节等,在大脑中特别富集于EP/EN外显子的宿主基因中。同样,肝脏EP/EN外显子参与许多关键代谢过程的调节,以及细胞连接和细胞质分裂的调节。EP/EN外显子在三种组织中均富集自噬,与AS在自噬调节中的新作用一致gydF4y2Ba32gydF4y2Ba.总的来说,我们发现了许多外显子,它们独立于宿主基因的表达,在胎儿发育期间优先被利用,在出生后被抑制,并与关键的发育和致癌过程密切相关。gydF4y2Ba

胚胎AS事件在癌症中反复出现,并与癌症分期和患者生存期相关gydF4y2Ba

接下来,我们评估了器官特异性EP事件在相应癌症类型中再现的程度。首先,我们发现在所有三个器官中,AS事件的全基因组谱清晰地将肿瘤样本与TCGA中的非恶性肿瘤样本区分开(补充图。gydF4y2Ba2gydF4y2Ba),如上文所述gydF4y2Ba31gydF4y2Ba,gydF4y2Ba33gydF4y2Ba.接下来,我们通过比较肿瘤与健康GTEx对应物中的剪接谱,确定了每个器官中的癌症相关AS事件(“方法”,图。gydF4y2Ba1gydF4y2Ba)并评估其与器官特异性EP和EN事件的重叠。在这三个器官中,我们发现EP事件在癌症中频繁增加的AS事件中显著富集,而EN事件在癌症中频繁减少的AS事件中富集(图2)。gydF4y2Ba2gydF4y2Ba).这些富集值对应于大脑中近50%的胚胎事件的再激活,肾脏中20%,肝脏中15%,这意味着癌症中数百(肝脏和肾脏)到数千(大脑)的替代剪接事件恢复到它们的胚胎对应物(补充图)。gydF4y2Ba2 b, cgydF4y2Ba).如图所示,所观察到的富集可能仅仅是因为EP事件在健康的产后组织中包含的水平较低。gydF4y2Ba1 egydF4y2Ba因此更有可能增加癌症(类似地,EN事件可能更有可能减少)。我们通过随机抽取健康肝脏GTEx样本中包含低(psi < 0.3)和高(psi > 0.7)的交替剪接外显子,并分别在肝癌中频繁增加和减少的事件中检测它们的富集,排除了这一潜在的混杂因素(名义假阳性率<0.01;补充图。gydF4y2Ba二维gydF4y2Ba;方法)。此外,去除健康GTEx组织中含有~0包合的外显子并不影响EP事件在癌症特异性事件中的富集(补充图)。gydF4y2Ba2 egydF4y2Ba).此外,在大脑和肝脏中,产前和产后阶段的ΔPSI值与TCGA和GTEx之间的ΔPSI值强相关,这暗示了胚胎发育和癌症期间选择性剪接模式的广泛和全球相似性(补充图)。gydF4y2Ba2 fgydF4y2Ba).使用另一种方法量化癌症特异性事件或基于严格的ΔPSI标准(产前-产后> 0.2)筛选EP事件并不影响胚胎剪接在癌症中的意义(补充图。gydF4y2Ba2 ggydF4y2Ba及补充说明gydF4y2Ba1gydF4y2Ba).我们观察到,与早期肿瘤相比,晚期肿瘤中EP和EN事件更丰富(“方法”;补充图。gydF4y2Ba2 h,我gydF4y2Ba),认为胚胎剪接不仅与肿瘤发生有关,而且与癌症进展有关。此外,在所有三个器官中,样本中EP(分别为EN)包合水平与癌症标志特征基因集评分呈正相关(分别为负相关)(图2)。gydF4y2Ba2 bgydF4y2Ba),表明致癌过程和胚胎剪接之间可能存在直接联系。与其他特征不同,凋亡和DNA损伤基因集,其活性已知与肿瘤侵袭性呈负相关gydF4y2Ba1gydF4y2Ba,与EP事件呈负相关。gydF4y2Ba

图2:癌症中的胚胎剪接事件。gydF4y2Ba
图2gydF4y2Ba

一个gydF4y2Ba用Fisher检验计算出比值比和95%置信区间(胡须)的柱状图,以评估胚胎剪接事件与脑癌、肾癌和肝癌频繁增加/减少事件之间重叠的统计学意义。每个柱状图顶部的数字是fdr校正的双面数字gydF4y2BapgydF4y2Ba-来自Fisher检验的值。gydF4y2BabgydF4y2BaEP和EN事件的中位包含水平与癌症样本中癌sea标志基因集的平均表达(log (tpm + 1))之间Pearson相关性的点图。gydF4y2BacgydF4y2BaEP危险比的箱线图分布(gydF4y2BangydF4y2Ba= 3051)及EN (gydF4y2BangydF4y2Ba= 3457)。“其他”组(gydF4y2BangydF4y2Ba= 29,349)的外显子是矿外显子,并作为全基因组的对照。该分析中使用的癌症类型为LGG(脑肿瘤)、LIHC(肝脏肿瘤)和KIRP(肾脏肿瘤)。双面的gydF4y2BapgydF4y2Ba-值从Wilcoxon的检验显示。gydF4y2BadgydF4y2Ba维恩图显示了在三个组织中检测到的EP事件之间的重叠。gydF4y2BaegydF4y2Ba箱线图显示特定EP事件(仅在1个组织中检测到)和常见EP事件(在所有3个组织中检测到)的比例,其中较好的为(HR < 1, FDR < 0.1,gydF4y2BangydF4y2Ba常见EP事件= 10gydF4y2BangydF4y2Ba特定EP事件= 12)或更差的生存率(HR > 1, FDR < 0.1,gydF4y2BangydF4y2Ba常见EP事件= 10gydF4y2BangydF4y2Ba对于特定的EP事件= 12),来自TCGA的20种不同癌症类型。每个数据点代表一种癌症类型。双面的gydF4y2BapgydF4y2Ba-值从Wilcoxon的检验显示。在箱线图中(gydF4y2BacgydF4y2Ba,gydF4y2BaegydF4y2Ba),中间的水平线为中位数,两框的上下边缘分别为第25和第75百分位。垂直向上/向下延伸的方框是显示四分位间距1.5倍的线(即25和75百分位之间的距离)。点是离群值。这些图的源数据作为源数据文件提供。gydF4y2Ba

接下来,我们使用Cox回归直接评估EP和EN纳入水平是否与患者生存相关(“方法”)。在所有三个组织中,与其他外显子相比,EP包埋的风险比明显更高(且为阳性),EN包埋的风险比分别较低(且为阴性)(图2)。gydF4y2Ba2摄氏度gydF4y2Ba);我们确保观察到的趋势不会被宿主基因的表达水平所混淆(补充图。gydF4y2Ba2 jgydF4y2Ba).gydF4y2Ba

因为早期胚胎发育在器官中共享几个分子程序gydF4y2Ba29gydF4y2Ba,我们获得了一组EP事件(197个事件),这三个器官都有,并评估了20种癌症类型的EP事件与生存的关系(图2)。gydF4y2Ba二维gydF4y2Ba).我们进一步假设,共享的EP事件集更有可能导致多种癌症类型的预后较差,并发现确实,更大比例的EP事件导致多种癌症类型的预后较差(图2)。gydF4y2Ba2 egydF4y2Ba, single-tailedgydF4y2BapgydF4y2Ba值<0.05),进一步强调了癌症剪接改变的胚胎根源。gydF4y2Ba

另外,剪接的跨膜区域和亚硝基化结构域可能在发育和癌症过程中调节n -链糖基化和逆行细胞转运gydF4y2Ba

为了深入了解动态包含EP和EN外显子可能影响的功能,我们对包含EP和EN事件的基因进行了分子功能富集分析。在所有器官中,我们观察到Ras GTPase结合、细胞粘附和细胞骨架结合类如钙粘蛋白、肌动蛋白和微管的显著富集(补充图)。gydF4y2Ba3gydF4y2Ba).脑和肝脏的EP/EN基因被进一步富集,用于动态蛋白和网格蛋白的结合(补充图)。gydF4y2Ba3gydF4y2Ba).这些过程通过调节癌细胞增殖和迁移过程中的细胞骨架和细胞运输来促进肿瘤的发生gydF4y2Ba34gydF4y2Ba,gydF4y2Ba35gydF4y2Ba.下面的“讨论”部分提供了更详细的讨论。gydF4y2Ba

为了进一步了解EP和EN外显子的分子作用,并研究它们与肿瘤发生的关系,我们从PFAM数据库中鉴定了蛋白质结构域gydF4y2Ba36gydF4y2Ba在EP/EN外显子中富集(“方法”)。EP和EN外显子在三个器官中都富集了三个结构域——跨膜区结构域(TRD)、亚硝基化结构域(ND)和wd40。gydF4y2Ba3gydF4y2Ba),使我们推测它们在EP和EN外显子宿主基因所执行的一些功能中的潜在作用。为了探索这种潜在的联系,我们鉴定了EP/EN外显子包含这些结构域的基因亚群(每个组织共6个基因亚群:3个结构域× 2个EP/EN基因集),并对每个亚群进行分子功能富集分析(图2)。gydF4y2Ba3 bgydF4y2Ba).正如预期的那样,一个基因集中丰富的分子功能可以明确地归因于相应的结构域。例如,WD40结构域的基因亚群富集了泛素结合,这与WD40作为泛素蛋白结合界面的既定作用一致gydF4y2Ba37gydF4y2Ba.同样地,包含跨膜区域结构域的基因确实丰富了各种跨膜转运蛋白(图。gydF4y2Ba3 bgydF4y2Ba).此外,对跨组织携带这些结构域的EP和EN外显子的宿主基因之间重叠的评估表明,所观察到的蛋白质结构域的富集不是由同一组基因驱动的,而是EP和EN外显子的多个宿主基因在跨组织的这些结构域内协调地剪接(图2)。gydF4y2Ba3 bgydF4y2Ba).为了探究这些丰富的分子功能与受这些结构域动态包含影响的生物过程之间的相互作用,我们对相同的基因集进行了生物过程富集分析,并评估了具有特定丰富分子功能的基因与具有特定丰富生物过程的基因的重叠程度。gydF4y2Ba

图3:EP和EN外显子的功能评估。gydF4y2Ba
图3gydF4y2Ba

一个gydF4y2Ba点状图显示三种组织中EP和EN事件中结构域的富集。点的大小根据使用Fisher精确检验计算的优势比大小进行缩放;实点和空心点分别表示基于FDR调整双面的显著域和不显著域gydF4y2BapgydF4y2Ba-value 0.1的阈值。gydF4y2BabgydF4y2Ba含有亚硝基化、跨膜区和WD40结构域的EP和EN事件的宿主基因在三个器官的分子功能富集(沿柱显示)。热色表示FDR侧调整后的-log10gydF4y2BapgydF4y2Ba-在R中的clusterProfiler库中实现的来自Fisher测试的丰富值。gydF4y2BacgydF4y2Ba脑EP外显子中包含跨膜区结构域的基因,其丰富的生物过程(柱)和分子功能(行)共存的热图。gydF4y2BadgydF4y2Ba与(gydF4y2BacgydF4y2Ba),而是大脑EN外显子的亚硝基化结构域。gydF4y2Bae, fgydF4y2Ba编码TRD的EP外显子包含在OST复合体亚基中(gydF4y2BaegydF4y2Ba)和具有ND的EN外显子在GTPases中可能参与调控囊泡运输(gydF4y2BafgydF4y2Ba).在gydF4y2BaegydF4y2Ba,gydF4y2BafgydF4y2Ba,gydF4y2BangydF4y2Ba= 11产前,gydF4y2BangydF4y2Ba产后= 21gydF4y2BangydF4y2Ba癌症样本= 501。在箱线图中(gydF4y2BaegydF4y2Ba,gydF4y2BafgydF4y2Ba),中间的水平线为中位数,两框的上下边缘分别为第25和第75百分位。垂直向上/向下延伸的方框是显示四分位间距1.5倍的线(即25和75百分位之间的距离)。点是离群值。这些图的源数据作为源数据文件提供。gydF4y2Ba

观察到的EP和EN外显子宿主基因之间的分子功能和生物学过程之间的对应关系得到了很好的支持。例如,在大脑中,具有跨膜结构域并编码各种类型转运蛋白(分子功能)的EN外显子宿主基因主要参与跨膜转运(生物过程)(图)。gydF4y2Ba3 cgydF4y2Ba).gydF4y2Ba

此外,在脑和肝脏EP外显子中,分子功能寡糖转移酶活性与蛋白质n -糖基化相关的生物学过程显著重叠(图2)。gydF4y2Ba3 cgydF4y2Ba、补充图。gydF4y2Ba3 cgydF4y2Ba),这种修饰通常通过多亚基寡糖转移酶复合物(OST)发生在ER和高尔基体的磷脂双分子层中。我们观察到,OST的四个亚单位在产前到产后阶段显示出TRD包含的协调减少,在脑癌症患者中再次增加(图2)。gydF4y2Ba3 egydF4y2Ba),gydF4y2BaTUSC3gydF4y2Ba而且gydF4y2BaRPN2gydF4y2Ba经历着最大的变化。这表明,在胚胎发生过程中,通过TRD的选择性剪接调节OST的跨膜定位可能直接影响n -糖基化过程。值得注意的是,几种蛋白质的n -糖基化通过调节细胞-基质相互作用与细胞增殖和迁移有关gydF4y2Ba38gydF4y2Ba.因此,在OST亚单位中增加TRD的包含可能有助于癌症(图。gydF4y2Ba3 egydF4y2Ba)来上调n -糖基化需求的增加。据我们所知,在OST复合体的亚基中,选择性剪接的trd在n -糖基化调控中的作用至今未见报道。为了支持这一结论,即去除TRD可以通过影响OST的定位来影响其功能,我们强调了整合素基因的例子,gydF4y2BaITGA2B,gydF4y2Ba其中包含一个EN外显子编码TRD (Supplementary DatagydF4y2Ba7gydF4y2Ba)对肝脏发育的影响。过去的研究表明gydF4y2BaITGA2BgydF4y2Ba是否在黑色素瘤、前列腺癌和白血病中交替剪接,产生缺乏跨膜和细胞质结构域的截断亚型gydF4y2Ba39gydF4y2Ba,gydF4y2Ba40gydF4y2Ba.这种截断的异构体,不是整合到质膜中,而是分泌到细胞外基质中,解除粘附,并促进细胞的迁移。我们的分析表明,在OST复合物的情况下使用了类似的机制,其中TRDs的去除将导致其从ER膜上解离,阻碍蛋白质的n -糖基化过程。gydF4y2Ba

对ND的类似分析显示,大脑中含有该结构域的EN外显子的宿主基因在与GTPase活性及其调节因子相关的分子功能上显著富集(图2)。gydF4y2Ba3 bgydF4y2Ba).先前的研究表明亚硝基化修饰在GTPase活性上调中的作用gydF4y2Ba41gydF4y2Ba,gydF4y2Ba42gydF4y2Ba.因此,我们的结果提示了交替剪接ND在胚胎发生和癌症过程中调节GTPase活性的作用。事实上,大脑EN外显子中含有亚硝基化结构域的基因很少,如gydF4y2BaRAB6AgydF4y2Ba而且gydF4y2BaRAB6BgydF4y2Ba,为RAS癌基因家族的GTPase,提示其GTPase活性可通过动态包合和排除亚硝基化结构域进行自动调节。有趣的是,一个小的gtpasegydF4y2BaRHOAgydF4y2Ba,在弥漫性胃癌细胞中通过选择性剪接被灭活gydF4y2Ba43gydF4y2Ba.我们发现外显子参与了这个剪接事件(3gydF4y2Ba理查德·道金斯gydF4y2Ba外显子)确实编码ND,并且在肝脏和肾脏中为胚胎阴性(EN)。这支持了选择性剪接的ND在发育和癌症过程中调节各种小gtpase的活性和细胞运输方面的更广泛作用(图。gydF4y2Ba3 dgydF4y2Ba).gydF4y2Ba

对于跨膜结构域,我们获得了大脑EN外显子中具有ND的基因,并确定了其丰富的分子功能与生物学过程之间的对应关系(图。gydF4y2Ba3 dgydF4y2Ba).我们观察到具有GTPase活性的基因参与了Rab蛋白信号转导和从核内体到高尔基体到内质网的囊泡逆行转运(图2)。gydF4y2Ba3 dgydF4y2Ba),在这些过程中,已知GTPases起关键作用gydF4y2Ba44gydF4y2Ba,gydF4y2Ba45gydF4y2Ba.在EN外显子中有ND的gtpase中,gydF4y2BaARL1gydF4y2Ba从产前到产后,在ND的包含方面,基因的变化最大,然后在癌症中(图2)。gydF4y2Ba3 fgydF4y2Ba).因此,我们的分析表明,在通过调节GTPases活性来调节细胞质转运中,选择性剪接ND的作用未被充分认识。此外,大脑EN外显子中含有ND的一些基因富集了与bh -结构域结合、死亡结构域结合和map -激酶信号通路相关的分子功能,这些功能与内在凋亡信号通路相关的过程相对应(图)。gydF4y2Ba3 dgydF4y2Ba),可能提示排除ND可调节细胞凋亡gydF4y2Ba46gydF4y2Ba.gydF4y2Ba

总的来说,我们的结果暗示了胚胎跨膜和亚硝基化结构域在几个关键致癌过程中的选择性剪接模式的再现。gydF4y2Ba

EP事件的剪接调控模型揭示了癌症中关键剪接因子的失调gydF4y2Ba

剪接因子(SF)控制选择性剪接外显子的选择和包含水平gydF4y2Ba47gydF4y2Ba.为了识别调节胚胎剪接的潜在SFs,我们训练了偏最小二乘回归(PLSR)模型,基于442个注释SFs的表达水平来预测EP事件的中位数包含水平(“方法”,补充数据gydF4y2Ba5gydF4y2Ba).在每个器官中,仅对发育数据进行训练,我们的模型预测了独立肿瘤样本(TCGA)和正常样本(GTEx)中EP事件的中位包含水平,准确度很高(预测的EP水平与观察到的EP水平之间的平均相关性为TCGA为0.88,GTEx为0.84;无花果。gydF4y2Ba4gydF4y2Ba和补充图。gydF4y2Ba4gydF4y2Ba).此外,预测的EP包合值可以区分GTEx正常样本和相应的TCGA癌症样本,在大脑中准确率较高,在肝脏和肾脏中准确率中等(补充图。gydF4y2Ba4 bgydF4y2Ba),强调该模型可以预测EP剪接中的癌症相关变化。gydF4y2Ba

图4:EP事件剪接调控模型揭示了癌症中关键剪接因子的失调。gydF4y2Ba
图4gydF4y2Ba

一个gydF4y2Ba在组织特异性队列中,TCGA样本EP事件的实际和预测中位包含水平的散点图。蓝线描述了基于EP事件实际和预测中值包含的线性回归的最佳拟合线。Pearson相关系数和双侧p值在图中显示。gydF4y2BabgydF4y2Ba大脑临界(n = 119)的折叠变化箱线图分布gydF4y2BangydF4y2Ba肝脏= 167gydF4y2BangydF4y2Ba肾脏= 45)和非危重(gydF4y2BangydF4y2Ba大脑= 322,gydF4y2BangydF4y2Ba肝脏= 274gydF4y2BangydF4y2Ba肾脏= 396)发育过程中EP剪接事件的剪接调控因子(左)和癌症(右)。该分析中使用的癌症类型为LGG(脑肿瘤)、LIHC(肝脏肿瘤)和KIRC(肾脏肿瘤)。双面的gydF4y2BapgydF4y2Ba-值从Wilcoxon的检验显示。gydF4y2BacgydF4y2Ba显示关键剪接因子中患者的净CNVs增益分布(“方法”)的箱线图,该箱线图基于剪接因子的表达(gydF4y2BangydF4y2Ba大脑和肝脏= 100gydF4y2BangydF4y2Ba肾= 45)。双面的gydF4y2BapgydF4y2Ba-值从Wilcoxon的检验显示。gydF4y2BadgydF4y2Ba柱状图显示三种癌症类型中导致癌症患者预后不良的关键剪接因子和非关键剪接因子的比例。优势比(OR)和fdr调整的双边gydF4y2BapgydF4y2Ba-值(pval)显示在每个图旁,通过比较癌症患者预后较差的关键剪接因子和非关键剪接因子的比例,使用Fisher精确检验计算。FDR水平为0.3时,cox-regression中> - 1的危险比定义预后较差。gydF4y2BaegydF4y2Ba突变分析示意图(左)及导致(gydF4y2BangydF4y2Ba= 14)或增加(gydF4y2BangydF4y2Ba在突变样本中EP事件的中位包含水平与表达匹配的未突变样本相比= 6)。双面的gydF4y2BapgydF4y2Ba-值从Wilcoxon的检验显示。gydF4y2BafgydF4y2Ba箱形图显示在shRNA敲除RNA结合蛋白后,肝脏EP事件的比例(∆PSI <−0.1)下降。gydF4y2BangydF4y2Ba= 17紧急和gydF4y2BangydF4y2Ba= 36非临界)从编码数据库的HepG2细胞系。单侧p值来自Wilcoxon检验,其替代假设是,与删除非关键剪接因子相比,删除CSFs影响更大比例的EP剪接事件。gydF4y2BaggydF4y2Ba来自Seiler等人54的RNA结合蛋白中EP剪接的关键和非关键调控因子的比例,已知在单一或多种癌症类型中存在驱动突变。由这个费雪检验得到的比值比和双侧p值显示出来。在箱线图中(gydF4y2BabgydF4y2Ba,gydF4y2BacgydF4y2Ba,gydF4y2BaegydF4y2Ba,gydF4y2BafgydF4y2Ba),中间的水平线为中位数,两框的上下边缘分别为第25和第75百分位。垂直向上/向下延伸的方框是显示四分位间距1.5倍的线(即25和75百分位之间的距离)。点是离群值。这些图的源数据作为源数据文件提供。gydF4y2Ba

接下来,我们根据PLSR模型中的回归系数,获得了胚胎发育期间中位EP剪接的显著正向预测因子剪接因子列表(“方法”),并将其称为关键剪接因子(CSFs,补充数据)gydF4y2Ba5gydF4y2Ba).正如预期的那样,每个器官中的CSFs在产前发育阶段都有较高的表达,并且在相应的癌症中发生了显著的上调(图。gydF4y2Ba4 bgydF4y2Ba).虽然我们关注的只是EP剪接的正调控因子,因为肿瘤中EP剪接的正调控因子相对正常组织上调,但我们证实PLSR模型中具有负回归系数的剪接因子在癌症中相对正常组织下调,是EP事件的潜在负调控因子(补充图)。gydF4y2Ba4摄氏度gydF4y2Ba).此外,脑csf的同源基因缺失导致小鼠神经系统发育缺陷,并且与其他剪接因子相比,来自所有三种组织的csf更有可能导致断奶前的致命性(补充图。gydF4y2Ba4 dgydF4y2Ba、补充数据gydF4y2Ba6gydF4y2Ba),进一步支持社区服务中心的发展作用。gydF4y2Ba

我们观察到,CSFs表达越高,相应的EP事件包含水平越高的癌症患者在CSFs中拷贝数扩增的数量明显越多(图2)。gydF4y2Ba4摄氏度gydF4y2Ba).此外,脑脊液表达的增加与癌症患者较差的生存率显著相关(图2)。gydF4y2Ba4 dgydF4y2Ba).gydF4y2Ba

为了评估CSFs是否在调节EP事件中发挥因果作用,我们测试了在CSFs中含有无义(失活)突变的肿瘤样本中EP包合水平是否降低。我们首先确定了突变样本比野生型样本包含更低和更高EP的所有sf,并发现潜在的因果sf(即突变样本相对于WT样本包含更低EP的sf,方法)与EP剪接PLSR模型中的其他sf相比,具有显著更高(且正)的回归系数(图2)。gydF4y2Ba4 egydF4y2Ba),建立了CSFs在EP事件调节中的潜在因果作用。我们确保我们的结果不会被突变型和野生型样本之间的sf表达差异所混淆(“方法”)。gydF4y2Ba

我们进一步确定,PLSR可以通过从ENCODE数据库中使用shRNA敲除HepG2(肝癌)细胞系中RNA结合蛋白的RNA-seq数据来识别包含EP事件的潜在原因gydF4y2Ba48gydF4y2Ba.按照与上述相同的程序,我们了解到在HepG2细胞系中包含肝脏特异性EP事件的关键csf。我们观察到,敲除这些csf比其他剪接因子更有可能减少EP事件的包含(“方法”;无花果。gydF4y2Ba4 fgydF4y2Ba),为CSFs在EP剪接中的因果作用提供了有力的支持。gydF4y2Ba

在发育中的人体组织中发现的一些csf是各种固体和血液恶性肿瘤的已知驱动因素。例如,gydF4y2BaCDC5LgydF4y2Ba而且gydF4y2BaPCBP2gydF4y2Ba据报道,脑脊液可促进胶质瘤的生长gydF4y2Ba49gydF4y2Ba,gydF4y2Ba50gydF4y2Ba膀胱癌gydF4y2Ba51gydF4y2Ba.此外,gydF4y2BaSF3B1gydF4y2Ba(肾和肝中的脑脊液)和gydF4y2BaU2AF2gydF4y2Ba(肝脏中的脑脊液)是肺和胰腺腺癌的常见诱因gydF4y2Ba52gydF4y2Ba,gydF4y2Ba53gydF4y2Ba.gydF4y2Ba

除了上述的例子,在我们的工作中发现的来自所有三个组织的csf集合显著富集了119种RNA结合蛋白,这些蛋白之前被确定为一种或多种癌症类型的驱动基因gydF4y2Ba54gydF4y2Ba(无花果。gydF4y2Ba4 ggydF4y2Ba、方法)。此外,与非关键剪接因子相比,大脑、肝脏和肾脏中的csf在其相应的癌症中有更大比例的突变热点(补充图)。gydF4y2Ba4 fgydF4y2Ba),进一步强调csf在促进恶性肿瘤方面的作用。gydF4y2Ba

总的来说,这些结果揭示了EP事件背后潜在的因果性SFs,并将这种SFs的诱导(可能通过拷贝数扩增)与癌症联系起来。在TCGA癌症样本中,与正常样本相比,脑癌、肝癌和肾癌中分别有47%、32%和16%的csf上调(fold-change > 1.5)(补充图)。gydF4y2Ba4 ggydF4y2Ba).考虑到上述突变和shRNA分析,尽管单个CSF的缺失可能对EP外显子子集的包含水平有微小(尽管显著)的影响,但在癌症中观察到的剪接的广泛重编程是通过激活几个CSF实现的,这可能是由上游转录因子驱动的,我们将在下一节中进行研究。gydF4y2Ba

胚胎剪接事件与癌细胞系的增殖率有关gydF4y2Ba

我们以上的结果(图。gydF4y2Ba1gydF4y2Bab,gydF4y2Ba2gydF4y2Ba)提示肿瘤中EP事件的增加可能参与了介导快速增殖、EMT和血管生成等致癌过程。利用DepMap数据库(gydF4y2Bahttps://depmap.org/portal/gydF4y2Ba),包括RNA-seq数据和多种癌细胞系的增殖率,我们发现在肝脏和大脑中,来自器官特异性癌症类型的细胞系的倍增时间和中位EP(分别为EN)包合水平之间存在负相关(分别为正相关)(补充图。gydF4y2Ba5gydF4y2Ba),提示EP/EN的使用可能与癌细胞株的增殖率有关。gydF4y2Ba

为了进一步巩固这一联系,我们计算了EP和EN外显子在所有与癌细胞株倍增时间强相关的剪接事件中的比例(“方法”)。我们观察到,脑和肝脏EP和EN事件在外显子中强烈富集,这些外显子分别与相应细胞系的倍增时间呈负相关(PCC <−0.5)和正相关(PCC > 0.5)。gydF4y2Ba5gydF4y2Ba,补充图。gydF4y2Ba5gydF4y2Ba).这种富集意味着与癌细胞系增殖率相关的外显子在本质上更可能是胚胎。胚胎事件和肾脏癌细胞系加倍次数之间缺乏关联可能是异质性的结果,如下文所述。gydF4y2Ba

图5:肿瘤细胞系中的胚胎剪接事件及其调控因子。gydF4y2Ba
图5gydF4y2Ba

一个gydF4y2Ba柱状图显示了胚胎阳性(EP)和胚胎阴性(EN)事件在外显子之间的富集/减少的比值比,与对应于大脑、肾脏和肝脏的癌细胞系(从DepMap门户获得)的倍增时间有很强的正(+)和负(−)相关。FDR-adjusted两面gydF4y2BapgydF4y2Ba-从fisher测试中获得的值显示在每个条的旁边。gydF4y2BabgydF4y2Ba来自CCLE的脑癌、肾癌和肝癌细胞系中EP事件的观察和预测中位包合水平的散点图。蓝线和灰色阴影区域描述了最佳拟合线和基于EP事件实际和预测中值包含的线性回归的95%置信区间。Pearson相关系数和双面相关系数gydF4y2BapgydF4y2Ba-值显示在图中。gydF4y2BacgydF4y2BaUMAP显示肿瘤微环境中恶性和非恶性细胞中关键剪接因子的活性;上一行:活动,下一行:细胞类型。这些图的源数据作为源数据文件提供。gydF4y2Ba

此外,从发育数据中学习的剪接调控模型可以准确预测EP事件在相应细胞系中的包含(图2)。gydF4y2Ba5 bgydF4y2Ba).总的来说,这些观察结果进一步验证了csf和由EP事件介导的增殖之间的联系。鉴于CSF活性和增殖之间的联系,我们预计CSF的失活(通过CRISPR或RNAi)将对细胞系的增殖率产生不利影响。事实上,我们发现在肝癌来源的细胞系中,SF越关键(基于PLSR系数),细胞系对SF的依赖性就越大(负依赖性评分,补充图。gydF4y2Ba5 bgydF4y2Ba),为CSFs提供功能支持;然而,我们并没有在大脑和肾脏中看到这种趋势,如下文所述。进一步支持CSFs在恶性转化中的作用,我们发现在肝脏和大脑肿瘤微环境的单细胞转录组(“方法”)中,CSFs在恶性细胞中特异性表达,而在非恶性细胞中不表达(图2)。gydF4y2Ba5度gydF4y2Ba).总的来说,这些观察结果将csf在肿瘤细胞中的作用与细胞增殖率通过调节特定的AS事件联系起来,这可能是潜在的治疗靶点。gydF4y2Ba

csf可能受到MYC、FOX和BRD家族转录因子的调控gydF4y2Ba

接下来,我们研究了CSFs潜在的上游转录调控因子,因为靶向它们可能对CSFs有更广泛的影响,由此产生的EP包合的变化可能改善患者的预后。我们应用了四个标准来确定CSFs的高可信度上游转录调控因子(图2)。gydF4y2Ba6gydF4y2Ba).首先,作为初始过滤步骤,我们利用TFEA中多个细胞系的大量ChIP-seq数据集。芯片数据库gydF4y2Ba55gydF4y2Ba与EP事件的非关键剪接因子(ncsf)相比,CSF启动子区域内结合显著丰富的入围tf(图中第一列)。gydF4y2Ba6 bgydF4y2Ba;“方法”)。接下来,我们使用KnockTF数据库gydF4y2Ba56gydF4y2Ba,详细描述了TF删除后转录组的变化,以计算TF删除后的下调靶标中csf相对于ncsf的富集程度,并保留了显著的命中(图中第二列)。gydF4y2Ba6 bgydF4y2Ba、方法)。KnockTF的一个主要限制是tf的低覆盖率。因此,我们应用了两种额外的计算方法来筛选基于TFEA.ChIP的tf入围名单。gydF4y2Ba

图6:三个器官中调节csf的潜在tf。gydF4y2Ba
图6gydF4y2Ba

一个gydF4y2Ba检测csf的TF调控因子的步骤示意图。gydF4y2BabgydF4y2Ba三行对应三种不同的组织,四列是用于推断csf的TF调控因子的不同策略,如图顶部所示。在前三列中,气泡大小对应fdr调整双面的-log10gydF4y2BapgydF4y2Ba值。在第四列中,气泡大小对应的是TF与CSFs中位表达与nCSFs相关系数的差值。在前两列中,气泡按TF名称着色。在最后两列中,黄色气泡表示ARACNe和Cancer相关分析支持TF的证据,洋红色表示其中任何一种支持TF。气泡大小在列之间没有可比性。这些图的源数据作为源数据文件提供。gydF4y2Ba

首先,根据TFEA对每个入围因素进行筛选。芯片,we inferred its in-silico targets using the ARACNe software tool57gydF4y2Ba选择硅片内靶点相对于非硅片更为富集的csf的tf(图中第三列)。gydF4y2Ba6 bgydF4y2Ba、方法)。其次,在ChIP-seq筛选的调控因子列表中,我们在癌症转录组数据中鉴定了与CSFs相比,表达与CSFs相关性更强的tf(图中第四列)。gydF4y2Ba6 bgydF4y2Ba、方法)。总的来说,我们在每个器官中保留了(基于chip -seq的过滤之后)符合实验的基于knocktf的标准或两者都符合计算过滤器的tf。总的来说,这些结果涉及MYC, FOX(特别是gydF4y2BaFOXM1gydF4y2Ba)和BRD家族的转录因子通过上调CSFs调控EP事件,并可能代表与发育和癌症相关的广泛剪接变化的主调控因子。这种EP剪接的主调控因子和关键CSFs可能是合理的药物靶点(补充方法和补充表)gydF4y2Ba1gydF4y2Ba)通过阻碍EP剪接事件介导的过程来阻止癌症进展。gydF4y2Ba

讨论gydF4y2Ba

来自TCGA和PCAWG联盟的肿瘤转录组数据集的可用性促进了对癌症中可选剪接变化的全基因组分析,阐明了其预后价值gydF4y2Ba58gydF4y2Ba,遗传基础gydF4y2Ba59gydF4y2Ba,gydF4y2Ba60gydF4y2Ba,以及通过选择性剪接产生肿瘤新抗原的发现gydF4y2Ba61gydF4y2Ba.然而,这些研究都没有分析癌症剪接变化的更广泛的发展背景。利用最近在三个人体器官中获得的时间发育转录组数据,在这项工作中,我们已经表明,癌症的全基因组剪接格局显著地恢复到其起源组织的早期胚胎发育阶段,这强烈地暗示了肿瘤发生和肿瘤进展中的发育剪接事件。gydF4y2Ba

与基因共表达模块类似,跨基因的多个外显子的包含在分化过程中协调影响特定的细胞功能gydF4y2Ba62gydF4y2Ba,gydF4y2Ba63gydF4y2Ba,细胞状态跃迁gydF4y2Ba64gydF4y2Ba、细胞凋亡gydF4y2Ba65gydF4y2Ba,以及激素诱导gydF4y2Ba66gydF4y2Ba.我们的研究结果表明,EP和EN剪接事件的协调程序参与了胚胎过程,如细胞增殖、凋亡、EMT、迁移,并且癌症似乎滥用了这些协调的外显子包含事件以恢复到胚胎样状态。过去的进化比较表明,选择性剪接导致了新功能化,增加了基因的蛋白质组复杂性gydF4y2Ba67gydF4y2Ba,gydF4y2Ba68gydF4y2Ba这通常是由基因外显子结构的分化引起的。在癌症中也观察到基因外显子结构的变化gydF4y2Ba通过gydF4y2Ba产生剪接位点的突变gydF4y2Ba69gydF4y2Ba.因此,我们推测,选择性剪接可以通过两种不同的途径促进癌变,要么是通过重新激活胚胎生理学的多个方面,要么是通过创造新的剪接事件来促进功能的新颖性和蛋白质组的复杂性,或者两者结合。gydF4y2Ba

此外,仅根据发展背景确定的EP和EN事件对TCGA中相应癌症的预后有显著影响。例如,EP和EN事件的纳入水平分别预示着癌症患者的生存率更差和更好,强调了研究胎儿发育对更好地了解癌症机制的价值。此外,在脑癌和肝癌细胞系中,与倍增时间负相关(相当于与增殖率正相关)的剪接事件中,EP外显子的富集为这些剪接事件在介导细胞增殖中的作用提供了独立的功能验证,这与发育和癌症都相关。然而,这些关联并不适用于肾癌细胞系的情况。虽然细胞系是模拟几种疾病的标准选择,但它们并不能完全捕捉体内的复杂性。在我们的分析中,尽管我们从发育中的人类胚胎中获得了EP和EN外显子,但快速增殖的CCLE癌细胞系确实在大脑和肝脏中使用了更高的EP外显子,而EN外显子的使用更低,这表明剪接和增殖之间存在保守的细胞内在联系。gydF4y2Ba

先前的研究表明,AS可以影响细胞骨架、酶的性质和蛋白质的膜定位gydF4y2Ba70gydF4y2Ba.在这里,我们观察到,在我们研究的所有三个器官中,与细胞骨架结合、调节GTPase活性和细胞转运相关的分子功能在EP和EN外显子中高度富集(补充图)。gydF4y2Ba3gydF4y2Ba).这些分子功能是细胞增殖的核心,通过调节细胞周期gydF4y2Ba71gydF4y2Ba,gydF4y2Ba72gydF4y2Ba,gydF4y2Ba73gydF4y2Ba,gydF4y2Ba74gydF4y2Ba,gydF4y2Ba75gydF4y2Ba细胞迁移gydF4y2Ba76gydF4y2Ba,gydF4y2Ba77gydF4y2Ba,gydF4y2Ba78gydF4y2Ba因此,它们已经成为癌症进展和转移的重要参与者gydF4y2Ba35gydF4y2Ba,gydF4y2Ba79gydF4y2Ba.gydF4y2Ba

对EP和EN事件中富集的蛋白结构域的分析进一步表明,它们在调节多种细胞过程(如增殖、迁移、神经元生理和应激抵抗)方面具有功能协调。例如,细胞的增殖和迁移依赖于细胞骨架、细胞外基质和细胞粘附的改变,这些改变是由肌动蛋白、钙粘蛋白和整合素等蛋白质的n -糖基化调节的gydF4y2Ba38gydF4y2Ba.我们观察到OST的亚单位(包括gydF4y2BaTUSC3gydF4y2Ba而且gydF4y2BaRPN2gydF4y2Ba)的trd在EP事件中发生协调剪接,表明这种剪接在器官发生过程中调节n -糖基化的作用(图。gydF4y2Ba3 cgydF4y2Ba).囊泡转运的进一步trd (gydF4y2BaPAQR3gydF4y2Ba,gydF4y2BaPRAF2gydF4y2Ba,gydF4y2BaSEC22gydF4y2Ba)和线粒体(gydF4y2BaABCB6gydF4y2Ba,gydF4y2BaABCB8gydF4y2Ba,gydF4y2BaSDHCgydF4y2Ba)、E3连接酶中的WD40参与蛋白质降解(gydF4y2Ba迪泰gydF4y2Ba,gydF4y2BaFBXW9gydF4y2Ba,gydF4y2BaWDR48gydF4y2Ba),以及膜信号通路中GTPases中的NDs (gydF4y2BaARF4gydF4y2Ba,gydF4y2BaTESK1gydF4y2Ba)在大脑EP外显子之间协调拼接。这表明,在神经元发育过程中,能量代谢和蛋白质合成/加工的功能协调在一定程度上是通过选择性剪接介导的。因此,敲除调节脑EP事件的csf会导致小鼠神经系统发育的缺陷(补充图。gydF4y2Ba4 dgydF4y2Ba),支持协调剪接的EP事件在器官发育中的重要作用。gydF4y2Ba

EP和EN介导的功能协调在大脑EN事件中协调剪接蛋白域的情况下得到了进一步的说明(图。gydF4y2Ba7 bgydF4y2Ba).在参与囊泡转运的GTPases中协调拼接ND (gydF4y2BaARL1gydF4y2Ba而且gydF4y2BaRABgydF4y2Ba神经酰胺/肌醇合成的内质网相关蛋白中的TRD (gydF4y2BaCDITPgydF4y2Ba,gydF4y2BaCERS2gydF4y2Ba,gydF4y2BaKDSRgydF4y2Ba等)和参与神经元信号传导的突触蛋白(gydF4y2BaDAGLBgydF4y2Ba,gydF4y2BaKCNN2gydF4y2Ba,gydF4y2BaMCTP1gydF4y2Ba,等)表明在出生后神经元功能的协调,如建立和发射快速动作电位(图。gydF4y2Ba7 bgydF4y2Ba(右图)和癌症的损失(图。gydF4y2Ba7 bgydF4y2Ba和补充图。gydF4y2Ba6 bgydF4y2Ba).gydF4y2Ba

图7:脑发育和癌症中的协调剪接。gydF4y2Ba
图7gydF4y2Ba

该示意图显示了EP和EN事件中协调剪接的TRD、ND和WD40结构域在介导n -糖基化和逆行转运功能中的作用。gydF4y2Ba一个gydF4y2Ba左面板gydF4y2Ba,不同发育和病理阶段EP结构域的包合水平。gydF4y2Ba右面板gydF4y2Ba, EP事件的宿主基因在寡糖转移酶(OST)复合体、囊泡转运、线粒体(跨膜区结构域)、蛋白质降解(WD40结构域)和膜信号传导(亚硝基化结构域)等方面富集。这些过程表明活跃的蛋白质合成,包括n -糖基化和神经细胞发育过程中的能量代谢。gydF4y2BabgydF4y2Ba左面板gydF4y2Ba,不同发育和病理阶段EN结构域的包合水平。gydF4y2Ba右面板gydF4y2Ba, EN事件的宿主基因在囊泡运输(亚硝基化结构域)和神经元功能方面丰富,包括神经酰胺/肌醇合成、突触功能和膜受体/通道/信号(跨膜区域结构域)。大多数基因具有成熟神经细胞所需的功能(例如,神经传递和突触信号)。gydF4y2Ba

此外,对于绝大多数EP结构域,其包合水平在产前阶段较高,在癌症中切换回产前阶段(图2)。gydF4y2Ba7一个gydF4y2Ba和补充图。gydF4y2Ba6gydF4y2Ba).这表明含有这些结构域的宿主基因驱动癌症进展,这些基因的EP外显子可能是潜在的治疗抗癌靶点。gydF4y2Ba

我们注意到大多数蛋白质结构域在EN外显子中富集(图2)。gydF4y2Ba3gydF4y2Ba),这意味着相对较大的注释域参与了出生后活跃的过程。以前已经注意到,在涉及与开发相关的功能的可选择拼接域的功能角色方面存在普遍偏见gydF4y2Ba80gydF4y2Ba但这一观察结果相对于EP和EN的差异功能基础目前尚不清楚,需要进一步研究。gydF4y2Ba

许多EP/EN事件在之前的报道和实验验证中可在包括癌症在内的各种疾病中交替拼接(补充数据)gydF4y2Ba8gydF4y2Ba),例如,gydF4y2BaAPAF1gydF4y2Ba该基因编码一种凋亡蛋白,并在发育中的大脑中含有编码WD40结构域的EN外显子。有趣的是,之前的一份报告显示gydF4y2BaAPAF1gydF4y2Ba也可以在前列腺癌细胞系中剪接,产生一种更短的亚型APAF1-ALT,缺乏WD40结构域gydF4y2Ba81gydF4y2Ba.此外,这种较短的亚型阻碍了细胞中dna损伤诱导的细胞凋亡的诱导,从而使细胞获得dna损伤诱导的治疗抗性。因此,凋亡作用的改变gydF4y2BaAPAF1gydF4y2Ba通过交替剪接的WD40结构域似乎是胚胎发生和癌症过程中使用的一般机制。此外,基因gydF4y2BaFLVCR1gydF4y2Ba编码一个血红素转运蛋白,并在大脑中承载一个编码TRD结构域的EN外显子。先前的研究表明,这种缺乏TRD的基因的各种交替剪接异构体在钻石黑扇贫血(DBA)的情况下表达。重要的是,DBA患者肿瘤生长的风险较高gydF4y2Ba82gydF4y2Ba.这个例子表明,通过交替剪接控制铁的运输来调节铁的代谢gydF4y2BaFLVCR1gydF4y2Ba在人类大脑发育过程中,基因可能是调节铁含量的关键机制gydF4y2Ba83gydF4y2Ba还有癌症。整合素的截断异构体gydF4y2BaITGA2BgydF4y2Ba缺乏跨膜结构域是另一个例子,先前有报道称,在各种癌症中,跨膜结构域被分泌到ECM中,打破粘连并促进细胞迁移gydF4y2Ba40gydF4y2Ba.gydF4y2Ba

此外,许多四胱胺素作为支架蛋白存在于细胞膜上,并介导各种细胞功能,如增殖、粘附和信号传递gydF4y2Ba84gydF4y2Ba含有跨组织编码TRDs的EP或EN外显子(补充数据gydF4y2Ba7gydF4y2Ba).另外,据报道,在这些蛋白质中剪接TRD可产生四胱胺素富集微域功能改变的异构体,包括细胞信号和细胞粘附gydF4y2Ba84gydF4y2Ba,gydF4y2Ba85gydF4y2Ba.这些例子(和补充数据)gydF4y2Ba8gydF4y2Ba)支持EP和EN事件确实可以改变蛋白质的功能,并有助于在胚胎发生和癌症之间观察到的广泛功能收敛。gydF4y2Ba

最近几项单细胞RNA-seq研究已经注意到在发育和癌症方面的普遍相似性gydF4y2Ba86gydF4y2Ba,gydF4y2Ba87gydF4y2Ba,gydF4y2Ba88gydF4y2Ba.因此,我们的研究结果表明,这些相似性取决于癌细胞中剪接的更广泛和协调的重编程,使其返回到胚胎细胞。gydF4y2Ba

关键剪接因子仅根据胚胎发育数据被推断为调节EP事件的包含,在癌症中上调,并导致患者预后不良。此外,癌症患者关键剪接因子突变失活和HepG2细胞系shRNA敲除导致胚胎剪接水平下降,这有力地支持了它们在调节胚胎剪接事件中的因果作用。在DepMap数据集中,在肝癌来源的细胞系中,CSFs的因果作用也得到了显著较高的实验量化依赖评分的支持。然而,我们在大脑和肾脏中没有看到这种趋势,这可能是由于与肿瘤微环境中的肿瘤相比,细胞系中的生理和调节网络不同。尽管我们观察到大量的csf是多种癌症类型的驱动因素(图。gydF4y2Ba4 ggydF4y2Ba和补充图。gydF4y2Ba4 egydF4y2Ba),我们没有观察到突变负荷的渐进式增加(定义为总no。与早期癌症相比,在晚期癌症中csf的错义突变(补充图。gydF4y2Ba4 hgydF4y2Ba).这表明CSFs的突变扰动和剪接谱的相应变化参与了肿瘤的发生;然而,目前尚不清楚不同的csf是否参与癌症的发生和发展,这需要纵向数据。值得注意的是,与先前的报告一致,这涉及到替代剪接在剪接因子调控中的作用gydF4y2Ba89gydF4y2Ba,我们也观察到相当一部分剪接因子发生了EP和EN事件,其中csf的EP和EN事件比例相对较高(补充图。gydF4y2Ba4我gydF4y2Ba).因此,我们推测csf促进恶性肿瘤的作用是通过其特定的亚型介导的,需要在未来进行深入的研究。gydF4y2Ba

总之,这些观察结果强调了推断出的关键剪接因子作为对抗癌症进展的潜在治疗靶点。gydF4y2Ba

此外,我们发现每个发育器官中的csf,以及相应的癌症,都可能受到FOX (gydF4y2BaFOXM1gydF4y2Ba)、MYC和BRD家族的转录调控因子。通过调节剪接因子和剪接事件gydF4y2BaMYCgydF4y2Ba之前提到过gydF4y2Ba31gydF4y2Ba,gydF4y2Ba90gydF4y2Ba.最近的一份报告显示gydF4y2BaMYC -gydF4y2Ba驱动剪接因子调节癌症中约4000个剪接事件gydF4y2Ba91gydF4y2Ba.与我们的研究结果一致,FOX和MYC家族调控因子在胚胎发生和癌症过程中的多种情况下控制细胞的生长、增殖和存活gydF4y2Ba92gydF4y2Ba,gydF4y2Ba93gydF4y2Ba.我们的工作通过显示MYC、BRD、FOX家族的tf在发育背景下对剪接因子的调控和功能协调的胚胎剪接事件,扩展了之前的研究,从而进一步提供了发育和癌症之间的机制联系。这些观察表明,胚胎期癌症剪接的逆转与更广泛的转录和表观遗传重编程结合在一起,通过各种主调控因子的扰动(如gydF4y2BaMYCgydF4y2Ba而且gydF4y2BaFOXM1gydF4y2Ba)以及关键的拼接因子。gydF4y2Ba

尽管基因调控最好是通过基因敲除和RNA-seq实验来重建转录组范围内的基因调控网络gydF4y2Ba94gydF4y2Ba,在人类的每个细胞系/模型系统中,并不总是存在所需转录因子的数据集。在图中所示的分析中。gydF4y2Ba6gydF4y2Ba,我们使用了KnockTF,这是一个这样的数据库,以及其他三个计算过滤器来识别csf的关键主调控因子(图2)。gydF4y2Ba6 bgydF4y2Ba, 2gydF4y2BandgydF4y2Ba列)。我们的结果表明,由CSFs上调驱动的关键基因表达亚型的广泛变化可能是这些tf发挥其生理作用的主要机制。因此,靶向CSFs的上游调控因子可能会导致更广泛的全基因组剪接变化,并提高患者的生存率。但由于转录因子缺乏特异性和多效性,这种方法可能会产生意想不到的副作用。因此,通过最近开发的基于crispr的技术直接靶向EP外显子gydF4y2Ba95gydF4y2Ba,gydF4y2Ba96gydF4y2Ba,而不是它们的上游调控因子,可能会导致肿瘤细胞的特异性致死。在未来,需要在CSFs或其上游调控因子缺失后进行转录组学实验,以建立所提出的机制联系并探索其治疗潜力。gydF4y2Ba

总的来说,我们的多管齐下的研究不仅在概念上增强了对发育和癌症背景下选择性剪接的广泛功能作用和调控的理解,而且还提出了假定的癌症治疗靶点。我们的工作还提供了一个框架,用于研究涉及发育和癌症的细胞机制,使用其他分子模式,如miRNA和lncRNA活性、DNA甲基化和组蛋白修饰谱、替代启动子和poly-A的使用。gydF4y2Ba

方法gydF4y2Ba

外显子包含的数据集和定量gydF4y2Ba

对于脑、肝和肾,TCGA肿瘤的统一处理RNA-seq数据(gydF4y2Bahttps://www.cancer.gov/tcgagydF4y2Ba)和GTEx的正常样品gydF4y2Ba97gydF4y2Ba从UCSC-Xena浏览器(数据版本V7)下载。我们使用UCSC-Xena浏览器gydF4y2Ba98gydF4y2Ba,gydF4y2Ba99gydF4y2Ba因为它承载了UCSC辛劳RNA-seq重新计算纲要的数据集gydF4y2BaOne hundred.gydF4y2Ba对多个计算和队列批效应进行了归一化。R中的UCSCXenaTools库gydF4y2Ba98gydF4y2Ba用于下载使用Kallisto ?计算的转录水平TPM值gydF4y2Ba101gydF4y2Ba;有关数据整合及处理的详细资料,可从UCSC-Xena浏览器(gydF4y2Bahttps://xenabrowser.net/gydF4y2Ba).总的来说,我们在所有样本中获得了197,046个转录本的表达水平。获得的样本数量为脑癌-低级别胶质瘤(LGG): 523例;胶质母细胞瘤:172例,正常脑-脑小脑:118例;脑皮层:107例,肝癌-肝细胞癌(LIHC): 369例,正常肝- 110例,肾癌-肾乳头状细胞癌(KIRP): 321例;肾肾细胞癌(KIRC) 595例,正常肾- 27例。对于发展数据gydF4y2Ba29gydF4y2Ba,我们使用登录号E-MTAB-6814从数组express获得原始读取,并使用Kallisto计算副本级别TPM值gydF4y2Ba101gydF4y2Ba基于Gencode v23版本的转录组指数(gydF4y2Bahttps://www.gencodegenes.org/human/release_23.htmlgydF4y2Ba)注释,与UCSC-Xena使用的版本相同。我们使用基于伪对齐的方法,使用Kallisto软件来处理RNA-seq数据集,因为它比经典对齐快得多gydF4y2Ba101gydF4y2Ba,gydF4y2Ba102gydF4y2Ba估计的TPMs与基于rt - pcr的测量结果具有很高的一致性gydF4y2Ba103gydF4y2Ba,gydF4y2Ba104gydF4y2Ba.数据包括每个器官的多个产前和产后时间点(补充数据gydF4y2Ba1gydF4y2Ba).为了量化每个样本中外显子的包含水平,我们使用SUPPA-2计算了每个外显子的“插入百分比”(PSI)值,其范围为0-1(即从完全排除到完全包含)gydF4y2Ba105gydF4y2Ba.我们选择SUPPA2,因为它使我们能够直接使用UCSC特劳RNA-seq重新计算汇编的优雅数据集gydF4y2BaOne hundred.gydF4y2Ba托管在UCSC-Xena浏览器的toilhubgydF4y2Ba98gydF4y2Ba此外,SUPPA2比大多数其他工具快得多,需要更少的存储空间,因为它可以使用预先计算的TPM值gydF4y2Ba105gydF4y2Ba.此外,我们验证了我们的主要结论,即使用完全不同的管道- STAR 2通道对齐,将癌症中的剪接事件逆转到相应组织的产前状态gydF4y2Ba106gydF4y2Ba后面跟着rMATsgydF4y2Ba107gydF4y2Ba(补充注gydF4y2Ba2 gydF4y2Ba).将转录水平的tpm转化为基因水平的tpm,然后根据后续分析需要进行分位数归一化。所有用于下载和处理RNA-seq数据集的脚本可在gydF4y2Bahttps://github.com/hannenhalli-lab/AltSplDevCancergydF4y2Ba.gydF4y2Ba

发育剪接事件gydF4y2Ba

为了识别被认为参与胚胎发育的剪接事件,我们采用了先前发表的称为PEGASAS的策略gydF4y2Ba31gydF4y2Ba.PEGASAS识别与特定生物途径的活性相关的替代剪接事件。在本研究中,我们通过以下三步过程鉴定了发育外显子。gydF4y2Ba

步骤1gydF4y2Ba:我们对332种KEGG通路的活性进行了评分gydF4y2Ba30.gydF4y2Ba在发育过程中的每个时间点,使用其组成基因的对数转换表达的中位数,得到332 × N活性矩阵,其中N为每个组织的发育时间点的采样数,在补充数据中给出gydF4y2Ba1gydF4y2Ba.聚类这个活动矩阵揭示了两个广泛的聚类(补充图。gydF4y2Ba1gydF4y2Ba一个在出生前活跃,另一个在出生前活跃。gydF4y2Ba

步骤2:gydF4y2Ba我们在PCA空间中应用了一个额外的平滑过程,我们的目标是量化每个路径倾向于优先面向特定的发展时间点。在5维PC空间中(前5个PC解释了65%的方差),每个时间点占用一个基于PC分数的唯一坐标。在这个空间中,类似地,每个路径对应于5个pc中每个路径加载的5维向量。我们将路径朝向特定时间点的优先方向量化为加载向量与5维空间中时间点位置之间的余弦相似度。这一过程产生了一个平滑的332 × N矩阵,根据它们在产前或产后发育阶段的优先活性,将332条通路清晰地分为两大类(图2)。gydF4y2Ba1gydF4y2Ba).分组的途径分别称为胚胎阳性途径和胚胎阴性途径。gydF4y2Ba

步骤3:gydF4y2Ba接下来,我们使用了类似于PEGASAS的方法gydF4y2Ba31gydF4y2Ba计算步骤1中各外显子PSI值与通路活性评分之间的交叉样本Pearson相关系数(PCC)。对于每个外显子,我们根据Benjamini-Hochberg FDR阈值0.05选择了显著正相关或负相关的KEGG通路,对每个外显子进行332次测试进行校正。如果外显子与至少10%的胚胎阳性途径显著相关,而与最多5%的胚胎阴性途径显著相关,我们称之为胚胎阳性(EP)。类似的标准被应用于定义胚胎阴性(EN)外显子。gydF4y2Ba

基于pegasas的方法在检测与组织胚胎发育相关的剪接事件方面优于简单地在产前和产后发育阶段之间进行差异剪接,因为(i)发育数据集的样本量不足以进行可靠的差异剪接分析,(ii)个体外显子的剪接在产前和产后阶段可能高度可变,(iii)由于PEGASAS方法锚定在牢固识别的胚胎正通路和负通路上,而不是仅仅依赖于单个事件的时间动态,它可能对噪声更稳健。补充说明gydF4y2Ba1gydF4y2Ba,我们详细讨论了PEGASAS方法与传统的微分包含分析相比的相对优势。gydF4y2Ba

癌症特异性剪接事件gydF4y2Ba

对于SUPPA2识别的每个外显子跳过事件,我们对其PSI值进行肿瘤-正常比较,以确定肿瘤中差异包含的剪接事件。由于肿瘤的转录组异质性,标准的差异剪接分析(评估癌症样本和正常样本的中位PSI值差异的显著性)将无法检测到少量肿瘤中的外显子错误剪接,但这可能具有生物学意义gydF4y2Ba61gydF4y2Ba.因此,我们在至少15%的癌症患者中选择了其在相应GTEx正常样本中以一致的方向(即增加或减少)至少偏离其分布均值2个标准差的事件。(无花果。gydF4y2Ba1gydF4y2Ba).相应地,此类事件在癌症中被称为频繁增加或减少。我们只关注外显子跳过事件,因为这些事件在转录数据库中有更好的注释,并且更容易在功能上解释。gydF4y2Ba

癌症与发育剪接和功能富集分析的比较gydF4y2Ba

为了评估癌症是否重现了胚胎剪接事件,我们使用Fisher精确测试评估了癌症和发育剪接事件之间重叠的重要性,并调整了gydF4y2BaPgydF4y2Ba-value使用Benjamini-Hochberg的FDR方法。使用R中的clusterProfiler库进行功能富集分析,并使用Benjamini-Hochberg 's方法调整所得显著项的p值。对于绘图,使用R中的clusterProfiler中的' simplify '函数根据语义相似性对生成的GO术语进行了简化(相似度阈值为0.7)。gydF4y2Ba

EP和EN外显子蛋白结构域富集gydF4y2Ba

我们从prot2hg数据库下载了映射到参考基因组(hg38)的所有PFAM结构域的转录组坐标(gydF4y2Bahttp://www.prot2hg.comgydF4y2Ba)gydF4y2Ba108gydF4y2Ba.由于任何给定的域都可以完全或部分地合并到多个转录本中,因此对下载的文件进行了预处理,以使用bedtools合并去除同一域映射到多个转录本所导致的基因组坐标冗余gydF4y2Ba109gydF4y2Ba.然后,我们将预处理过的蛋白质结构域基因组坐标交叉到EP和EN外显子的唯一且不重叠的集合,以及其余的交替拼接的跳过外显子(称为背景外显子),使用床工具在每个组织中交叉。为了识别EP和EN事件中富集的结构域,我们计算了EP、EN和背景外显子中每个结构域的出现频率,并在每个组织中进行了fisher富集测试。通过Benjamini-Hochberg方法对fisher检验得到的p值进行多次检验校正,并对优势比为> 1的域进行校正gydF4y2BapgydF4y2Ba-value <0.1则认为EP或EN外显子在各组织中富集。gydF4y2Ba

生存分析gydF4y2Ba

我们使用TCGA的临床数据,以每个外显子的包含水平(PSI值)为预测变量,年龄为cox回归的协变量,对癌症患者的总生存期进行建模。我们使用R库“survival”进行分析,并使用Benjamini-Hochberg方法对所得的p值进行了多次测试调整。结果的风险比分布在胚胎阳性、阴性和其余剪接事件之间进行比较。gydF4y2Ba

胚胎剪接调控模型gydF4y2Ba

为了分析胚胎剪接事件的潜在调控因子,我们建立了一个常用的概念,即剪接因子的差异表达可能导致外显子的差异剪接gydF4y2Ba110gydF4y2Ba.为此,我们从Amigo数据库中确定了442种在其GO定义中具有“剪接”一词的蛋白质gydF4y2Ba111gydF4y2Ba.然后,我们使用偏最小二乘回归(PLSR)分析,利用发育数据中剪接因子的基因表达,对EP事件的包含进行建模。PLSR在处理预测变量间的多重共线性或预测矩阵非奇异时优于多元线性回归gydF4y2Ba112gydF4y2Ba.gydF4y2Ba

N个发育时间点442个特征(SFs)的基因表达矩阵X (gydF4y2BangydF4y2Ba× 442)和n个时间点的中位数EP拼接响应矩阵Y (gydF4y2BangydF4y2Ba× 1)时,PLSR对X和Y的变换关系如下:gydF4y2Ba

$ $ {{{{{\ bf {X }}}}}}={{{{{\ 男朋友{T }}}}}}{{{{{{\ 男朋友{P}}}}}}} ^ {T} + {{{{{\ bf {E}}}}}} $ $gydF4y2Ba
(1)gydF4y2Ba
$ $ {{{{{\ bf {Y }}}}}}={{{{{\ {你男朋友 }}}}}}{{{{{{\ 男朋友{Q}}}}}}} ^ {T} + {{{{{\ bf {F}}}}}} $ $gydF4y2Ba
(2)gydF4y2Ba

在哪里gydF4y2BaTgydF4y2Ba而且gydF4y2BaUgydF4y2Ba是提取的潜在向量的N × r矩阵和gydF4y2BaPgydF4y2Ba(p × r)和gydF4y2Ba问gydF4y2Ba(1 × r)为荷载gydF4y2BaXgydF4y2Ba而且gydF4y2BaYgydF4y2Ba.gydF4y2BaEgydF4y2Ba(n × p)和gydF4y2BaFgydF4y2Ba(1 × p)为残差。在PLSR算法中,gydF4y2BaTgydF4y2Ba而且gydF4y2BaUgydF4y2Ba根据以下关系约束最大协方差:gydF4y2Ba

$ $ {{{{{\ bf {U }}}}}}={{{{{\ 男朋友{T }}}}}}{{{{{\ 男朋友{B }}}}}}+{{{{{\ 男朋友{H}}}}}} $ $gydF4y2Ba
(3)gydF4y2Ba

在哪里gydF4y2BaBgydF4y2Ba(r × r)为回归系数和的对角线矩阵gydF4y2BaHgydF4y2Ba是残差矩阵。gydF4y2Ba

剪接因子具有正回归系数和显著性gydF4y2BapgydF4y2Ba值(gydF4y2BapgydF4y2BaFDR校正后< 0.05)被认为是EP事件(CSF)的关键调节因子gydF4y2Ba112gydF4y2Ba.gydF4y2Ba

剪接因子突变分析gydF4y2Ba

为了评估csf在EP事件调节中的因果作用,我们从脑癌、肝癌和肾癌的TCGA队列中获得了2级突变数据(gydF4y2Bahttps://portal.gdc.cancer.gov/gydF4y2Ba)在R中使用“maftools”gydF4y2Ba113gydF4y2Ba并鉴定出这些因子无义突变或截断突变的肿瘤。对于每种癌症类型中的每个突变因子,我们将突变样本中EP事件的中位包含水平与没有任何剪接因子突变的背景样本集进行了比较。因此,这些因素被分为“增加”或“减少”类别,这取决于中位数EP包含水平至少增加或减少5%。为了解释样本之间剪接因子表达差异的潜在混淆效应,我们为每个突变样本确定了一组10个具有相似剪接因子表达的非突变样本。具体而言,对于每个突变体样本,我们从所有剪接因子的基因表达中筛选出10个与突变体样本欧几里得距离最短的非突变体样本。为了稳健性,我们放弃了背景组患者在10个样本的中位EP剪接中具有高变异性(标准偏差> 0.1)的剪接因素(补充图)。gydF4y2Ba4 egydF4y2Ba).gydF4y2Ba

剪接因子的转录调节因子gydF4y2Ba

为了确定关键剪接因子的潜在转录调控因子(图。gydF4y2Ba6gydF4y2Ba),在每个器官中,我们将剪接因子分为两类:即由前100个关键剪接因子组成的前景集,以及由其余剪接因子组成的背景集(ncsf)。为了评估与ncsf相比,TF是否更有可能调节csf,我们使用了四种互补的方法(图2)。gydF4y2Ba6gydF4y2Ba).在第一步中,我们使用了TFEA。R中的ChIP库,which uses publicly available genome-wide binding datasets from ChIP-seq experiments55gydF4y2Ba.TFEA。芯片used a Fisher’s test to assess if a specific TF’s binding is significantly enriched in the promoter regions (i.e., within 1 kb upstream of the transcription start site) of the CSFs relative to nCSFs (step 1 in Fig.6gydF4y2Ba).优势比> 2和FDR为0.05的tf被认为是CSFs的假定调节因子。第一步被用作进一步考虑的TF的严格过滤器。为了用基因敲除/敲低研究验证基于chip -seq的发现,我们使用了KnockTF数据库gydF4y2Ba56gydF4y2Ba,这是在多个细胞系中删除tf后公开可用的全基因组转录分析的概要(图中的步骤2)。gydF4y2Ba6gydF4y2Ba).在这一步中,我们在KnockTF数据库中通过稳健的统计分析获得了所有被标记为下调的基因gydF4y2Ba56gydF4y2Ba在转录因子缺失后,再次使用Fisher 's测试评估CSFs与下调靶标中的ncsf相比是否富集。在任何细胞系中FDR <0.25和正优势比的tf被认为是假定的实验衍生的csf调控因子。此外,由于KnockTF对tf的覆盖率很低,我们没有将其作为严格的过滤器,而是使用了另外两种计算方法来推断潜在的tf: (i)我们使用相关组织的发育时间过程数据和ARACNe软件为ChIP-seq入围的tf构建了基因调控网络gydF4y2Ba57gydF4y2Ba并使用Fisher 's检验评估每个TF的硅衍生靶标中csf是否相对于ncsf富集(图中步骤3a)。gydF4y2Ba6gydF4y2Ba).优势比> 2和FDR < 0.2的tf被认为是硅衍生的csf调节剂的潜力。(ii)同时,我们评估了ChIP-seq入围因子与相关癌症类型中csf和ncsf的相关性(图中步骤3b)。gydF4y2Ba6gydF4y2Ba).CSFs与nCSFs之间相关性差为> 0.2的因子被认为是推定的调节因子。ChIP-seq入围因子,要么通过了KnockTF测试,要么通过了两项计算测试,被提议作为csf的调控因子。在所有适用的病例中,使用R中的Benjamini-Hochberg程序调整p值进行多次比较。gydF4y2Ba

HepG2细胞系shRNA数据分析gydF4y2Ba

为了研究CSF敲低对EP事件包合水平的影响,我们使用了ENCODE数据库中HepG2(肝癌)细胞系中RNA结合蛋白的shRNA敲低数据gydF4y2Ba48gydF4y2Ba.该数据集包括223个RNA结合蛋白敲除后的RNA-seq实验,每个RNA结合蛋白有两个生物重复,以及在不同靶标之间共享的对照。下载了敲除的原始测序读数和对照实验(26个对照,每个对照2个重复),并使用Kallisto和SUPPA2外显子包合来量化转录本/基因表达。按照与之前类似的程序(即人体组织中的EP事件),使用对照细胞系中的基因表达和剪接量化来训练PLSR模型,并了解HepG2细胞系中肝脏EP事件的关键剪接因素。我们只考虑了那些shRNA敲除导致其表达至少减少50%的剪接因子。对于本分析中考虑的每个RNA结合蛋白,我们计算了在两个生物重复中包含的EP事件的比例(相对于对照,shRNA敲除后ΔPSI <−0.1),并绘制了该比例在HepG2细胞系中关键剪接因子和剩余剪接因子中的分布。gydF4y2Ba

CNV分析gydF4y2Ba

对于每种癌症类型,我们从TCGA中获得了4级CNV数据,其中包含关于每个基因CNV谱的样本特异性信息(1表示CNV扩增,0表示无CNV,−1表示CNV缺失)。为了评估每种癌症类型脑脊液的CNVs,我们根据每种脑脊液的基因表达将所有样本分为三个四分位数。对于以这种方式获得的每组样本,我们计算了每个CSF的平均CNV值,并使用Wilcoxon检验比较了四分位数之间所有CSF的这些值。gydF4y2Ba

单细胞验证gydF4y2Ba

为了对优先转录和剪接因子的单细胞验证,我们从20个成人GBM肿瘤中获得了GBM单细胞SMART-seq数据集gydF4y2Ba114gydF4y2Ba来自布罗德研究所单细胞门户网站(gydF4y2Bahttps://singlecell.broadinstitute.org/single_cellgydF4y2Ba;加入:SCP393)。我们还获得了正常的大脑单细胞SMART-seq和RNA-seq数据,以及艾伦大脑图谱(2019年SMART-seq发布)中人类大脑多个皮层区域的细胞注释。gydF4y2Bahttps://portal.brain-map.org/atlases-and-data/rnaseqgydF4y2Ba)gydF4y2Ba115gydF4y2Ba.用少突胶质细胞、星形胶质细胞和少突胶质细胞祖细胞作为正常参考,计算恶性细胞和正常细胞之间的对数倍变化。对于肝癌,LIHC单细胞RNA-seq数据是来自以前研究的10倍数据gydF4y2Ba116gydF4y2Ba读取计数矩阵和注释从GEO数据库(GSE125449)下载。对于健康肝脏,读取计数矩阵从HumanLiver包中获得gydF4y2Ba117gydF4y2Ba(gydF4y2Bahttps://github.com/BaderLab/HumanLivergydF4y2Ba).肝细胞簇(Hep 1 - 6)和胆管细胞被用作正常参考,以计算恶性细胞和正常细胞之间的对数倍变化。gydF4y2Ba

使用AUCell对单细胞水平CSFs的活性作为一个基因集进行评分gydF4y2Ba118gydF4y2Ba,得到的活动分数分别在每个组织中的所有细胞上进行z评分。在本分析中,我们使用样品的批次ID作为协变量,以解释不同批次导致的测序差异gydF4y2Ba119gydF4y2Ba.在每种情况下,单元格类型注释及其统一流形近似和投影(UMAP)坐标也从上述各自的源下载。gydF4y2Ba

报告总结gydF4y2Ba

有关研究设计的进一步资料,请参阅gydF4y2Ba自然组合报告摘要gydF4y2Ba链接到这篇文章。gydF4y2Ba