主要

串联DNA重复序列(TRs)的扩增已知会导致50多种毁灭性的人类疾病,包括亨廷顿舞蹈症和脆性X染色体综合征12.导致人类疾病的TR束通常很大(超过100 bp)1.然而,用短读DNA测序方法识别大的TRs是困难的,因为重复序列在基因组中无处不在,而且许多重复序列太大——大于典型的测序读长度——无法唯一地映射到参考基因组9.因此,目前的基因组技术无法检测到许多大的TRs,尽管它们对单基因疾病很重要,但在复杂的人类遗传疾病(如癌症)中,复发重复扩增(rREs)的频率和功能尚不清楚10

以前的研究已经描绘了癌症基因组中短TRs (str)改变的景观3.45.特别是微卫星不稳定性(MSI)678,定义为STRs长度的改变,在各种类型的癌症中普遍存在,包括子宫内膜癌(30%)、胃癌(20%)和结直肠癌(15%)3.4111213.然而,对全基因组大TR扩张频率的系统分析尚未在癌症中进行研究,尽管这种扩张早在25年前就被假定存在14

最近,新的生物信息学工具用于识别短读全基因组测序(WGS)数据集中的重复扩展15161718是否导致了人类疾病中已知的和新的重复扩张,主要是在历史上研究重复扩张的神经疾病领域151617181920.212223.在这里,我们分析了2622个人类癌症基因组与匹配的正常样本的存在体细胞重复扩增。我们在7种癌症中鉴定了160个复发重复扩增(rREs),包括许多位于已知调控元件中或附近的rREs。在34%的肾癌中观察到其中一种rREs,并且用序列特异性DNA结合剂靶向这种重复扩增导致细胞增殖的剂量依赖性下降。总的来说,我们的方法确定了癌症基因组中一类新的复发性变化,并提供了这些变化的初始资源。

循环重复扩张

我们收集了国际癌症基因组联盟(ICGC)和癌症基因组图谱(TCGA)中肿瘤-正常对的WGS数据的统一处理比对,这两者都是全基因组泛癌症分析(PCAWG)数据集的一部分24.经过筛选后,这些数据包括来自29种不同癌症类型2509名患者的2622个癌症基因组(扩展数据图)。1).每一种癌症类型都作为自己的队列进行治疗,并独立于其他癌症类型进行分析。我们将体细胞rREs与ExpansionHunter Denovo (EHdn) (方法),该方法测量短读测序数据集中长度超过测序读取长度的TRs2526.也就是说,EHdn使用非参数统计检验进行病例对照比较,以确定肿瘤基因组中的重复长度是否比匹配的正常基因组长。这种方法类似于联合人群水平基因分型。

我们首先通过对786-O和Caki-1癌细胞系进行全基因组短读和长读测序,证实了EHdn的准确性。我们发现EHdn捕获了长读测序中观察到的72%的重复扩展(扩展数据图。2).我们还测试了测序覆盖率对rREs检测的影响,发现EHdn在30倍覆盖率下具有鲁棒性(扩展数据图。2).然后,我们分析了2622个具有EHdn的匹配肿瘤和正常基因组(285363 TRs)。我们确定了578个候选rre(位点水平错误发现率(FDR) < 10%)。

预计EHdn对癌症基因组中观察到的拷贝数变化敏感。为了考虑拷贝数的变化,我们设计并实现了一种局部读深度滤波方法,该方法使用TR附近的读深度(方法和扩展数据图。3.).我们用两个(二倍体)到十个拷贝的模拟染色体扩增对局部读深归一化方法进行了基准测试。我们发现该过滤器以优于标准全局读深度归一化的方式解释了染色体拷贝数的变化(扩展数据图。3.).总的来说,我们得出结论,局部读深归一化对于识别癌症基因组中真正的rre是有价值的,并且许多通过过滤器的rre在癌症中扩展了。例如,如果没有局部读深归一化,我们只能在乳腺癌、前列腺癌和肾癌匹配肿瘤-正常组织样本的独立队列中检测到31%的候选rre(分别为15、18和12例患者)。我们的局部读深度过滤方法去除了超过75%(418/578)的假阳性候选rre(扩展数据图。3.).值得注意的是,一些被移除的rRE候选体位于染色体扩增的热点,例如染色体8q扩增增加MYC乳腺癌(扩展数据图。3.27.我们的分析表明,独立的EHdn方法可能是由于扩增而不是重复扩展选择了这些位点,因此去除它们很重要。

在实施我们的局部读深度过滤策略后,我们在独立队列中将检出率提高到57%(8/14)(扩展数据图。3.).值得注意的是,我们无法验证的基因座的扩展频率较低(5-12%)。这些rre可能是真实的,但也可能在小型验证队列中更难验证(补充表6).因此,我们认为这个数字可能低估了独立检出率。在我们的本地读深度过滤器失败的14个候选rre中,29%(4/14)在独立的样本队列中被检测到,这表明过滤删除了大多数无法验证的位点(扩展数据图)。3.),但也排除了一些真正的积极因素。

考虑到局部读取深度后,我们在7种人类癌症类型中检测到160个rRE (rRE目录v1.0;无花果。1).鉴于该工具与EHdn相关,我们预期与ExpansionHunter的一致性较高,实际上我们观察到与ExpansionHunter的一致性为91%(扩展数据图)。4).我们发现大多数(80%)这些基因座在一般人群中很少扩增(<5%的时间,n= 6514个基因组;扩展数据图。2).rREs主要在前列腺癌和肝癌中观察到,但我们也在卵巢癌、毛细胞星形细胞瘤、肾细胞癌(RCC)、恐色性RCC和鳞状细胞肺癌中检测到rREs。因此,在三个主要胚层(外胚层、中胚层和内胚层)的组织中都发现了rre,这表明这些扩张是人类基因组固有的现象,而不是任何组织特异性的过程。接下来,我们进行了初步分析,以估计个体癌症基因组中存在体细胞重复扩增。在前列腺癌和肝癌中,大多数癌症基因组(分别为93%和95%)包含至少一个rRE,一些基因组包含多个rRE(图2)。1 c).对于某些致病性重复序列,出生时较大的TR长度易使个体在以后的生活中发生体细胞重复扩增12,但我们通常没有观察到这一点与rREs(补充表7).总的来说,在29种人类癌症类型中有7种发现了rREs,并且主要是癌症亚型特异性的。

图1:癌症基因组中rREs的全基因组检测。
图1

一个在29种人类癌症类型的2509例患者中识别rREs的方法方案:1,头颈部鳞状细胞癌(head - SCC);2、skin-melanoma;3、胶质母细胞瘤(CNS-GBM);4、髓母细胞瘤(CNS -髓母细胞瘤);5、毛细胞星形细胞瘤(CNS-PiloAstro);6、食管腺癌(Oeso - AdenoCA);7、骨肉瘤(Bone - Osteosarc);8、平滑肌肉瘤(Bone - Leiomyo);9、甲状腺腺癌(thyadenoca);10、肺腺癌(lung - AdenoCA); 11, lung squamous cell carcinoma (Lung−SCC); 12, mammary gland adenocarcinoma (Breast−AdenoCA); 13, B cell non-Hodgkin lymphoma (Lymph−BNHL); 14, chronic lymphocytic leukaemia (Lymph−CLL); 15, acute myeloid leukaemia (Myeloid−AML); 16, myeloproliferative neoplasm (Myeloid−MPN); 17, biliary adenocarcinoma (Biliary–AdenoCA); 18, hepatocellular carcinoma (Liver−HCC); 19, stomach adenocarcinoma (Stomach−AdenoCA); 20, pancreatic adenocarcinoma (Panc−AdenoCA); 21, pancreatic neuroendocrine tumour (Panc−Endocrine); 22, colorectal adenocarcinoma (ColoRect–AdenoCA); 23, prostatic adenocarcinoma (Prost−AdenoCA); 24, chromophobe renal cell carcinoma (Kidney–ChRCC); 25, renal cell carcinoma (Kidney–RCC); 26, papillary renal cell carcinoma (Kidney−pRCC); 27, uterine adenocarcinoma (Uterus−AdenoCA); 28, ovarian adenocarcinoma (Ovary−AdenoCA); 29, transitional cell carcinoma of the bladder (Bladder−TCC).brREs在癌症类型中的分布。c,具有rREs的癌症基因组的比例。d,有和没有rRE的癌症基因组的STR突变率。双尾曼-惠特尼检验(n= 2465个癌症基因组);NS,不显著。方框从第25百分位延伸到第75百分位,中线代表中位数,胡须代表最小值和最大值。e, MSS和msi高癌症的rre分布。卡方(双尾)检验与耶茨校正(n= 2482个癌症基因组)。

接下来,我们检查了rre是否与MSI的变化相关3.4.我们确定了含有rRE的样本是否在STRs中具有更高的突变率,这是MSI的一个标志3.28.我们没有观察到有rRE的基因组与没有rRE的基因组在STR突变率上有任何显著差异(双尾Wilcoxon秩和检验,P= 0.27;无花果。1 d).我们还使用PCAWG联盟的最新结果,将含有rREs的癌症基因组与先前确定为MSI的癌症基因组进行了比较28.我们没有观察到含有rRE的样品在MSI中有任何富集,而是在微卫星稳定(MSS)样品中发现了微弱但显著的rREs偏好,而不是在MSI样品中(双尾Wilcoxon秩和检验,P= 0.04;无花果。1 e和扩展数据图。5).因此,我们的发现可能提出了一个模型,在这个模型中,rre是由不同于MSI的过程形成的。

除了MSI之外,不同的突变过程也导致了体细胞突变的特征。我们通过将其与49个单碱基取代(SBS)和11个双碱基取代(DBS)的特征进行比较,测试了rre是否与已知突变特征相关。29.我们在SBS和DBS特征的基础上进行多元线性回归来预测样本中的rre数量。只有一个DBS特征,DBS2显示出与rREs非常微弱的关联(r2= 0.12)(扩展数据图。5).

一些rere重叠监管要素

在160个rre中,我们观察到各种不同的主题(补充表1),其重复单位长度遵循双峰分布,与其他疾病中确定的REs一致(图。2和扩展数据图。6而且726.rre分布在G+C含量范围内,大约一半(76/160)的G+C含量低于50%(补充表)1).6例rre含有已知致病基序,均为GAA30..我们检查了与串联重复查找器(TRF)目录相比,rRE目录中是否有丰富的motif。尽管这种富集可能来自生物和/或技术过程,但我们发现三个富集基序之一是GAA(图2)。2 b).例如,弗里德里希的共济失调是由编码frataxin的基因内含子中GAA基序的重复扩增引起的。这种扩张导致DNA甲基化和抑制性染色质标记的沉积,导致基因的强烈抑制和疾病的发展30..正因为如此,我们怀疑在癌症中发现的一些rre可能会改变表观基因组并影响基因调控网络。

图2:可再生资源的特征。
图2

一个, rre重复单元(motif)的分布。b,在rREs目录中丰富的主题。c, rREs到染色体臂末端的距离。d,基因特征与rREs重叠的比例。e,简单重复距离(n= 950,091个位点)及rREs (n= 160个位点)到最近的DNA元素百科全书(ENCODE) cCRE。中心值代表中位数。韦尔奇的t测试(双尾)。

rre在整个基因组中分布不均匀,偏向于染色体臂的末端(图2)。2摄氏度和扩展数据图。6).这一观察结果与先前关于TRs和结构变异的报道一致1631.我们还用annotatr检查了相对于基因特征的rREs分布(图。二维32.标记为外显子的7%的rre出现在外显子的近端,但不在外显子内部,但其他rre位于内含子、未翻译区域(utr)和剪接位点。这些结果表明,rREs可能在基因表达的调节中具有不同的功能作用。

我们测量了rREs和候选之间的距离独联体-监管要素(cCREs)33;ccre由大约100万个功能元件组成,包括启动子、增强子、dna -可达区域和由cctc结合因子(CTCF)结合的绝缘体。靠近调节元件的rRE可能改变该调节元件的功能,如在脆性X染色体综合征和弗里德赖希共济失调中观察到的那样1.有趣的是,rre的位置比预期的更接近cCRE,我们发现160个rre中有54个直接与一个已知的cCRE重叠(韦尔奇的cCRE)t测试中,P= 4.76 × 10-23年;无花果。2 e和扩展数据图。7).因此,rre经常在基因组的功能区域或附近被发现。

与癌症有关的rREs

我们将每个rRE映射到最近的基因,并发现9个rRE映射到存在于癌症体细胞突变目录(COSMIC)数据库中的第1层基因(图2)。3.及补充表1).我们还观察到与癌症相关基因(詹森病基因关联)有很强的相关性34).也就是说,与160个rre收集相关的前5种疾病中有4种是癌症(图2)。3 b及补充表4).

图3:rREs与癌症的关系。
图3

一个可再生资源与人类疾病的关系。空空的。,chromosome.b,估计感兴趣基因的rREs频率,包括9个COSMIC基因。c,简单重复距离(n= 950,091个位点),非前列腺癌rREs (n= 55个位点)和前列腺癌rREs (n= 105个位点)到最近的前列腺癌风险位点。中心值代表中位数。用Welch 's检验统计学意义t测试(双尾;*,= 0.08)。更多信息请参见方法部分“统计和可重复性”。d, COSMIC tier 1基因中的SNVs与rREs的存在之间的关联。双尾学生的t采用Benjamini-Hochberg法进行FDR校正。

为了检验某些rre是否在肿瘤发生中起作用,我们研究了它们与先前确定的癌症风险位点的关系。在前列腺癌中发现了许多rre,从现有的全基因组关联研究中,已有63个位点与前列腺癌易感性相关35.当我们检查前列腺癌中rREs和癌症风险位点的共定位时,我们发现rREs的位置比标准str更接近前列腺癌易感性位点,或者比偶然预期的更接近前列腺癌易感性位点(Student’st测试中,罗斯福= 0.08;无花果。3 c和扩展数据图。7).

接下来,我们研究了COSMIC基因的出现与rREs的出现之间的关系(图。3 d).有趣的是,在对多假设检验进行校正后,发现在5个COSMIC基因没有rREs的患者基因组中,体细胞突变发生得明显更多。在这些基因中,TP53尤其引人注目的是野生型TP53在肌萎缩性侧索硬化症(ALS)和亨廷顿舞蹈病中,重复扩张的致病效应是至关重要的3637.与这些发现相一致的是RAD53酵母中的DNA损伤修复基因在扩大重复存在时被磷酸化和激活38

msi高的癌症通常与较高的免疫细胞浸润水平相关39.我们考虑了一些rREs是否也可能与更高的免疫细胞浸润有关,但我们没有观察到细胞毒活性之间的相关性40以及rRE(扩展数据图)的存在。8).由于160个rREs中只有4个匹配的RNA测序(RNA-seq)数据,随着更多匹配的WGS和RNA-seq数据集可用,这一分析值得进一步研究。

在RCC中检测到内含子rRE

的内含子中的GAAA扩展UGT2B7在34%的RCC样本中观察到。UGT2B7编码葡萄糖醛酸酶,清除小分子-包括化疗-从身体和选择性表达在肾脏和肝脏41

通过凝胶电泳,我们在正常肾细胞系HK-2中鉴定了~26个GAAA重复序列的预期TR大小,与参考基因组中观察到的长度密切对应(图2)。4).相比之下,我们在8个透明细胞RCC细胞系中的5个中发现了~63到~160个GAAA重复单元的扩增。大多数扩张是杂合的(图。4).使用高精度PacBio HiFi读取的长读DNA测序证实了PCR结果,并显示了786-O和Caki-1细胞系在单碱基对分辨率下重复扩增的精确结构(图2)。4 b).我们还从透明细胞RCC患者的12个原发性肾肿瘤组织样本中检测到5个重复扩张(扩展数据图)。9),比RCC细胞株表现出更多的异质性;与克隆细胞系相比,人类肿瘤样本可能具有更多的异质性。

图4:RCC中的rRE。
图4

一个, RCC样品中GAAA TR的凝胶电泳。该分析进行了两次,凝胶是结果的代表。梯子的单位是碱基对。凝胶源数据参见补充图。1b的内含子中GAAA rRE长读测序的可视化UGT2B7.数据来自PacBio HiFi测序。c的内含子中检测到的围绕rRE的位点UGT2B7.HepG2细胞中RNA聚合酶II (Pol2)、乙酰化组蛋白H3赖氨酸27 (H3K27ac)、单甲基化组蛋白H3赖氨酸4 (H3K4me1)和p300的信号显示。还描述了cCREs和染色质状态(ChromHMM)。公司转录。d,表示UGT2B7ENST00000508661.1亚型在碾压cc样品中作为rRE检测的函数UGT2B7(归一化表达式,计数)。中心值代表中位数。采用双尾Wald检验及FDR校正(Benjamini-Hochberg) (n= 49个具有匹配WGS和RNA-seq数据的癌症基因组)。

考虑到UGT2B7在肝脏和肾脏中有选择性地表达,并且它在清除体内小分子方面有作用,我们检查了这种rRE是否可能位于任何可以调节其表达的功能元件附近。中rRE周围染色质环境的分析UGT2B7发现了附近的增强子,提高了这种rRE改变的表达的可能性UGT2B7(无花果。4摄氏度).该rRE的重复基序GAAA与弗里德里希共济失调的致病重复基序GAA相似。致病的gaa重复序列扩增阻断FXN表达式30..因此,我们考虑内含子GAAA-repeat扩增是否会抑制的表达UGT2B;我们发现表达量略有下降,但不具有统计学意义(扩展数据图)。8).而这个rRE也与生存率的差异无关(扩展数据图。8),则与基因转录本亚型的显著减少有关UGT2B7(瓦尔德检验与FDR校正,P= 0.0048)(图4 e).有趣的是,的异构体用法的转变UGT2B7在癌症中被注意到吗42

Repeat-targeting分子

GAAA-repeat扩增有助于细胞增殖吗?以前已经证明了小分子靶向致病性重复扩增43.我们之前的研究表明,用合成转录延伸因子(Syn-TEF1)靶向相关TR基序GAA逆转了弗里德赖希共济失调的几种模型的发病机制44.因此,如果RCC中的GAAA rRE表现相似,那么靶向GAAA的Syn-TEF可能具有抗增殖活性。我们合理地设计了Syn-TEF3,它包含一个靶向gaaa的聚酰胺和一个溴域配体JQ1,旨在招募部分转录机制(图1)。5和补充图。2).我们还包括了一个控制分子Syn-TEF4,它靶向GGAA TRs,以及缺乏JQ1结构域的聚酰胺PA3和PA4。我们之前已经证明了syns - tef和聚酰胺在活细胞中定位于重复的TRs4445

图5:RCC中gaaa靶向分子的设计和表征。
图5

一个, Syn-TEF3, PA3, Syn-TEF4和PA4的化学结构。Syn-TEF3和PA3靶向5 ' -AAGAAAGAA-3 '。Syn-TEF4和PA4靶向5 ' -AAGGAAGG-3 '。的结构N-甲基吡咯(开环),N-甲基咪唑(圆形)和β-丙氨酸(菱形)。N-甲基咪唑为清楚起见加粗。JQ1的结构与聚乙二醇(PEG)相连6)表示为蓝色圆圈。异眼酸及其连接物的结构用IPA表示。完整的化学结构见补充图。2.与Syn-TEF4和PA4形成的不匹配用橙色线表示。b化合物处理72 h后,RCC细胞株Caki-1和786-O的相对细胞密度。用CCK-8法测定细胞相对密度(方法).结果以均数±s.e.m表示。(n= 4个生物重复)。c碘化丙啶阳性细胞百分比的定量。P数值来自单向方差分析,并对多次比较进行Bonferroni校正。结果以均数±s.e.m表示。(n= 3个生物重复除外n= 786-O细胞中Syn-TEF3的2个生物重复)。d, cki -1和786-O细胞用碘化丙啶(红色)和Hoechst 33342(蓝色)染色的活细胞显微镜。比例尺,100 μm。参见扩展数据图。10

我们检查了Syn-TEFs对细胞增殖的影响(图。5 b).之所以选择Caki-1和786-O细胞,是因为它们的第一个内含子内分别有最大的(164个重复)和最小的(32个重复)GAAA束UGT2B7.我们观察到,Syn-TEF3以剂量依赖的方式导致Caki-1细胞的增殖显著下降,但对786-O细胞影响不大。不靶向GAAA TRs的Syn-TEF4并没有显著降低所测试的两种细胞系的增殖,这表明需要GAAA特异性靶向(图2)。5 b).另外两种具有gaaa -重复扩增的细胞系以及另外两种对照非扩增细胞系显示了Syn-TEF敏感性与重复扩增的存在之间类似的关联(扩展数据图)。10).与这一发现一致,经Syn-TEF3处理的Caki-1细胞与dmso处理的对照组相比,通过碘化丙啶染色测定,细胞死亡显著增加(图2)。5 c, d和扩展数据图。10).相比之下,经Syn-TEF3处理的786-O细胞与dmso处理的细胞相比,碘化丙啶阳性细胞无明显差异(图2)。5 c, d和扩展数据图。10).值得注意的是,与载体对照相比,Syn-TEF4、PA3和PA4对照剂对任何细胞系的细胞死亡都没有显著影响(图4)。5 c, d和扩展数据图。10).这些结果是初步的,值得进一步研究,但它们表明GAAA-repeat扩增可能代表RCC的遗传脆弱性。

讨论

在这里,我们对不同于MSI的癌症基因组的rREs进行了全基因组调查。我们的数据(1)确定了7种人类癌症类型中的160个rREs,并表明(2)大多数(160个中的155个)rREs是癌症亚型特异性的;(3)在疾病中,rREs在人类癌症基因座中富集,且倾向于发生在调控元件附近;(4) rre与MSI状态无关;(5)用小分子靶向RCC中的GAAA-repeat扩增导致癌细胞死亡。综上所述,我们的研究结果揭示了癌症基因组中尚未探索的基因改变,具有重要的机制和治疗意义。

癌细胞进化和适应环境或药理学扰动,但支持这些变化的机制仍未被发现。基因变异的一个来源可能是TR DNA序列。与单核苷酸变体(SNVs)或插入和删除(indels)相比,TRs重复长度突变的发生频率可高达10,000倍。1.重复扩张可能提供了基因变异的来源,使癌细胞能够适应环境的变化46.事实上,在治疗24小时后,结直肠癌在靶向治疗中获得了STRs突变,这表明这些区域的突变可能与快速进化有关47.在未来的研究中,研究面临变化的环境(包括转移和化疗)的癌细胞基因组的重复扩张将特别有价值。

从历史上看,MSI一直是研究癌症基因组中STR变化的重点,因为修复基因中特定的致癌基因改变可以促进广泛的STR改变。有趣的是,我们发现rREs和MSI之间几乎没有相关性。这些结果与先前的研究结果一致,即在较大TRs时MSI与重复不稳定性之间的相关性并不确定48.MSI可能导致一种我们尚未发现的rre亚型,或者rre可能源于与MSI不同的突变过程。DNA有几种不同的细胞修复系统,我们观察到的rre可能是由于非常特定的位点相关机制或活动。其中一些重复的扩张可能是由于独联体具有有趣的DNA或染色质配置的区域,这些区域易于在不同的位点上扩张,而不是导致全局的基因突变反式效果,如发生在MSI。

重复的扩张可以改变细胞功能的机制有很多。已知的致病性重复扩增可以改变蛋白质的编码序列,例如在亨廷顿病的情况下。然而,非编码区域的几次重复扩增改变了基因表达1.在其他情况下,重复扩增可导致致病的RNA分子(肌强直性营养不良症)或蛋白质(渐冻症)1.最后,msi相关癌症的重复扩增,由于太小而无法被EHdn检测到,可以破坏DNA复制49.因此,我们的目录为探索rREs改变癌症细胞功能的机制提供了强大的资源。

识别重复扩展的工具仍处于起步阶段。该领域将受益于具有全基因组长读DNA测序数据的样本队列、改进的生物信息学方法、增加的测序覆盖率和增加的队列规模。与其他从短读测序数据中识别重复扩增的工具一样,我们无法区分合子性与样本异质性,也无法获得重复序列的精确长度。我们独立的实验验证表明,一些重复展开是异质的(扩展数据图。8).我们怀疑肿瘤异质性可能导致rREs漏报。此外,本研究的重点是体细胞突变,但在正常发育背景下发生的重复扩增将是另一个重要的研究领域10.此外,使个体易患癌症的种系事件也值得研究;有证据表明雄激素受体基因中的TR与前列腺癌发病时的肿瘤分期和肿瘤分级有关50.最后,我们只检测到重复长度大于测序读取长度的变化。在未来的研究中,探索长度较小的周期性变化将是重要的。最后,重要的是要承认,rREs可能是由遗传不稳定性和克隆选择导致的表型的介质或乘客。在我们在RCC中靶向rRE的一个实例中,细胞增殖减少,与该rRE的中介作用一致。区分每个rRE的这两种可能性将是未来的重要工作。

据我们所知,这是第一次对神经系统或神经退行性疾病之外的重复扩张进行全基因组调查。数千个高质量的全基因组序列存在于许多疾病中,我们的数据提供了证据,表明重复扩展应该在神经退行性疾病的经典边界之外进行探索,在那里它们已经被研究得最多。我们的研究结果为分析复杂疾病(如癌症)的WGS数据集提供了一个框架。

方法

数据管理

我们从ICGC和TCGA PCAWG数据集中获得了白名单数据。“白名单”一词指的是通过PCAWG联盟质量控制的样品24.数据通过癌症基因组合作实验室访问。我们使用了对齐的读取(BAM文件),如前所述,它与GRCh37对齐24.这些数据可通过PCAWG数据门户(https://docs.icgc.org/pcawg).分析所包含的样品清单见补充表2

体细胞rre的鉴定

我们分别分析了每种癌症类型的肿瘤和匹配的正常样本。我们执行EHdn (v0.9.0)16——min-anchor-mapq 50——max-ir -mapq 40。为了对基因座进行优先排序,我们开发了一个称为串联重复基因座优先排序的工作流程(TROPIC)。我们包括染色体1-22、X和Y的位点进行下游分析。我们删除了锚定重复读(IRR)值>10%为>40的基因座,这是理论最大值。的P每个基因座的值(来自非参数单侧Wilcoxon秩和检验)用于计算FDR价值。报告FDR < 0.10的基因座。我们选择的基因座中,> %的样本的锚定IRR商为>2.5。过滤结果见补充表3..对于EHdn检测到的重复扩增,要求TR大于测序读长。体细胞重复扩张被定义为有FDR肿瘤和正常样本的比较< 0.05。接下来,我们计算了每种癌症中rre发生频率的初步估计。为了在单个癌症样本中调用重复扩张,我们分析了肿瘤和正常锚定IRR值的分布,并为锚定IRR商选了一个保守阈值((肿瘤锚定IRR -正常锚定IRR)/(正常锚定IRR + 1)) > 2.5(扩展数据图。4).

局部读深度归一化

EHdn将给定位点的锚定irr数归一化为全局读深度。为了解释可能改变局部读深的染色体扩增和其他形式的遗传变异,我们进行了以下归一化。对于每个rRE位点及其对应癌症中的样本,使用samtools v1.13,参数深度为-r,来计算该位点内每个碱基对上的读取深度以及包含TR起始和停止位置的500 bp区域。我们计算每个碱基对上的平均读取深度,并将其定义为局部读取深度。最后,我们计算了特定于样本和rRE组合的局部读深度归一化锚定IRR值,方法是将来自EHdn的非归一化锚定IRR值除以轨迹处的局部读深度。

CABOSEN细胞的生成

CABOSEN细胞是由cabozantinib敏感(CABOSEN)的人乳头状RCC异种移植瘤生长而来Rag2- / -γC- / -老鼠,如前所述51.用无菌刀片将肿瘤组织切碎,细胞悬液在DMEM/F-12培养基(康宁)中培养,培养基中添加10% (vol/vol)宇宙小牛血清(ThermoFisher)。细胞在添加10% (vol/vol) DMSO的培养基中扩增并冷冻保存,传代8的细胞用于分析。

凝胶电泳分析rre

我们使用CloneAmp HiFi PCR Mix (Takara Biosciences)进行PCR,并根据需要将DMSO加入最终浓度为5-10% (vol/vol)。用于分析基因座的引物列表见补充表5.所有细胞系用MycoAlert支原体检测试剂盒(Lonza)检测支原体污染为阴性。细胞系身份由约翰霍普金斯大学遗传资源核心设施通过STR分析进行验证,但SNU-349细胞除外,该细胞与报告的SNU-349细胞或任何其他已编录的细胞系的STR分析不匹配,而是发生了突变VHL基因表达水平高PAX8而且CA9,与透明细胞RCC来源一致。

使用ExpansionHunter和REViewer进行重复扩展的可视化

为了检查支持重复展开的读取,我们在GitHub页面上为ExpansionHunter标注了重复。然后,我们使用默认设置使用ExpansionHunter (v4.0.2)对该区域进行概要分析15.结果读取使用默认设置在REViewer (v0.1.1)中可视化。审稿人可在https://github.com/Illumina/REViewer.当肿瘤样本中一个等位基因的重复束长度大于100 bp且超过两个正常等位基因的重复束长度时,称为重复扩增。如果至少有10个癌症基因组重复扩增,则认为一个位点是有效的。

rre在独立样本队列中的验证

在患者知情同意的情况下,在手术切除肿瘤后,从透明细胞RCC患者中获得了12对匹配的正常和肿瘤样本(斯坦福机构审查委员会批准的方案26213和12597)并进行了分析。从斯坦福癌症研究所的组织采购共享资源设施中分别获得了18对和15对匹配的前列腺癌和乳腺癌正常和肿瘤样本,并进行了分析。这些样本是在患者知情同意的情况下获得的(斯坦福机构审查委员会批准的方案11977和55606)。使用Quick Microprep Plus试剂盒(D7005)或Zymo Quick Miniprep Plus试剂盒(D7003) (Zymo Research)进行核酸分离。凝胶电泳如上所述。如果与匹配的正常样本相比,在至少一个患者肿瘤样本中发现了体细胞重复扩增,则认为检测到了基因座。

将采样分析

对于下采样分析,使用samtools view命令将来自RCC样本的肿瘤基因组从平均(52×)测序深度下采样至40×、30×、20×和10×深度。如上所述,对每个测序深度进行EHdn,并进行bonferroni校正P中rRE的值UGT2B7(GAAA chr4:69929297 - 69930148)。

本地读深度归一化过滤器的基准测试

我们通过观察模拟读的行为,在硅片中对局部读深度滤波器进行基准测试。首先,我们创建了一个包含人工扩增重复序列的参考基因组。我们随机选取了10个位于1号染色体上的短于测序读取长度100bp的TRs。我们使用BioPython Python包(v1.79)在GRCh37染色体1上人工扩展了这些TRs。接下来,我们使用wgsim (v0.3.1-r13)模拟从引用文件中读取命令' wgsim -N 291269925——1 100——2 100 reference_file。fasta output.read1。fastq output.read2.fastq”。计算读取数(由-N选项指定)以达到30×染色体1的覆盖。生成的文件对(以下称为基本fastq文件)包含所有扩展的拷贝数为2。

为了模拟拷贝数放大,使用仅包含人工扩展的重复序列及其周围1000 -bp侧翼区域的参考文件重复读取模拟过程。我们创建了10对fastq文件,每对文件的拷贝数都在增加。我们通过将要生成的读取数(wgsim -N选项)乘以所需的数来指定拷贝数。为了生成最后一组fastq文件,我们将每对复制数放大的fastq文件与基本fastq文件连接起来。最终结果是8对fastq文件,其中包含1号染色体的读取,扩增的复制数从2到10个不等。

除了8个拷贝数扩增的fastq文件外,拷贝数为2的fastq基文件用默认选项bwa-mem (v0.6)与GRCh37的1号染色体进行比对。使用samtools (v1.15)使用默认选项将生成的SAM文件转换为BAM格式。最后,我们运行EHdn profile命令(v0.9.0),将最小锚映射质量设置为50,最大IRR映射质量设置为40。最后,通过与从头重复展开调用重叠STR坐标来提取锚定的IRR值。

短读和长读DNA测序

我们对Caki-1和786-O细胞系进行了短读测序(60×测序覆盖率,在NovaSeq 6000仪器上进行150 bp配对端测序)和长读测序(50×测序覆盖率,在Sequel IIe仪器上进行PacBio HiFi测序)。我们使用参数——sort——min- concortry -perc 70.0——min-length 50将GRCh37的长读取与pbmm2 (v1.7.0)对齐。我们使用参数-K 10000000 -M (BWA-MEM的实现)将GRCh37的短读与Sentieon (v202112.01)对齐,并使用EHdn分析样本,如上所述。我们将至少一个样本的锚定IRR值为>0的基因座纳入进一步分析。当重复长度超过测序读取长度时,锚定IRR值>0出现。为了根据长读测序数据对EHdn进行基准测试,我们手动确定了长读测序数据中给定位点的TR长度。如果长读测序数据中的TR长度超过短读测序的150 bp,我们认为该位点已被确认。

PacBio HiFi数据与pbmm2 (v1.7.0)与GRCh37对齐,并在UGT2B7串联重复序列基因型(v0.2.0;https://github.com/PacificBiosciences/trgt).

rRE基因座分析

为了确定rREs是否与任何人类疾病相关,将rREs映射到具有GREAT的基因(v4.0.4,默认设置)52.用Jensen Diseases对得到的基因进行富集分析53.分析结果见补充表4.为了确定重复扩张是否与msi高的癌症相关,我们从参考文献中获得了数据。3..获得结肠腺癌(COAD)、胃腺癌(STAD)、肾肾细胞癌(KIRC)、卵巢浆液性囊腺癌(OV)、前列腺腺癌(PRAD)、头颈部鳞状细胞癌(HNSC)、肝肝细胞癌(LIHC)、膀胱尿路上皮癌(BLCA)、多形性胶质母细胞瘤(GBM)、皮肤黑色素瘤(SKCM)、甲状腺癌(THCA)和乳腺浸润性癌(BRCA),并与PCAWG数据集中对应癌症类型的重复扩张数量和至少一次重复扩张患者的百分比进行比较。我们还将包含rREs的癌症基因组与微卫星突变率(本研究分析的157个PCAWG基因组之外的所有基因组均可获得数据)重叠,我们将其称为STR突变率,以及引用中的MSI调用。28.用双尾Wilcoxon秩和检验评估rREs与STR突变率的相关性。采用Yates校正卡方检验评估rREs与MSI呼叫的相关性。

为了确定rre是否与已知的突变特征相关,我们从ICGC数据协调中心(DCC;https://dcc.icgc.org/releases/PCAWG/mutational_signatures/Signatures_in_Samples).我们对每个SBS和DBS特征进行多元线性回归,以确定样本中存在的rre数量的预测因子。为了选择预测因子,我们对DBS和SBS特征进行了最佳子集选择,并将年龄作为可能的混杂因素。我们使用Python中的statsmodels (v0.12.2),特别是在statsmodels.api. ols模块中找到的普通最小二乘模型来估计所选预测因子在其相应的多元线性回归模型中的系数54

为了确定重复扩增是否与细胞毒活性的差异相关,我们计算了先前描述的四种具有匹配RNA-seq和WGS数据的癌症的细胞毒活性40.对于每个位点,我们用Welch 's比较了重复扩增患者和未检测到重复扩增患者的细胞溶解活性t带有多重假设检验校正的检验(Benjamini-Hochberg FDR< 0.05)。使用annotatr (v1.18.1)用基因元素注释rre32

为了确定rre是否与调控元素相关,我们下载了ccre33并通过LiftOver (UCSC)将其映射到GRCh37 (n= 950,091,去除174个异常值)55.我们使用bedtools nearest命令确定了rre和ccre之间的距离。56并将这个距离与简单重复目录的距离进行比较57.为了比较与ENCODE ccre的距离,韦尔奇t进行测试。

确定前列腺癌rre是否与前列腺癌易感位点相关35,我们使用' bedtools nearest '命令计算了到三组位点的距离。我们计算了(1)前列腺癌样本中存在的rREs与前列腺癌易感位点之间的距离,(2)前列腺癌样本中不存在的rREs与前列腺癌易感位点之间的距离,以及(3)简单重复序列与前列腺癌易感位点之间的距离。为了比较这三种联想之间的距离,我们进行了韦尔奇tFDR校正试验(Benjamini-Hochberg)。

为了确定rREs是否与复制时间相关,我们从ENCODE网站下载了7个细胞系(NCI-H460、T470、A549、caaki2、G401、LNCaP和SKNMC)的Repli-seq复制时间数据。58.我们选择了所有细胞系具有一致信号的区域进行分析(每个细胞系在给定位点上的早期或晚期复制指定一致)。与简单重复序列目录相比,我们使用自举(n10000)。我们从rre和简单重复中采样了54个位点(在一个一致的复制区域中存在的rre的数量)。韦尔奇的t对自举样本进行测试,以估计aP价值。我们将FDR修正(Benjamini-Hochberg)应用于估计P值。确定rRE状态是否在UGT2B7与透明细胞RCC (TCGA缩写,KIRC)患者的生存结局相关,我们使用Welch 'st以及四分位数。

要识别rRE目录中充实和耗尽的motif,我们遵循与motifscan Python模块(v1.3.0)相同的方法。59.我们将我们的rRE目录与简单重复目录(TRF)作为对照。对于每个独特的motif,我们建立了一个列联表,指定带有和不带有该motif的rre和简单重复的计数。对表应用了两个单尾费雪精确检验,以检验两个方向的显著性,即富集和消耗。使用Scipy Python包(v1.7.0)中的“stats”模块进行显著性检验。由于进行了多假设检验,我们将FDR修正(Benjamini-Hochberg)用于多假设检验P值,临界值(FDR)为0.01。

为了比较COSMIC基因与rRE的SNVs,我们首先将癌症基因组分为两类:rRE队列和非rRE队列。rRE队列包含所有至少检测到一个rRE的基因组(n= 615),非rre队列包含所有未检测到rREs的基因组(n= 1897)。然后,我们观察了rRE队列中某一特定基因(COSMIC tier 1基因)至少有一个突变的供体数量。以及非rre队列中某一特定基因至少有一个突变的捐赠者数量用列联表。我们计算了P与rRE或非rRE队列相关联的基因的意义的值(Fisher精确检验)。这P对所有COSMIC基因重复计算-值,使用FDR在0.05的显著性水平(Benjamini-Hochberg)校正多假设检验。

对总体人口扩张的估计

为了估计一般人群中rREs的频率,在1000个基因组计划样本上运行EHdn (v0.9.0)60n= 2,504) (GRCh38)和医学基因组参考库61样品(n= 4010) (GRCh37上升到GRCh38)。

160个rREs (GRCh37)的基因组坐标用1000 bp填充,并用UCSC LiftOver翻译成GRCh38坐标。然后,将rRE坐标(GRCh38)与包含锚定IRR调用的总体样本中的位点进行重叠。选取总体样本中与匹配基序重叠的rre进行进一步分析。接下来,我们试图在总体样本中确定扩大的rre,以量化其患病率。为此,我们将它们的全局标准化锚定IRR值转换为与ICGC值相当的值。这一步是必要的,因为PCAWG数据集的测序读取长度通常为100 bp,而1000个基因组和医学基因组参考库数据集的读取长度为150 bp。换算公式为(锚定IRR, 100 bp) = 0.5 + 1.5 ×(锚定IRR, 150 bp)16.如果总体样本中的一个样本的锚定IRR值大于来自PCAWG数据集的正常样本的锚定IRR值的第99百分位,则该样本被计数为扩张,该阈值与用于调用肿瘤样本中的扩张的阈值相当(扩展数据图)。4).在未来的rRE目录中,对于群体样本中重复扩张的估计频率高于预期的罕见情况,这些数据可用于进一步筛选rRE,以提高癌症特异性重复扩张的检测。

为了比较正常样本中TRs的长度,肿瘤样本中有和没有匹配的rRE,包括前列腺腺癌和肾脏rcc队列中的捐赠者,其数据可通过癌症合作实验室下载(n= 253)。我们使用默认选项的ExpansionHunter (v5.0.0)对所选捐赠者的正常样本进行前列腺癌和肾癌rre基因分型。当一个样本中有两个rRE的等位基因时,两个等位基因都被包括在内,并被视为不同的数据点。对于每个rRE,我们测试了来自肿瘤样本中有扩张的捐赠者的基因型分布是否与没有扩张的捐赠者的基因型分布不同。学生的t采用Test进行计算P值与FDR校正(Benjamini-Hochberg),以调整多假设检验。

rREs与基因表达的关系

匹配的RNA-seq和WGS数据可用于肾- rcc,卵巢- adenoca, Panc-AdenoCA和Panc-Endocrine。这些样本的RNA-seq数据来自DCC (https://dcc.icgc.org/),并将数值转换为每百万抄本(TPM)。归一化基因表达(TPM)值的比较样本有和没有rRE(韦尔奇t测试,FDR校正)。对于异型分析,使用R (v4.0.5)中的DESeq2 (v1.32.0)包比较了重复扩展和未重复扩展的样本的归一化基因表达计数。我们使用DESeq函数来计算日志2的三种异构体的-变换折叠变化UGT2B7基因(ENST00000305231.7, ENST00000508661.1和ENST00000502942.1),并使用Benjamini-Hochberg程序进行Wald检验和FDR校正(-值阈值< 0.01)。

syn - tef和聚酰胺的设计、合成和表征

syn - tef和聚酰胺被设计为靶向GAAA重复序列(Syn-TEF3和PA3)或对照GGAA重复序列(Syn-TEF4和PA4)。药明康德合成了Syn-TEF3, Syn-TEF4, PA3和PA4,并纯化到至少95%的化合物纯度,并在没有进一步表征的情况下使用。HPLC法化学表征条件为:流速1.0 ml min1;溶剂A: 0.1% (vol/vol)三氟乙酸(TFA)在水中;溶剂B:乙腈中0.075% (vol/vol) TFA;双子柱:C18 5 μm 110A 150 × 4.6 mm。完整的表征结果可以在补充图中找到。2

用Syn-TEFs处理RCC细胞系

caki - 1,786 - o和Caki-2细胞从美国类型培养集(ATCC)中获得,并在rmi -1640中培养l-谷氨酰胺(Gibco, 11875093),补充10% (vol/vol)胎牛血清。从ATCC中获得A498和ACHN细胞,在含葡萄糖的DMEM中培养,l-谷氨酰胺和丙酮酸钠(康宁,10-013-CV),补充10% (vol/vol)胎牛血清。RCC-4细胞来自A. Giacca(斯坦福大学),在DMEM中与葡萄糖一起培养,l-谷氨酰胺和丙酮酸钠(康宁,10-013-CV),补充10% (vol/vol)胎牛血清。通过STR分析(约翰霍普金斯大学遗传资源核心设施)确认细胞系身份,支原体检测为阴性。细胞于第0天接种于96孔板。第1天,用上述分子处理细胞。分子溶解在DMSO(载液)中,并添加到细胞中(0.1% (vol/vol) DMSO终浓度)。在第4天(72小时后),根据制造商的说明,使用细胞计数试剂盒(CCK-8, Dojindo Molecular Technologies)测量相对代谢活性作为相对细胞密度的代理。分子处理的细胞吸光度(450nm)归一化为DMSO处理(0.1% (vol/vol))或未处理的细胞吸光度。用Infinite M1000微孔板阅读器(Tecan)测量吸光度。

在显微镜下,Caki-1和786-O细胞在标准培养条件下被镀在玻璃底96孔板上。电镀1 d后,加入不含药物的培养基,加入50 μM Syn-TEF3或50 μM Syn-TEF4, 37℃孵育72 h。作为对照,未接受处理的孔在染色前用70% (vol/vol)乙醇孵育30秒。然后,根据制造商的说明,用活死细胞活力测定试剂盒(Millipore Sigma, CBA415)中的丙啶、钙钙素- am和Hoechst 33342对细胞进行染色,并立即在Keyence BZ-X710显微镜上用0.17-NA CFI60物镜在×10倍率下成像。每个处理条件测8个场,实验重复2次。使用斐济软件进行量化(版本20220330-1517)。对于统计分析,使用GraphPad Prism (v9.3.1)对多个比较进行Bonferroni校正的单向方差分析。

统计和再现性

数据以均数±s.e.m表示。除非另有说明。除非另有说明,所有实验至少重复两次。除非另有说明,否则使用matplotlib (v3.4或v3.6)准备的箱形图如下:盒子从数据的第一个四分位数(Q1或第25百分位数)延伸到第三个四分位数(Q3或第75百分位数),在中位数处有一条线。晶须从盒子延伸1.5倍的四分位间距(IQR)。IQR是Q3和Q1的值之差。为了提高清晰度,没有绘制异常值。有关如何生成箱形图的详细信息,请参见https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.boxplot.html#matplotlib.axes.Axes.boxplot

报告总结

有关研究设计的进一步资料,请参阅自然组合报告摘要链接到这篇文章。