简介

植物以其难以置信的特殊代谢物多样性而闻名,这些代谢物在与环境的相互作用中起作用。这些生物合成途径是动态的,促进了新化合物的持续进化。近年来发表的高质量植物基因组的数量不断增加,导致人们发现一些代谢途径被组织成生物合成基因簇(BGCs)。BGC是由两个或两个以上不同类别的非同源基因组成的一组,这些基因在物理上聚集在一起,转录上相连,功能上相关123.456.迄今为止,已有超过30种植物bgc被功能验证7自从在玉米中发现了第一个BGC8.在植物中发现的BGCs主要参与特化代谢而不是中枢代谢9并出现在多种类型的化合物中,包括罂粟中的苄基异喹啉生物碱1011葫芦科中的三萜葫芦素1213禾科和其他谷类中的二萜莫内酯1415161718

bgc如何形成以及为什么形成仍然是一个讨论的话题,尽管出现了一些假设。在细菌和真菌中,BGCs是常见的,并在水平基因转移过程中帮助整个途径的转移1920..虽然目前还没有植物BGCs水平基因转移的报道,但BGCs在生物合成途径的垂直遗传方面仍具有优势521.BGCs传递的遗传连锁促进共遗传,从而保护整个通路的完整性222324.在一些途径中,如莫内酯生物合成,单个基因的丢失会导致有毒中间体的积聚23.bgc的另一个适应度好处是共同调节的可能性,例如通过单个转录因子或调节区域。这可以在组织或特定发育阶段的方式中提供能量上有利的代谢物生产控制5162125262728.调控也可能发生在染色质水平,DNA和组蛋白甲基化调节整个簇的转录252930.31

由于植物BGCs的研究仍处于起步阶段,它们的起源和进化也没有得到很好的理解。到目前为止,证据支持植物BGCs可能是由基因或基因组复制和/或基因组重排引起的5.BGC的形成可能在基因组的高活性区域得到增强,例如最近的工作详细描述了燕麦燕麦酸BGC在一个亚端粒区域的组装32.基因簇的诞生可以从单个共定位基因对开始。后续附加类酶的共定位可通过染色体重塑或转位发生52130.33.集群的扩展也可以通过串联、局部或全基因组复制来继续46333435.参与特化代谢的酶的内在杂乱性使快速的新功能化成为可能,促进了BGCs在不同植物谱系中进化时的功能分化34363738.最近的研究表明,在比较不同植物科的BGCs时,核心基因的保护和新功能/途径的多样化639

萜类化合物是一类特殊的代谢物,在研究的bgc中有很好的代表性。植物萜类化合物的多样性令人难以置信,包含超过65,000个结构40使它们成为已知的最大一类植物天然产物。植物依赖萜类化合物进行许多相互作用,包括病原体和食草动物防御,信号传递和传粉者吸引414243.萜烯合成酶(TPSs)催化二磷酸类异戊二烯前体形成萜烯骨架,根据其系统发育关系可分为8个亚家族(a-h)414445.双环标记型二萜通常由II类(TPS-c)和I类(TPS-e)二萜合酶(diTPS)的连续活性形成。II类ditps催化20碳类异戊二烯二磷酸的质子介导环化,通常是香叶基香叶酰二磷酸(GGPP),形成特征的十氢萘核心。一类diTPS然后裂解二磷酸,并可能进一步分化二萜主链。二萜主链通过氧化和随后的偶联被其他类酶功能化以增加生物活性。细胞色素P450 (CYPs),特别是在膨胀型CYP71家族中,经常氧化萜烯,并已发现与tps以成对或扩展的bgc共定位246

萜类植物在薄荷科(Lamiaceae)中多样性特别丰富4748.22种不同Lamiaceae物种的基因组组装(补充表1),揭示了至少两类萜类化合物的bgc:从猫薄荷中提取的单萜类荆芥内酯(荆芥sp)。49和丹参中的二萜类丹参酮(丹参245051.丹参酮因其强大的药理活性而被研究,因此许多生物合成途径已被阐明(补充图。12450515253545556575859.丹丹酮的萜主链是苯胺二萜,是由一类(+)-copalyl二磷酸((+)-CPP)合酶和一类苯胺二萜合酶形成的labdane二萜。枞木类二萜烯可能是广泛的生物活性二萜类化合物的萜前体,这些生物活性二萜类化合物在Lamiaceae和其他植物中普遍存在60.许多萜类化合物的抗菌作用表明它们在植物防御中具有天然作用6061626364.鼠尾草酸是另一种在几个Lamiaceae物种中发现的具有强大抗氧化和抗癌特性的枞烷二萜65.鼠尾草酸及其相关二萜化合物的生物合成已被阐明迷迭香,鼠尾草而且鼠尾草后(迷迭香和鼠尾草)6667并涉及许多与丹参酮生物合成相关的同源CYPs(补充图)。1).

以前的研究美国miltiorrhiza基因组已经发现了两个bgc,它们共同包含编码丹参酮diTPSs的基因和两个参与丹参酮生物合成的CYP76AHs245051.第三个位点包含一系列cyp71d,包括负责丹参酮d环杂环的酶的两个基因(CYP71D375和CYP71D373)。最近发表的其他Lamiaceae基因组揭示了其他四个物种的共联BGCs:大牡丹,丹参而且黄芩(分别为柚木、猩红鼠尾草和中国黄芩)245868.此外,我们之前报告过在Callicarpa美国(美国美蓝莓),含有咪地雷烯diTPS基因的同源物以及编码多个CYP76AHs和cyp71d的同源物69.这5个种的差异表明该BGC可能在Lamiaceae中普遍存在。

在这项工作中,为了探索二甲烯BGC的流行和进化,我们调查了10个Lamiaceae基因组组装的代表性面板(图2)。1).我们关注与BGC的同步性c .美国,这是迄今为止发现的最大的一个,跨度约400 Kb,包括7个ditps和12个cyp。我们的共联分析显示,在所有研究的物种中,核心的丁二烯生物合成基因都是保守的,同时突出了五个亚科中BGC的谱系特异性多样化。系统发育分析支持每个酶类的共同祖先,并能够重建最小的祖先集群。我们发现BGC在c .美国已经进化出双功能,除了米替雷烯之外,还提供了以前未识别的二萜(+)-丁香烯的支架。除了强调BGC双功能的实例外,这还为以前难以接近的双萜开辟了生物合成途径,这在植物中很少观察到1070.我们还在另外四个物种中发现了复杂的蒽醌BGCs,为阐明之前未知的二萜类途径奠定了基础。比较植物家族中BGC的进化轨迹说明了基因组组织如何作为扩大代谢多样性的基础。

图1:本研究中使用的物种和基因组组合。
图1

演化图显示了所研究物种之间的进化关系。节点上的数字表示数百万年演化枝年龄的估计(MYA)777879.非二倍体物种的倍性水平在其基因组大小旁边的括号中显示(补充表2).

结果

的基因组组装和注释l .益母草p . barbatus,p .寻常的

为了增加Lamiaceae家族代表的多样性,我们对另外三个基因组进行了测序,Leonotis益母草属barbatus,扁桃体脓肿寻常的,使用10× Genomics的linked read方法。分离高分子量DNA,构建10× Genomics文库,利用Supernova进行基因组组装,生成假单倍型组装;伪单倍型-1被选择用于下游分析,结果为585 Mb (l .益母草), 1.25 Gb (p . barbatus),及820兆(p .寻常的)组件(表1).为p . barbatus而且p .寻常的,组装的基因组大小与流式细胞仪估计的基因组大小(分别为1.53 Gb和786 Mb)以及基于k-mer的超新星估计的基因组大小(分别为1.29 Gb和871 Mb)一致(补充表2).然而,对于l .益母草,流式细胞术(1042 Mb)、k-mers (688 Mb)和基因组组装(585 Mb)对基因组大小的估计存在差异。再加上杂合SNPs之间的距离较大l .益母草从超新星(16.9 Kb)输出,它很可能是l .益母草是一个同源四倍体,超新星组合是所有同源染色体的代表。

表1的10×基因组集统计数据Leonotis益母草属barbatus,扁桃体脓肿寻常的

基准通用单副本正交仪(BUSCO)71假单倍型-1组装的结果显示,三个基因组中有>97%完整的BUSCOs(表2)2)中出现了18.5%和13.4%的重复BUSCOsl .益母草而且p . barbatus,表明在pseudohaplotype-1中存在保留的haplotigs。用lamiaceae训练的AUGUSTUS标记蛋白编码基因72矩阵结果为148,846 (l .益母草)、413,222 (p . barbatus),以及229,613 (p .寻常的)基因(补充表3.).用BUSCO和预测的蛋白质组评估注释的完整性,结果显示94.4% (l .益母草)、92.2% (p . barbatus)及91.2% (p .寻常的)完整的BUSCO正交序列,表明该注释提供了一个健壮的基因集。总数为57.9% (l .益母草), 74.4% (p . barbatus)及68.3% (p .寻常的)的基因组是重复的逆转录元件,而不是DNA转座子主导的基因组空间(补充表4).

表2通用单拷贝Orthologs (BUSCOs)的基准测试Leonotis leonurus, Plectranthus barbatus,扁桃体脓肿寻常的假单倍型-1基因组和预测的蛋白质组

Syntenic分析揭示了蒽醌生物合成基因簇的普遍性

c .美国提供了一个独特的机会来研究家族范围内的二萜BGC的进化,因为它与Lamiaceae的其他成员是姐妹谱系,并且具有大而密集的BGC。我们分析了9个Lamiaceae的基因组与我们的锚定物种,c .美国,测定其同位性。我们根据它们的组装质量和邻近性以及亚科表示(即系统发育位置)选择我们的基因组面板。我们选择了三个先前报道过的具有同步BGCs和可用基因组的物种(美国miltiorrhiza2451, T.格兰迪斯68,美国baicalensis73),我们在这次研究中收集的三个物种(L.益母草,P. barbatus,p .寻常的),以及三个已发表基因组的物种(Hyssopus officinalis74黄貂草75,广藿香76).总的来说,这10个物种代表了目前公认的12个亚科中的5个,它们最近的共同祖先估计在6000万至7000万年前(图2)。1777879.作为一个接近Lamiales的外群,我们也进行了分析Erythranthe lutea(猴子花;以前Mimulus危害80

在抽取的10个Lamiaceae物种中,均含有与已知(+)-CPP和蒽合酶同源的diTPS基因。在7个物种中,这些ditps位于共向BGCs内(图2)。2).基因组P. vulgaris, P. barbatus,r . officinalis太分散了,无法确定它们是否属于一个更大的集群。据我们所知,本分析中的4个bgc之前没有报道过,这表明这个群集比最初描述的更加保守。所有bgc,除了在美国baicalensis含有多个CYP76AH基因。5种,c .美国大牡丹,丹参,马胆草,l .益母草也至少有一个cyp71基因副本。

图2:在Lamiaceae中存在的一个苯胺二烯生物合成基因簇的共线关系。
图2

基因用箭头表示,伪基因用方框表示。一组核心基因在许多被检测的物种中是共同的,包括一个diTPS类II (+)-CPP合成酶,一个diTPS类I苯胺苷合成酶,以及76AH和71D亚家族中的CYP450s。值得注意的是,在基因数量、簇长度和独特基因上存在差异,表明谱系特异性进化。每个物种之间的同步性在这里用彩色曲线表示。物种树改编自薄荷进化基因组学联盟2018124.使用BioRender.com创建的图形。源数据作为源数据文件提供。

BGCs的比较提供了在不同谱系中这种簇的形成和维持的见解(图。2).的美国baicalensisBGC唯一不包含CYPs,但似乎有一个II类diTPS和一个额外的非同位的I类diTPS的串联重复。大多数BGCs中都存在非共时的diTPS和CYP基因,这表明在每个物种中都是动态组装和独立提炼的。还有一些diTPS和CYP假基因。有趣的是,这些BGCs中很少有中断基因。的h . officinalis而且c .美国BGCs包含较大的基因组区域,具有更多的基因间空间,而其他的如p .广藿香而且l .益母草结构紧凑,基因密集。我们推测两个星团的存在l .益母草是由于它的四倍体,并不是一个真正的复制。同样,octoploidp .广藿香显示了一些BGC副本的证据(补充图。2).很明显,每个BGC在保持核心咪地雷烯基因的同时,经历了一些谱系特异性的独立进化。

Lamiaceae中一个先祖的芍药簇的系统发育证据

为了更好地理解每个BGC的基因进化,我们估计了BGC中每个酶亚家族的系统发育关系以及一组来自Lamiaceae的功能特征内参基因,但CYP71D分支中很少有Lamiaceae的特征序列可用(图7)。3.).与其他被子植物lab丹型ditps一致,II类功能的ditps聚集在TPS-c亚家族,I类功能的ditps聚集在TPS-e亚家族。

图3:系统发育证据显示集群中每个基因类的相关性。
图3

来自MCScanX的同步支持和来自BLASTp的序列识别的酶在每个簇中以红色(TPS-e),橙色(TPS-c),浅蓝色(CYP76AH)和深蓝色(CYP71D)突出显示。在以前的报告中,以粉红色和长春花色((+)-CPP合成酶为TPS-c和mtiradiene合成酶为TPS-e)突出显示的ditps。参考酶加粗。节点底部的黑色实点表示80%的自举置信度。演化支节点周围的灰色圆圈表示syntelogs的假设扩展点,并共享大约70%或更多的序列相似性。DiTPS树是根专利Physcometrium专利-kaurene合成酶(PpEKS)和CYP树的根拟南芥AtCYP701A3。源数据作为源数据文件提供。

正如预期的那样,两个亚科的同步性ditps具有共同的祖先。最近在TPS-c家族的串联复制是明显的c .美国而且美国baicalensis并有助于谱系特异性BGC扩张(图2)。3.而且4).系统发育还强调了一些非共位ditps的更遥远的起源。I类和II类序列的存在表明,独立获得是物种形成过程中多样化的一部分。密切检查与特征ditps的系统发育关系可以为可能的功能提供线索。所有II类ditps同向CamTPS6系统发育聚在分支TPS-c.2.2中,该分支包含所有已知的Lamiaceae (+)-CPP合成酶,以及一些产生(+)-构型的labdanes的diTPS酶。两种不同的II类酶序列Sb.71和Pc.28聚集在TPS-c中。生成化合物ent-而不是(+)-构型,所以这两种酶很可能是相同的。

图4:预测的Lamiaceae最小祖先BGC和每种物种的特定扩张。
图4

基于最大程度的精简,我们认为在Lamiaceae早期祖先中形成了一个含有II类diTPS、I类diTPS、CYP76AH和CYP71D基因的聚类。从研究的现有物种中存在的每个基因家族的基因数量和组成来看,谱系特异性的扩展和细化是明显的。源数据作为源数据文件提供。

BGCs中编码的I类酶均不聚集在枝TPS-e中。1、符合其在特化代谢中的预期作用。TPS-e。1clade primarily contains enzymes that convertent-CPP转化为赤霉素中间体ent-kaurene。所有BGC I类ditps都在TPS-e中集群。2,which mostly encodes enzymes that accept (+)-CPP as a substrate. The presence of a presumed (+)-CPP synthase encoded in every BGC supports the likelihood that these class I diTPSs can all utilize (+)-CPP. Genes syntenic withCamTPS9被分组在分支TPS-e.2.1,它包含了所有的Lamiaceae序列,除了一个编码已知催化生成咪地雷烯的酶。值得注意的是,每个BGC包含至少一个这些假定的蒽合酶序列。TPS-e.2.1演化支的另一个特征是内部γ畴的缺失,这在大多数ditps中保留,但在单和倍半tps中丢失。这三种非共工酶序列分为支TPS-e.2.2和TPS-e.2.3,它们只包含一些具有独特功能的特征序列。这些分支的功能异质性使得很难对这些BGC编码酶的可能功能得出结论,但确实为发现新的萜烯主干提供了有趣的可能性。

然而,系统发育分类并不是TPS功能的完美预测指标3781之前的工作已经证明了高水平的分支特异性一致性,这使我们能够对BGC ditps的功能得出初步结论48.系统发育的证据支持这些BGCs可能至少有一个(+)-CPP合成酶和一个苯胺苷合成酶,使每株植物都能产生苯胺苷(图2)。3.).此外,一些bgc含有来自枝的ditps,可能提供独特的化学物质。

76AH酶亚家族中的CYPs在所分析的物种中表现出密切的系统发育聚类。已经发现几个功能特征的CYP76AHs在丹参酮和鼠尾草酸生物合成的关键步骤中氧化蒽醌5455.虽然我们没能在r . officinalis由于RoCYP76AH酶是一种碎片化的组合,因此它们与其他bgc酶之间的密切关系支持了共同的祖先。几乎所有BGCs中的CYP76AHs在每个簇中都有平行序列,突出了串联复制在扩展该亚家族中的作用4682.然而,有几个BGC CYP76AHs与syntelogs高度不同。的c .美国CYP76AH65、CYP76AH66和CYP76AH67酶在系统发育上是不同的,与其他BGC CYP76AHs的序列相似性仅为50-60%。这些酶与CYP76AKs的分支更相关,在本BGC中尚未发现,但它们是丹参酮和鼠尾草酸氧化网络的一部分。

71D亚家族中的CYPs与BGCs中的其他CYPs相似地表现出系统发育聚类。三个CYP71D序列h . officinalis而且l .益母草与CYP71D基因阵列在同一进化支美国miltiorrhiza这与丹参酮中呋喃环的形成有关24.SmCYP71D410是BGC Sm-b的成员,与HoCYP71D724和PbCYP71D381酶在系统发育上聚在一起。PbCYP71D381可氧化forskolin前体(13R)氧化manoyl,一种与蒽醌结构相近的化合物83.一种酶t .茅与其他BGC cyp71d相比,其相关性要低得多,与其他BGC cyp71d的序列相似度只有40-50%。这种酶可能是最近获得的另一种独立酶,尽管它是在cyp71亚家族中观察到的唯一一种酶。所有含有CYP71D基因的bgc也至少有一个重复,再次强调了重复在这些途径多样化中的重要性84

所有四个亚家族中大多数酶的紧密系统发育聚类为共同的祖先起源和随后的谱系特异性重复提供了令人信服的证据。我们分析了syntelogs的存在/不存在,并提出了一个使用祖先状态重建的最小聚类模型。4;补充无花果。3.4).syntelogs之间高度的序列保守支持了一个最小的祖先集群,其中包含编码一个(+)-CPP合成酶、一个咪地雷烯合成酶、一个CYP76AH和一个CYP71D的基因。这种BGC的动态性质在数百万年的进化中是明显的,通过基因损失,假基因的存在,以及在这些现存的Lamiaceae中观察到的非共线基因的添加。尽管存在这些差异,但祖先群落的高度保护是值得注意的。

由于几乎所有的Lamiaceae植物样本中都有蒽醌BGC的存在,我们还研究了该植物的同构性大肠lutea,一个密切相关的拉米亚莱斯外群778085.我们发现了一个区域与c .美国含有II类和I类ditps但不含CYPs的BGC(补充图5).编码II类酶的基因El.26g64.91而且El.26g64.92,在分支TPS-c。2,showing some similarity with other (+)-CPP synthases (Fig.3.).我排序的类,El.26g64.77,在TPS-e.2.1范围内,但与演化支的其他部分不同,令人惊讶的是,它保留了γ畴。这种结构域的丢失在植物tps的进化过程中发生过多次86,所以可以想象,I类酶在大肠lutea代表由Lamiales中最近的共同祖先所共有的三结构域的miltiradiene合成酶。而大肠lutea部分聚类可能提供了一窥Lamiaceae BGC的祖先状态,对其他Lamiales基因组进行更广泛的检查将是未来工作的一个有趣途径,可以更坚定地建立该聚类中基因获取和丢失的时间表。

的功能特征c .美国BGC揭示了两个代谢模块和一个萜类主链

虽然越来越多的计算预测的bgc已经在植物中被鉴定出来,但只有少数具有功能特征。到目前为止,共调节已被证明是bgc中功能关系的一个更大的预测指标,而不是单独的共定位87.中两种bgc的前期分析美国miltiorrhiza, Sm-a和Sm-b,发现它们在根和气生组织中都有不同的表达。来自Sm-a和CYP76AHSm-b中的s仅在根组织中表达,并被发现是根丹参酮生物合成途径中的重要步骤50.此外,一系列根特异性CYP71D编码的酶也是丹参酮生物合成的组成部分,但位于基因组的其他位置24.另一个例子是,尽管共定位,但差异表达的ditps和CYPs在不同的特化代谢物途径中被报道是在植物cassanes/ ryzalides中发现的双功能基因簇栽培稻(大米)70而诺scapine/morphinan的生物合成罂粟花ssp.(罂粟花)1157.表达的差异可能是植物利用基因组组织的一些好处,同时创造基于调控的独特途径的一种方式。

考虑到BGC的空前规模和复杂性c .美国,我们试图研究它是否是代谢统一的BGC。我们首先分析了8种组织类型的RNA表达,以确定BGC的表达模式(图2)。5;补充图。669.这揭示了BGC的前半部分和后半部分之间的明显分歧。前半部分优先在果实和根组织中表达,并含有(+)-CPP合酶(CamTPS669,预测的蒽合酶(CamTPS9),以及若干CYP76AHs。后半部分在花和幼叶组织中表达更强,包含非同源I类diTPS (CamTPS10),另一种预测(+)-CPP合成酶(CamTPS7),以及两个cyp71d基因,以及CYP76AH基因的部分片段(Ca.26-27).每个模块中diTPS II类/ I类对以及CYPs的存在表明该BGC可能进化出了不同的二萜类途径。此外,我们用已发表的转录组数据研究了其他物种中每种BGC的表达,但没有发现总体的表达趋势,与in不同c .美国(补充图。6).

图5:蒽醌BGC的组织特异性表达c .美国从RNA测序中获得。
图5

对这些酶的功能特性进行了研究。这个数字表示Chr10:21.92-22.33 Mb。在染色体上的大致位置被指出。两个差异表达的代谢簇被框起来以突出相似的表达模式。颜色表示diTPS, CYP或不相关的基因家族,包括假基因(未命名)。数据来自Hamilton等人。69

我们研究了下列成员的酶活性c .美国集群:CamTPS7、CamTPS8、CamTPS9、CamTPS10、CamCYP76AH64、CamCYP76AH65、CamCYP76AH67、CamCYP76AH68、CamCYP76AH69、CamCYP71D716,CamCYP71D717.所有基因的组合瞬时表达烟草benthamiana评价酶的功能。通过GC-MS与已发表的DiTPS活性的质谱和保留时间进行比较,或使用NMR对先前未发表的活性进行比较,确定DiTPS功能(图2)。6).CamTPS7被证实是一种(+)-CPP合成酶(Supplementary Fig。7).CamTPS9是一种毫雷烯(1)合酶,与一些枞烯(2ent-阿比塔-8,11,13-三烯)的自发芳构化反应在植物界与之前的观察一致88.CamTPS10与(+)-CPP合成酶配对,形成(+)-kaurene (4)(补充图。8- - - - - -10).这种活性的生物学相关性是由二萜类calliterpenone的结构支持的,它来自(+)-kaurene骨架,并已在多个文献中被记录Callicarpa物种89.木萜酮作为植物生长促进剂的潜力已被研究90,因此代表了一个有趣的生物合成靶点。这种(+)-丁香烯合酶的发现将使生物合成获得这组代谢物以及可能具有有用生物活性的非天然二萜类化合物91.的物理分组和相似的表达模式CamTPS10而且CamTPS7通过(+)-CPP合酶的复制、额外I类diTPS的招募和组织特异性基因表达的转移,支持该聚类已分化为两个代谢不同的模块。

图6:的GC-MS分析c .美国BGC diTPS产品。
图6

通过与PbTPS3的保留时间和质谱比较,确定CamTPS9为一种苯胺二烯合酶125126127128当两者都用(+)-CPP合酶CamTPS6表达时69,形成苯胺二烯(1)和枞林(2).CamTPS10被发现可以制造4从(+)-CPP,但不是entcpp (CamTPS1)69.该产品具有不同的保留时间,但类似的质谱ent-kaurene (3.),由CamTPS1和CamTPS12组合而成。11).所示色谱图均为全离子色谱图。红色和黑色痕迹对应的组合屈服123.,4分别如质谱所示。每个组合包括p . barbatus1-脱氧-d -木酮糖-5-磷酸合酶(dx)和GGPP合酶(GGPPS),以灰色显示为对照。源数据作为源数据文件提供。

建立路线后才能形成c .美国我们测试了每个CYP与该植物中发现的所有可能的二萜中间体(图2)。7):ent -kaurene (CamTPS12;补充图。11)和科拉维诺69由团簇外的ditps和BGC中的(+)-kaurene和miltiradiene形成。科拉维诺或ent-kaurene。CamCYP76AH67与蒽醌形成6种不同的氧化产物(1模拟2- - - - - -b,无花果。7一个).根据分子离子的m/z值以及质谱与NIST数据库的比较,有两种匹配的氧化方式是松香烯的氧化方式,另外四种匹配的氧化方式是苯胺二烯的氧化方式。12).这些产物大多难以用柱层析分离,阻碍了完全的结构阐明。然而,我们能够净化2,核磁共振实验支持为15-羟基-ent-阿比塔-8,11,13-三烯(补充图。13- - - - - -15).在此位置上对枞烷二萜的氧化,以前只报道过两次:由2-氧戊二酸脱氢酶在美国miltiorrhiza92并通过CYP81AM1雷公藤93.CamCYP76AH68也显示出与米替雷烯的活性,极大地改变了产品结构,向枞烯方向转变,并提供少量氧化的枞烯(2摄氏度;补充图。12).这表明CamCYP76AH68可能使蒽醌的c环羟基化,与蒽醌自发芳构化相比,蒽醌的c环更易失水形成二甲二烯(图2)。8).在先前对丹参酮和鼠尾草酸生物合成相关酶的研究中,铁二醇合成酶表现出对枞林的偏好,但未观察到蒽醌酶促转化为枞林的现象。认为芳构化是自发的,可能是由阳光驱动的88.CamCYP76AH68的发现表明,至少在c .美国一种酶可以帮助米替雷烯转化为枞林。当我们用CamTPS6而且CamTPS10为了评估CYP与(+)-kaurene骨架的活性,我们观察到一个表达的峰值CamCYP71D717.然而,经过进一步的研究,我们意识到这种酶明显催化(+)-甘露的形成(6) from (+)-copalol (5), (+)-CPP的脱磷酸化产物(图;7 b和补充图。16).每个产生可观察产物的CYP/TPS酶组合然后与所有其他CYP组合表达。CamCYP76AH67结合CamCYP76AH68而蒽醌产生了至少一种氧化化合物(二维,无花果。7一个;补充图。12).结合CamTPS6CamCYP71D716而且CamCYP71D717导致(+)-manool (6)至3(年代)羟基- (+)-manool (7),经NMR证实(图。7 b8 b;补充无花果。17- - - - - -19).

图7:氧化产物的GC-MS色谱图c .美国BGC cyp。
图7

一个氧化产物CamCYP76AHs由1而且2,根据质谱分析赋值(补充图;12).bCamCYP71D717催化(+)-甘露的生成(6),可能来自(+)-copalol (5)(补充图16,)和CamCYP71D716的加入得到3(年代)羟基- (+)-manool (7).每个组合包括p . barbatus1-脱氧-d -木酮糖-5-磷酸合酶(dx)和GGPP合酶(GGPPS),以灰色显示为对照。CamTPS6和CamTPS6 + CamTPS9控件用红色表示。源数据作为源数据文件提供。

图8:CYP氧化的途径示意图c .美国
图8

一个提出了酶辅助转化的机理12,接着是一个额外的氧化2形成2摄氏度.质谱支持羟基的分配2摄氏度到c环(补充图。12).b建议转换56CamCYP71D717,氧化6CamCYP71D716。它的位置与木萜酮上的酮基相同,木萜酮是从4c在另外两种菊科植物中发现的枞烷二萜的结构Callicarpa

据我们所知,在此研究中未见枞类二萜类化合物的报道c .美国,主要研究的是叶片中产生的氯烷二萜949596.然而,其他Callicarpa物种,包括c . bodinieri而且c . macrophylla97,产生各种药用相关的枞烷二萜(图。8 c),表明至少在该属的一些植物中,枞烷骨架是一个关键的中间体6497.我们分析了整个根提取物c .美国经GC-MS分析,发现与枞林及其氧化产物(2摄氏度)由CYP76AH68产生。这支持酶活性的生物学相关性在阐明n benthamiana(补充图。20.).

c .美国包含超过600个预测的CYPs,并且BGC CYPs很可能是基因组中其他地方的外周修饰酶的更大代谢网络的一部分69.然而,我们在这里报告的功能活动验证了BGC及其发散模块的生物学意义。CYPs表现出对(+)-copalol和miltiradiene主干的明显偏好,而不是植物中存在的其他二萜。在这两个模块中,(+)-丁香烯合酶和(+)-丁香烯合酶及其各自的(+)-CPP合酶表达差异显著。CYP76AHs对咪地雷烯更活跃,而CYP71Ds利用(+)-copalol。(+)-kaurene的功能化可能需要非聚集酶催化的氧化反应。

讨论

在本研究中,我们发现先前仅在少数种中发现的苯胺二烯BGC存在于五个不同的Lamiaceae亚科中。保存下来的酶序列和聚类中的基因顺序为早期Lamiaceae祖先的聚类提供了有力证据。从这个核心簇中,这些物种保留了形成标志性的蒽醌骨架所必需的ditps,但通过基因复制、序列分歧、基因获取和基因丢失来调整其化学多样性。我们可以推测,随着Lamiaceae家族的分化和种群对新环境的适应,祖先群落的代谢产物已经多样化。基因复制似乎是植物中TPSs和CYPs巨大多样性的进化和扩展的主要驱动因素2418698,以Lamiaceae的miltiradiene为例。这是值得注意的c .美国其中串联复制产生了5个顺序的、高度相似的CYP76AH基因。然而,每一个被研究的物种都至少有一个明显的复制事件,为代谢多样化的进化提供了物质。还有一个显著的集群扩张的例子,通过明显的招募CamTPS10c .美国.(+)-kaurene合成酶的发现展示了具有不同转录模式的双功能BGC的另一个例子。在其他发现的多放射性BGCs中存在系统发育上不同的ditps,同样表明了多功能性。

从最近发现的形成和氧化同一主干的成对的ditps和CYPs的同源物可以看出,在Lamiaceae和其他种类的植物中,烯丙二烯骨架的保存表明,在Lamiaceae和其他种类的植物中,烯丙二烯骨架的保留有很强的选择压力t . wilfordii在遥远的Celastraceae中99.令人惊讶的是,人们对植物如何利用枞烷二萜知之甚少,但由于其抗菌活性,它们大多被认为与病原体反应有关60One hundred..然而,人们广泛研究了枞醇对人体健康的重要性。它们具有抗肿瘤、抗菌、抗炎等一系列生物活性60616263101.迄今为止,在Lamiaceae种中已报道了近500种枞烷二萜40102.早期对Lamiaceae中这些二萜类化合物的研究采用了代谢物引导的方法,在丹参酮、鼠尾草酸和相关化合物的生物合成方面取得了很大进展。本研究的发现为在基因组学指导下研究整个Lamiaceae的附加枞烷二萜建立了一个框架。部分功能的刻画c .美国BGC和根代谢物数据支持在这种植物中存在一个苯胺二萜网络,尽管之前没有关于枞类的文献记载。进一步鉴定的其他已鉴定的米替雷烯bgcofficinalis, P. cablin,l .益母草同样可能导致未知化学物质的发现。

更深入地了解BGC基因所包含的酶活性也将有助于阐明BGC如何驱动代谢多样性的扩展。从现存的至少5个Lamiaceae亚科中苯胺二烯BGC的保存情况可以看出,基因共定位是植物特化代谢的重要因素。基因组组织在合成生物学中也具有特殊的意义,因为理解天然BGCs可以为异源系统中合成簇的构建和控制提供蓝图103.这项研究提出了一个目前有限的例子,BGC存在于整个家庭。随着植物基因组质量和数量的不断提高,未来大规模的BGC研究可能会发现,植物经常依赖BGC作为通过代谢多样性进行适应性的工具箱。

方法

共线性分析

BLAST函数makeblastdb (E- 1e的值−10, 5个对齐)104是用来创建蛋白质数据库的吗c .美国并对其他物种进行了检查。肽序列和基因组注释文件通过各自的数据库获得。之间的共程分析c .美国所有其他讨论的物种都使用标准的MCScanX管道进行(匹配得分= 50;匹配大小= 5;间隙惩罚=−1;重叠窗口= 5;E-value = 1e−5;最大间隙= 25)105.结果使用SynVisio进行可视化106.通过BLASTp对齐函数(Threshold = 0.05, Word Size = 3, Matrix = BLOSUM62, Gap Costs =存在:11扩展:1)确定70%序列身份截断,手动筛选正交线和共线。

祖传国家重建

现有的特征状态被收集到一个单一的文件中,编码为1表示每个基因存在,0表示每个基因不存在。使用phytools R包(版本0.7-80)执行祖先状态分析107.进化模型是使用来自' fitMK() '函数的信息选择的。祖先状态由' ace() '函数确定。

系统发育树

所有蛋白质系统发育中使用的序列都是从各自物种的注释肽序列中获得的。所使用的参考序列列表可以在图的源数据中找到。2.CYP注释由David Nelson(田纳西大学)提供。使用了全长蛋白编码序列,但从比对中删除了ditps中存在的质体靶向序列。使用ClustalOmega(版本1.2.4;默认参数)108系统发育树用RAxML (version 8.2.12;模型= protgammaauto;算法= a)109支持1000个引导复制。所有的对齐都可在我们的树精库(https://doi.org/10.5061/dryad.w9ghx3frg).的tree graphic was rendered using the Interactive Tree of Life (version 6.5.2)110

三种Lamiaceae植物的基因组测序、组装和注释

从植物成熟叶片中分离到高分子量DNAL.益母草,P. barbatus,p .寻常的并使用Genome and Gel Bead Kit v2 (10× Genomics, Pleasanton, CA)构建了一个10× Genomics文库。文库在Illumina NovaSeq 6000 (Illumina, San Diego, CA)上以成对端模式测序,150 nt。文库由伊利诺伊大学香槟分校的Roy J. Carver生物技术中心制作并测序。基因组用10× Supernova (version 2.1.1)进行组装111.脚本“超新星运行”在默认设置下运行,除了- maxreads被设置为360000000 (p .寻常的)、531000000 (p . barbatus)或297550000 (l .益母草),在测试多个覆盖水平后,该方法在基因组邻近和估计基因组大小的百分比方面产生了最佳结果。为了获得fasta文件,' supernova mkoutput '使用' style=pseudohap2 '和' -headers =full '参数运行。使用AUGUSTUS (version 3.3)对非重复掩盖的假单倍型-1组合进行基因预测。72参数' -UTR = off ',以及' -species '和' c-extrinsicCfgFile '参数来使用来自密切相关物种的训练结果,h . officinalisp . barbatusp .寻常的)t .茅l .益母草).使用工具Assembly -stats(版本1.0.1)计算组装统计信息112.使用AUGUSTUS存储库(版本3.4.0)中的gtf2gff.pl将AUGUSTUS默认基因注释转换为GFF3格式,并且使用GAG(版本2.0.1)生成基因注释度量113.BUSCO(版本5.2.2)71使用谱系数据集' embryophyta_odb10在基因组模式下运行。为了识别三个从头组装的基因组中的重复序列,使用RepeatModeler(版本2.0.3)为每个组装创建了自定义重复库(CRL)。114.使用protexclusterer从每个CRL中删除蛋白质编码基因(版本1.2)115Viridiplantae repeats from RepBase (version 20150807)116来创建最终的CRL。使用RepeatMasker使用其对应的CRL重复屏蔽每个程序集(版本4.1.2-p1)117使用参数-e ncbi -s -nolow -no_is -gff。

转录组分析

图中使用的所有转录组数据集。5和补充图。6从SRA数据库下载。使用fastp修整原始读取(版本0.23.2)118,使用Salmon ' index '将其映射到相应的编码序列文件(版本1.8.0)119,并使用Salmon ' quant '进行量化(libtype=A,验证映射)。分析出每个集群的特定基因,以比较组织之间的表达水平。数据以log2(X + 1)的因子进行转换,其中量化表达X的值以无偏的方式加到所有基因上,以解释0表达的发生,并去除因低表达基因而导致的负对数值,这将夸大基因之间的差异。这种转化需要注意的是,低表达基因的表达似乎接近于0,而高表达基因则相对不受影响。基因是根据基因组中出现的顺序聚类的,而组织是根据组织组之间的相似性聚类的。使用ggplot2(3.1.1版本)生成热图120

PCR和克隆

合成寡核苷酸见补充表5Figs的源数据中列出了本研究中所描述或讨论的所有酶的GenBank登录号和序列。2而且3..从根、果、叶和花的cDNA中pcr扩增候选酶,克隆编码序列并用相应的基因模型进行序列验证。然后将构建物克隆到植物表达载体peak - ht中121并用于瞬时表达测定n benthamiana

中的瞬态表达式n benthamiana

瞬时表达测定n benthamiana是根据已公布的方案进行的吗48.具体地说,n benthamiana植物在受控生长室中,光照16h(24°C)和暗8h(17°C)循环下生长5周,然后入渗。共表达的构念分别转化为根癌土壤杆菌菌株LBA4404。培养物在含50µg/mL卡那霉素和50µg/mL利福平的LB中30°C培养过夜。离心收集培养物,用10ml水冲洗两次。细胞重悬,稀释至OD600在水中加入200µM乙酰丁香酮,在30°C下孵育1 - 2 h,每种酶的组合按1:1的比例混合不同的培养物,用1 mL注射器将4-5周龄的植物渗透到植物的下面(背面)n benthamiana叶子。所有的基因构建都与上游2- c -甲基- d -赤藓糖醇4-磷酸(MEP)通路中编码限速步骤的两个基因共同浸润: P. barbatus1-脱氧-d -木酮糖-5-磷酸合酶(PbDXS)和GGPP合酶(PbGGPPS)以促进二萜前体GGPP的生产91122.将植株放回受控生长室(24°C, 12 H日循环)5天。用1ml己烷(diTPS产品)或乙酸乙酯(CYP产品)在18°C过夜,从渗透叶片中提取约200 mg新鲜重量。离心收集植物材料,去除有机相进行GC-MS分析。每个实验重复三次。所示数据来自具有代表性的单个重复实验。

根代谢物提取

在温室条件下生长的一株健康的3岁美洲植物的整个根系被收集起来,清洗,并与水混合以分解组织。然后将混合物与500 mL乙酸乙酯混合,并允许提取24 h。然后将有机层与水层分离,过滤,通过旋转蒸发器浓缩,并在−20°C保存。该提取物以1:500的乙酸乙酯稀释,用GC-MS分析。所有的GC- ms分析都在密歇根州立大学的质谱和代谢组学核心设施上进行,使用Agilent 7890 A GC, Agilent VF-5ms色谱柱(30 m × 250 m × 0.25 m,带有10 m的z - guard)和Agilent 5975 C检测器。入口设置为250°C无分离注入1 μ L和He载气(1 mL/min),在溶剂延迟3 min后激活检测器。所有测定和组织分析均采用以下方法:温度斜坡开始40°C,保持1 min, 40°C/min至200°C,保持4.5 min, 20°C/min至240°C, 10°C/min至280°C, 40°C/min至320°C,保持5 min。MS扫描范围设置为40-400。

产品放大和核磁共振

用于核磁共振分析,生产在n benthamiana系统放大到1l。采用真空渗透系统进行渗透散装菌株。n benthamiana叶子。在600毫升己烷中,在4°C和150 rpm的条件下,提取约80克叶片组织。萃取物在旋转蒸发器上干燥。每种产品用硅胶闪柱层析纯化,流动相为100%己烷(+)-kaurene,从100%己烷到95/5己烷/乙酸乙酯连续柱洗3(年代)羟基- (+)-manool。核磁共振光谱在密歇根州立大学Max T. Rogers核磁共振设备上的布鲁克800 MHz或600 MHz光谱仪上测量,该光谱仪配备了使用CDCl的TCl冷冻探头3.作为溶剂。CDCl3.峰值为7.26 PPM和77.00 PPM1H和13C光谱。

报告总结

有关研究设计的进一步资料,请参阅自然组合报告摘要链接到这篇文章。