背景与总结

栽培葡萄(葡萄ssp。酿酒用葡萄)通常嫁接到源自北美的砧木上葡萄属物种(图。1).这种做法是在19世纪建立的,以应对葡萄根蚜虫对欧洲葡萄园的近乎毁灭(Daktulosphaira vitifoliae惠誉)1.葡萄根瘤蚜是在19世纪50年代通过北美的植物材料传入欧洲的2.大部分北美人葡萄属物种对根瘤蚜具有抗性,这可能是它们在原生环境中与这种昆虫共同进化的结果。葡萄属锐利而且葡萄属rupestris第一个野生葡萄品种被用作砧木是因为它们很容易从硬木扦插上生根,并且与产浆果的接穗具有良好的嫁接相容性吗3..然而,这两种植物不适合欧洲常见的钙质土壤。葡萄? ?另一种北美葡萄品种——葡萄根瘤蚜(phylloxera)被发现具有抗根瘤蚜和耐石灰性,尽管它的根很少来自休眠的插枝4.介绍耐石灰性诉? ?并通过杂交培育新砧木,提高其可生根性诉? ?诉锐利诉rupestris.今天,商业化的砧木主要是这三个葡萄品种的杂交5.其中,里克特110 (110R;诉? ?x诉rupestris)、高柏5BB (诉? ?x诉锐利)和101-14 Millardet et de Grasset(管理;诉锐利x诉rupestris)是世界上最常用的(图。1 b).除了对根瘤蚜的抗性外,葡萄砧木的选择还基于对生物(如线虫)和非生物胁迫(如干旱)的耐受性、对土壤理化性质的偏好以及它们赋予接穗的活力水平6.例如,101-14 Mgt虽然活力中等,但通常会引发营养生长早熟,而110R和Kober 5BB则具有较高的活力,并延迟植株成熟7.110R以其耐旱性而闻名,过多的土壤水分对其生长有负面影响6.相比之下,101-14 Mgt和Kober 5BB被认为不耐旱,在潮湿的土壤中生长良好6.三种砧木对线虫的耐受性也因线虫种类的不同而不同68

图1
图1

101-14 mgmt、110R和Kober 5BB三个葡萄砧木的描述。(一个)葡萄酒葡萄接穗(葡萄spp。酿酒用葡萄)嫁接到另一根砧木上的葡萄属物种。(b101-14 Mgt、110R和Kober 5BB的单倍型组成示意图。每一对砧木共享来自同一亲本的一组染色体葡萄属物种。共享的单倍型用相同的颜色表示。

除了商业价值外,砧木对研究葡萄适应生物和非生物胁迫的遗传基础也很有价值9.然而,迄今为止只有两个基因组诉锐利已经出版1011而且没有任何常用砧木的参考基因组。本文介绍了110R、Kober 5BB和101-14 mgmt的染色体规模组装。使用高度精确的长读测序(HiFi, Pacific Biosciences)对基因组进行测序,并用Hifiasm进行组装12.然后使用HaploSync工具套件将每个二倍体草图基因组构建成两组假分子13,并为每个细胞分配单倍型葡萄属亲本基于来自同一物种的单倍型之间的序列相似性。这些基因组为研究砧木抗环境因子的遗传基础和设计标记以加速砧木育种提供了重要的资源。

方法

文库制备和测序

幼叶(1-2厘米宽)采集自110R (FPS 01)、Kober 5BB (FPS 06)和101-14 Mgt (FPS 01)的基础植物服务(加州大学戴维斯分校,戴维斯,CA),并立即冷冻并在液氮中研磨成粉末。高分子量基因组DNA从1克叶片组织中提取,如Chin所述14,使用Megaruptor将12µg高分子量gDNA剪切成15 ~ 20 kbp的大小分布®2 (Diagenode, Denville, NJ, USA)。每次加入时,使用SMRTbell®Express Template Prep Kit 2.0制备一个HiFi测序库,然后立即使用酶清理试剂盒(Pacific Biosciences, Menlo Park, CA, USA)进行处理。使用BluePippin (Sage Sciences, Beverly, MA, USA)和HiFi SMRTbell®模板收集长度超过15 kbp的文库大小选择。使用AMPure PB珠(Pacific Biosciences, Menlo Park, CA, USA)清洗大小选择的文库组分。分别使用Qubit™1X dsDNA HS检测试剂盒(Thermo Fisher, Waltham, MA, USA)和Femto Pulse系统(Agilent, Santa Clara, CA, USA)评估文库的浓度和最终大小分布。110R和Kober 5BB的HiFi文库在加州大学戴维斯分校(Davis, CA, USA)的DNA技术核心设施使用PacBio Sequel II系统(Pacific Biosciences, CA, USA)进行测序。101-14 Mgt的测序由Corteva Agriscience (Johnston, IA, USA)执行,作为Pacific Biosciences授予Noé Cochetel博士的奖励。每个基因组平均生成26.5±3.8 Gbp序列,对应于500 Mbp单倍体基因组的53.1±7.7 x倍覆盖(表2)1).

表1 3个砧木的基因组组装统计。

总RNA诉? ?9031年,诉rupestrisB38,诉锐利HP-1 (PI588271)叶片采用十六烷基三甲基溴化铵(CTAB)为基础的提取方案,如Blanco-Ulate所述15.RNA纯度用Nanodrop 2000分光光度计(Thermo Scientific, Hanover Park, IL, USA)进行评估,RNA完整性用电泳和Agilent 2100生物分析仪(Agilent Technologies, CA, USA)进行评估。RNA数量用Qubit 2.0荧光仪和大范围RNA试剂盒进行评估(Life Technologies, Carlsbad, CA, USA)。总RNA (300 ng, RNA完整性编号>8.0)用于文库构建。使用Illumina TruSeq RNA样品制备试剂盒v.2制备短读cDNA文库(Illumina, CA, USA)遵循Illumina™低吞吐量协议。使用高灵敏度芯片和Agilent 2100生物分析仪(Agilent Technologies, CA, USA)对文库的数量和质量进行评估。每个物种一个文库使用Illumina HiSeq 4000测序仪进行测序,测序程序为2x100bp (DNA技术核心设施,加州大学戴维斯分校,美国)。制备长读cDNA SMRTbell文库诉? ?而且诉锐利.第一链合成和cDNA扩增使用NEB Next Single Cell/Low Input cDNA合成和扩增模块(New England, Ipswich, MA, USA)完成。随后使用ProNex磁珠(Promega, WI, USA)按照Iso-Seq快速模板制备Sequel和Sequel II系统协议(Pacific Biosciences, Menlo Park, CA, USA)中的说明对cdna进行纯化。使用ProNex磁珠(86µL)筛选扩增的cDNA(≥2 kbp)。使用至少80 ng的大小选择的扩增cDNA制备cDNA SMRTbell文库。按照制造商的方案,使用SMRTbell Express Template Prep Kit 2.0 (Pacific Biosciences, Menlo Park, CA, USA)进行DNA损伤修复和SMRTbell连接。每个物种的一个SMRT细胞在PacBio Sequel I平台上测序(DNA技术核心设施,加州大学戴维斯分校,CA, USA)。

基因组组装和假分子构建

使用Hifiasm v.0.16.1-r374组装HiFi读取12.测试了几种装配参数的多种组合。总共生成了1,939个程序集。选择每个基因型碎片最少的组合。所选的草案组件由406±226个contigs组成,N50 = 14.3±0.6 Mbp(表2)1).与之前用PacBio CLR技术生成的其他葡萄基因组相比,PacBio HiFi读取器大大提高了草案装配的邻近性(PacBio CLR 1.2±0.3 Mbp,图。2).利用BUSCO V.5.1与Viridiplantae和Embryophyta ODB10数据集评估基因空间完整性16以及通过映射PN40024 (V1注释17)单拷贝基因,使用GMAP v.2019-09-12(考虑至少80%覆盖率和80%同源性的比对)。对于每个砧木,草图基因组组装经过质量控制,并使用HaploSync构建成染色体规模的二倍体假分子13葡萄属邹教授开发的共识遗传图谱18.每个基因型使用一个周期的HaploFill。与最近发表的使用PacBio CLR技术测序的葡萄基因组相比,使用PacBio HiFi reads显著减少了草案装配的碎片化(图2)。2 b131419.较低的碎片化导致支架假分子所需的contigs数量减少了15倍(3.6±2.0 HiFi contigs/假分子)vs.43.0±20.6 CLR contigs/假分子)2 b).值得注意的是,在三个基因组中,从单个contig中重建了15个假分子。根据蛋白质编码序列的序列相似性鉴定单倍型开关。利用minimap2 v.2.17-r941对各砧木的基因位点序列进行比对20.参数" -x map-hifi "。具有最高覆盖率和身份的比对被用于分配常见的种亲缘关系,并沿假分子检测单倍型开关(图2)。3).手动校正单倍型开关后,进行第二周期HaploFill13是用同样的假分子做的吗葡萄属物种作为替代单倍型,以帮助缩小草稿序列的差距。

图2
图2

PacBio HiFi测序技术大大提高了葡萄属基因组组装草图。(一个) 101-14 Mgt、110R、Kober 5BB的初稿装配破碎度表示为contig NG(x)值的分布。Muscadidia rotundifolia简历。Trayshed和诉酿酒用葡萄简历。赤霞珠(Cabernet Sauvignon)采用CLR标准生产,作为比较。NG(x)值定义为当序列从最长到最短排序时,累积达到预期二倍体基因组长度(1 Gbp)的给定分数(x)所必需的最短contig的序列长度。使用PacBio HiFi reads (101-14 Mgt, 110R和Kober 5BB)生产的二倍体组装,与使用旧的长读测序技术组装的其他葡萄基因组相比,尽管采用了较低的X-Fold覆盖率(PacBio Sequel CLR reads为Trayshed 140x - fold覆盖率;1921PacBio RSII CLR读数为赤霞珠,115X X-Fold覆盖14).(b)组成完整假分子的contig数目的分布。使用PacBio HiFi reads (101-14 mgmt, 110R和Kober 5BB)生成的草案程序集的碎片大大降低,导致构建假分子所需的contigs数量平均减少了15倍。

图3
图3

基于种内序列相似性的单倍分型。共享的亲本物种信息被用来分配每个单倍型诉锐利诉rupestris,或诉? ?基于序列相似性。这允许解决装配错误(即单倍型开关)。(一个在Kober 5BB的第8号染色体上发现的单倍型开关的例子(左图)。伪分子搭建后,在Kober 5BB的第8染色体末端观察到一个单倍型开关。单倍型1上的contig Kober5BB_h1tg000016l的基因与101-14 Mgt单倍型2(红色)上的基因高度相似,表明Kober5BB_h1tg000016l来源于诉锐利,而Kober5BB_h1tg000038l的基因对应于110R的8号染色体2单倍型基因(浅绿色),表明Kober5BB_h1tg000038l来源于诉? ?.在单倍型2上观察到相反的模式,假分子前18.9 Mbp的基因与110R单倍型2的基因相似(浅绿色),后4.2 Mbp的基因与101-14 Mgt单倍型2的基因相似(红色)。通过将contig Kober5BB_h1tg000038l与替代单倍型中的相应区域互换来纠正单倍型开关,由Kober5BB_h2tg000109l和Kober5BB_h2tg000017l的4.2 Mbp组成(右侧面板)。(b)单倍型之间的序列相似性表示为与另一单倍型相比,不受结构变异(>50 bp)、snp或InDels影响的单倍体染色体集长度的平均百分比。(c)同一种单倍型与不同种单倍型序列相似度百分比(定义见B)的分布(采用两两Wilcoxon秩和检验进行统计检验,以adjust = 1, n = 4096, kernel =“cos”参数绘制密度图)。

基因预测和重复注释

中描述的程序预测基因结构注释https://github.com/andreaminio/AnnotationPipeline-EVM_based-DClab21.对于每个砧木,来自相应亲本种的Iso-Seq数据与新创在生成基因模型之前,从RNA-seq reads中组装转录本。Iso-Seq库使用IsoSeq3 v.3.3.0协议进行提取、解复用和错误校正(https://github.com/PacificBiosciences/IsoSeq).使用LSC v2.0进一步优化低质量和单一异构体数据集22.RNA-seq读取被质量过滤,适配器被Trimmomatic v.0.36和选项“ILLUMINACLIP:2:30:10前导:7拖尾:7滑动窗口:10:20 MINLEN:36”修剪。23.从中读取高质量的RNA-seq葡萄属(i) Trinity v.2.6.524用“新创协议,(ii) Trinity v.2.6.524使用“On-genome”协议,(iii) Stringtie v.1.3.4d25使用HISAT2 v.2.0.5和参数“-非常敏感”对基因组序列进行比对26.然后将三种组装方法共有的转录本序列与Iso-Seq读取结果合并。使用CD-HIT v4.6减少序列冗余27cd-hit-est -c 0.99 -g 0 -r 0 -s 0.70 -aS 0.99非冗余转录本采用PASA v.2.3.3进行处理28得到最终的训练模型集。结合来自公共数据库的数据,使用包括Exonerate v.2.2.0在内的多比对器管道将衍生的转录本和蛋白质证据在基因组组装上进行比对29和Pasa v.2.3.328.使用EvidenceModeler v.1.1.1生成最终一组共识基因模型30.从头开始预测也使用Augustus v.3.0.3生成31, BUSCO v.3.0.232, GeneMark v.3.4733,以及SNAP v.2006-07-2834.对于重复注释,请使用RepeatMasker v.open-4.0.635是使用。要为每个基因模型分配功能注释,请参阅diamond v2.0.13.151的结果3637blastp在Refseq植物蛋白数据库中的匹配(https://ftp.ncbi.nlm.nih.gov/refseq/,检索于2019年1月17日)和InterProScan v.5.28-67.038通过Blast2GO v.4.1.939.在110R、Kober 5BB和101-14 Mgt的基因组组装中,共注释了56,768个蛋白编码基因位点,59,807个。平均每个单倍型鉴定出124,991±36,197个蛋白质编码备选剪接变异。未放置序列由2,747±2,821个基因位点组成(表1).

单倍型间共线性分析

共线基因位点通过MCScanX v.11. 2013进行鉴定40.使用GMAP v.2019-09-12对三个砧木的注释蛋白编码序列进行比对41参数为“- b4 -x 30-split-output”。一致性和覆盖率均大于80%的对齐被保留。使用来自Bedtools v2.29.2的mapBed识别与注释的mRNA区域对应的比对42参数为“-F 0.75 -F 0.5 -e”。然后用mcscananx_h (MCScanX v. 11.11.2013)检测共线块40)工具使用以下参数“-s 10 -m 5 -w 5”。

单倍型之间序列多态性和结构变异的鉴定

伪分子序列使用MUMmer4 v.4.0.0.beta5的nucmer工具进行比对43.使用show-snps工具(MUMmer4 v.4.0.0.beta5)对单倍型之间的snp和短索引进行比对43),参数“-Clr -x”和更长的结构变量显示diff工具(MUMmer4 v.4.0.0.beta543),使用默认参数。

数据记录

测序数据保存在NCBI,生物项目号PRJNA858084, SRA序列SRR2081042144, SRR2081042245, SRR2081042346, SRR2081042447, SRR2081042548, SRR2081042649, SRR2081042750.基因组组装可在EMBL-EBI获得,生物项目号PRJEB5501351.基因组组装、基因注释和重复注释文件都在泽诺多下面https://doi.org/10.5281/zenodo.682432352,以及http://www.grapegenomics.com53.基因组浏览器和爆破工具可用于每个砧木在http://www.grapegenomics.com53

技术验证

基因组组装评估二倍体序列和基因含量的完整性,以及正确的单倍型分期。每组19个假分子的平均大小为494.5±5.5 Mbp(二倍体基因组大小:1015.0±7.9 Mbp,补充图1),接近流式细胞术估计的亲本单倍体基因组大小(499.3±37.3 Mbp)54)表明这三个基因组是完全组装起来的。只有36.1 Mbp(3.5%)、19.9 Mbp(2.0%)和23.3 Mbp(2.3%)的草案序列不能被放置到101-14 mgmt、110R和Kober 5BB基因组的任何假分子中。未放置序列以重复序列为主(68.0%±12.3%)。这些结果与最新发布的诉酿酒用葡萄PN40024参考单倍体基因组组装,其中27.4 Mbp(5.6%)的位置尚未确定55

利用植物基因的保守单拷贝直链(BUSCOs)和植物基因的单拷贝基因含量来评估每组19个假分子的基因空间完整性诉酿酒用葡萄PN40024。在每组假分子中发现BUSCO模型的完整副本为98.1±0.14%(补充表)1).同样,PN40024的单拷贝基因几乎全部与每组假分子对齐(95.01%±0.3%)。未放置序列中存在的基因空间限制在BUSCO模型的0.69±0.8%和PN40024基因的1.79±0.8%。基因空间的完整性又有力地证明了该组合是三个砧木二倍体基因组的完整代表。在101-14 Mgt的两个单倍型上,我们发现了更多的基因位点(33,379±328),而在110R和Kober 5BB(28,584±863)。需要进一步的全基因组基因表达分析,以确定在101 - 14mgt中鉴定的基因位点数量是否与其他砧木中表达的转录本数量相对应。

使用每个砧木的谱系信息(图。1 b),我们将每个假分子分配给它的亲本葡萄属物种,即诉锐利诉rupestris,或诉? ?.对于每个假分子,我们确定了具有最高基因序列相似性的三对单倍型,并将它们分配给共享的亲本葡萄属物种。这使我们能够手动检测和纠正在草稿序列组装或假分子搭建过程中引入的相位错误(即单倍型开关)(图2)。3).对每个假分子的6个单倍型进行全序列比较,结果表明单倍型归属相同葡萄属种间相似性(80.5%±1.4%)高于种间差异(74.0%±3.3%);pvalue = 0.0003, W = 142, n = 30未配对Wilcoxon秩和检验;无花果。3 b, c).这些结果表明,3个砧木基因组的单倍型分期正确。尽管3个砧木基因组的序列多态性水平不同,但与起源种无关,其假分子高度共线。综合考虑基因序列相似性、基因顺序和物理位置,73.1%±3.5%的蛋白编码位点在具有相同亲本来源的单倍型之间至少在一个共线块上,不同物种单倍型之间的蛋白编码位点在71.5%±3.5%(补充图)2).总的来说,平均82.4%±2.6%的基因组序列被共线块覆盖(补充图3.),这反映了它们的染色体结构有显著的保守性葡萄属物种。