主要

Kap København地层位于格陵兰岛北部(北纬82°24′、西经22°12′)的Peary Land,现在是一个极地沙漠。上层沉积层序包含保存完好的陆生动物和植物遗骸,在较温暖的早更新世间冰期循环期间被冲进河口7(无花果。1).该遗址近40年的古环境和气候研究提供了一个独特的视角,了解该遗址位于北极北部交错带的时期,重建的夏季和冬季平均最低温度分别为10°C和- 17°C,比现在高出10°C以上7891011.这些条件一定促使格陵兰冰盖大量消融,可能产生了最后的无冰间歇期之一7在过去240万年(迈)虽然已知Kap København组有保存完好的针叶林大化石和丰富的昆虫动物群,但很少发现脊椎动物的痕迹。迄今为止,这些包括遗存的lagomorph属,他们的粪和Aphodius甲虫,生活在哺乳动物的粪便中1011.然而,加拿大北极地区埃尔斯米尔岛约3.4亿年前的Fyles Leaf床和海狸池保存着哺乳动物的化石,这些哺乳动物可能曾在格陵兰岛定居,例如已经灭绝的熊(Protarctos abstrusus)、已灭绝的海狸(DipoidesSp .),小犬科动物Eucyon以及北极巨型骆驼线41213(类似于Paracamelus).纳勒斯海峡是否足以成为将格陵兰岛北部与这些动物隔离开来的屏障,仍然是一个悬而未决的问题。

图1地理位置与沉积层序。
图1

一个.格陵兰岛北部独立峡湾入口处Kap København组的位置(82°24′N 22°12′W)和其他北极上新世-更新世化石遗址的位置(红点)。bMudderbugt与北部低山之间100 m厚浅海近岸沉积物侵蚀残余物的空间分布(a + b为位置74a和74b)。c黏土段A沉积演替的冰期-间冰期划分,砂段b的B1、B2、B3单元沉积演替的冰期-间冰期划分。沉积学日志参考后修改。7.地图上圈出来的数字标记了样本地点,用于环境DNA分析、绝对埋藏年代测定和古地磁。编号的网站是指以前的出版物710111461

Kap København组被正式划分为两个部分7(无花果。1).较低的A段由长达50米的层状泥浆组成,在近海冰川海洋环境中沉积有北极介形虫、有孔虫和软体动物14.上覆层段B由40-50米的砂质(单元B1和B3)和粉质(单元B2)沉积物组成(扩展数据图)。1),包括薄层,有机质丰富,间冰期大型动物化石沉积,沉积于靠近海岸的浅海或河口环境,以上、下滨面沉积相为代表7

具体的沉积环境也反映在单元的矿物学中,其中近端的B3产地粘土含量最低,石英含量最高(样品组成见补充表)4.2.1而且4.2.2和补充表中的单位平均数4.2.3而且4.2.4).盆地充填物的结构表明,B组单元向现今海岸方向增厚,即向北部低山沉积物源的远端增厚。1).B1和B3单元记录了丰富的有机碎屑层,其中还含有丰富的北极和北方植物、无脊椎大化石以及陆生苔藓1015.因此,DNA的埋藏学很可能反映了从一系列栖息地侵蚀而来的生物群落,它们被河流运输到前海岸,并在B1和B3单元内以有机碎屑混入沙质近岸沉积物的形式集中。相反,A段和B2单元的水相越深,海洋信号越强。Kap København组沉积物和Kim Fjelde组沉积物在矿物组成上的相似性支持了这一假设(补充表)4.2.1而且4.2.5).

地质时代

一系列的补充研究已经将Kap København组的沉积年龄范围从4.0-0.7 Myr缩小到2.4 Myr左右的2万年1- - - - - -3.).这是通过结合古地磁、生物地层学和同体地层学来实现的714161718.值得注意的是,地层记录中哺乳动物、有孔虫和软体动物的最后出现数据显示其年龄接近2.4 Myr(见补充资料,第4节)2).在这一总体框架内,我们添加了新的古地磁数据,显示A段磁极反转,而上覆单元B2的主要部分磁极正常。在之前的工作中,这与早更新世存在反转的三个磁地层层段是一致的:1.93 Myr(情景1),2.14 Myr(情景2)或2.58 Myr(情景3)(补充信息,第3节)1).此外,我们用宇宙成因来限制年龄26艾尔:10在本研究的四个地点确定成员B的埋葬年代(补充资料,第3.).Kap København组推荐的最大埋藏年龄为2.70±0.46 Myr。2;方法)。然而,我们抛弃了旧的设想3,因为它与在单一冰期-间冰期沉积旋回期间横跨a和B的持续沉积的证据相矛盾714161819.这就剩下了两种可能的情况(情况1和2),其中情况1支持年龄为1.9千万日,情况2支持年龄为2.1千万日。

图2:Kap København组的年龄代表。
图2

一个修订后的古地磁分析显示B2单元具有正常的极性,并解锁了三种可能的年龄场景(S1-S3),包括成员A(蓝色)和B(棕色)。正常极性用黑色表示,反向极性用白色表示。是的,Jaramillo;科布山;Ol,奥杜威;菲,芬尼酒;Ka, Kaena;妈,猛犸。b、海洋有孔虫的存在和最后出现基准Cibicides grossus, rabbit-genusHypolagus还有软体动物北极蛤属多毛分别在北极、北半球和北格陵兰岛。最右边的蓝色带是根据贝壳上的氨基酸比例估计出的A成员的年龄范围7c,两种不同生产比(7.42(黑色)和6.75(蓝色))计算的宇宙成因埋藏年龄的卷积概率分布函数。虚线和实线分别表示稳定侵蚀和零侵蚀的分布。这些分布都是最大年龄。d,分子测年桦木属sp.得出沉积物中DNA的中位年龄为1.323 Myr,其须限制95%高度后验密度(HPD)为0.68至2.02 Myr(蓝色密度图),运行马尔科夫链蒙特卡罗估计进行1亿次迭代。红点是利用乳齿象线粒体基因组限制放射性碳定年标本发现的中位分子年龄估计,而绿色区域包括BEAST中的分子钟估计标本,运行马尔科夫链蒙特卡罗估计4亿次迭代。胡须限制95%的火奴鲁鲁pd。

DNA保存

由于微生物的酶活性、机械剪切和自发的化学反应(如水解和氧化),DNA随时间而降解20..迄今为止所获得的最古老的DNA是从一颗永久冻土保存的猛犸象臼齿中恢复的,使用地质方法测定的年代为1.2-1.1 Myr,使用分子钟测定的年代为1.7 Myr(95%最高后密度,2.1-1.3 Myr)21.为了探索从Kap København组沉积物中回收DNA的可能性,我们计算了Kap København组DNA的热年龄及其预期的脱嘌呤程度。使用平均温度22(MAT)在−17°C时,我们发现DNA在恒定10°C下的热年龄为2.7千年,比2.0 Myr的年龄小741倍(补充信息,部分)4及补充表4.1.1).利用恐鸟化石的脱嘌呤率23,我们发现平均大小为50个碱基对(bp)的DNA可能在Kap København组中存活,假设该遗址保持冻结状态(补充信息,节)4及补充表10/24/11).在沉积物中保存DNA的机制可能不同于骨骼。矿物表面的吸附改变了DNA构象,可能阻碍了酶的分子识别,这有效地阻碍了酶降解24252627.为了研究在Kap København组中发现的矿物是否在沉积过程中保留并保存了DNA,我们使用x射线衍射确定了沉积物的矿物组成,并测量了它们的吸附能力。我们的研究结果强调,海洋沉积环境有利于细胞外DNA在矿物表面的吸附(补充信息,第2节)4及补充表4.3.1.1).与非粘土矿物(59-75 wt%)相比,粘土矿物(9.6-5.5 wt%)和蒙脱石(1.2-3.7 wt%)具有更高的吸附能力。DNA浓度代表了自然环境28(4.9 ng ml−1DNA),蒙脱石对DNA的吸附能力是石英的200倍。我们采用了沉积eDNA提取方案29从蒙脱石中只提取了5%的吸附DNA,从其他粘土矿物中提取了约10%(方法和补充信息,章节4).相比之下,我们提取了大约40%吸附在石英上的DNA。不同矿物的吸附能力和萃取率的差异表明矿物成分可能在古eDNA的保存和提取中起重要作用。

Kap København宏基因组

我们提取DNA29来自Kap København组5个不同地点的41个富含有机物的沉积物样本(补充信息,section)6来源数据1),转化为65个双索引Illumina测序文库30..首先,我们对65个植物质体DNA文库中的34个进行了筛选,筛选出保守的光系统II D2 (psbD使用ddPCR(液滴数字PCR)技术对基因进行检测,该基因靶向引物和探针跨越39 bp区域,并使用P7指数引物。此外,我们筛选了psbA基因使用类似的试验针对Poaceae(方法和补充图。6.12.1).在测试的34个样本中,有31个样本的清晰信号证实了这些文库中存在植物质体DNA(来源数据1,表5和6)。此外,我们使用Arctic古芯片1.0对65个文库中的34个进行了哺乳动物mtDNA捕获富集31使用Illumina HiSeq 4000和NovaSeq 6000对所有文库(初始和捕获)进行了鸟枪测序。共测序16,882,114,068个reads,经过适配器修剪、过滤≥30 bp、phred质量最小为30以及重复去除后,共测序2,873,998,429个reads。这些都是为了k -使用simka进行Mer比较32(补充资料,章节6),然后利用HOLI的竞争映射进行分类(https://github.com/miwipe/KapCopenhagen.git),其中包括最近发表的超过1500个北极和北方植物分类单元的基因组概要数据集3334(方法和补充信息,章节6).考虑到样本的年龄以及与最近参考基因组的潜在遗传距离,我们允许每个read的相似性在95-100%之间,以便使用ngsLCA对其进行分类35.元admg (v.0.14.0)程序36随后用于量化和筛选所有宏基因组样本的死后DNA损伤的每个分类节点(方法)。该方法估计了终端位置的平均损伤(D-max)和似然比(λ-LR),它量化了损伤模型(即在读取开始时的更多损伤)与空模型(即常量损伤;参见“补充信息”部分6).我们发现DNA损伤显著增加,特别是对于真核生物(平均D-max = 40.7%,参见补充信息,第6节)。由此,我们将D-max≥25%作为分类节点的过滤阈值,用于进一步的下游分析以及λ-LR大于或等于1.5。此外,我们还设置了一个阈值,要求每个分类单元的最小读取数超过所有分类单元分配的读取数的中位数(除以2),以筛选低丰度分类单元。类似地,对于要考虑的样本,样本的总读取数必须超过每个样本读取数的中位数除以2,以过滤读取数最少的样本。最后,我们过滤出重复次数少于3次的分类群,随后通过转换成比例对读取结果进行归一化(图2)。3.而且4).

图3:格陵兰岛北部早更新世植物。
图3

宏基因组中发现的植物组合的分类学剖面图。加粗的分类单元是仅以DNA形式存在的属,而不是大化石或花粉。星号表示在其他上新世北极遗址发现的。通过大化石或系统发育位置确定的灭绝物种用匕首标记。阅读分类为Pyrus而且马吕斯用磅符号标记,并且可能是属于蔷薇科中另一个物种的过度分类的DNA序列,不作为参考基因组存在。

图4:格陵兰岛北部的早更新世动物。
图4

一个, B1、B2和B3单元动物组合的分类概况。粗体的分类单元是仅在DNA中发现的属。b,系统发育安置和pathPhynder62线粒体读数的结果被唯一地分类为象皮科或象皮科以下(来源数据1)。通过大化石或系统发育位置识别的灭绝物种用匕首标记。

DNA,花粉和大化石的比较

格陵兰岛的海岸从北纬60°延伸到83°,包括从亚北极到北极沙漠的生物气候带3738.格陵兰有175种原生维管植物属,不包括历史上引进的物种394041.其中70例(40%)通过宏基因组分析检测到。3.);这些属中的大多数今天局限于Kap København的极地沙漠以南的生物气候带(见参考文献)。42以及其中的参考文献),例如,所有水生大型植物。指定阅读柳树Vaccinium桦木属苔属植物而且木贼属在这些属中,木贼属柳属北极蛤属还有两种苔属植物苔属植物nardina而且苔属植物施坦斯)目前在那里生长,而只有少数的记录Vaccinium uliginosum在80ºN以上,和桦木属娜娜在74ºN以上(参考。43).在Kap København古eDNA组合中检测到的102个属中,39%不再生长在格陵兰岛,但在北美北方林木中存在(例如,云杉而且杨树)和北部落叶林和海洋林(例如,Crataegus水松金钟柏而且Filipendula).这种多样化组合中的许多植物属都不生长在永久冻土基底上,它们所需要的温度比今天格陵兰岛任何纬度的温度都高。

除DNA外,我们还对B3单元119号地点的6个样品进行了花粉计数。5.1.1).其中4个样品的花粉量为71 ~ 225粒(平均170.25)。样本4中约40%为山地草本植物,包括莎草科、ericaceae和蔷薇科。样本5和6以乔木类群为主桦木属.水螅类(例如,木贼属Asplenium而且Athyrium filix-mas)和石松(石松属植物annotinum而且卷柏rupestris)也有很好的代表性,在样本1、4和6中占组合的30%以上。

在DNA鉴定的102个植物属中,共有39个属也在属水平上作为大化石或花粉出现。另有39个类群可能被鉴定为大化石或花粉,但不在同一分类学水平1015(资料来源1,表1和2)。例如,Poaceae的12属经DNA鉴定(AnthoxanthumArctagrostisArctophilaCalamagrostisCinnaDupontiaHordelymusLeymus美丽姆Phippsia而且《行动纲领》),只提供有关的资料Hordelymus在今天的北极已经找不到(http://panarcticflora.org/),但在花粉分析中仅在科水平上进行区分,仅发现一种禾本科大化石。有24个类群仅被记录为DNA。其中包括北方针叶树杨树还有少量灌木和矮灌木,但以草本植物为主。在73个植物属中发现了大型化石1015在美国,只有24例在DNA分析中未被检测到。因为大化石和DNA有相似的埋藏体——都是在当地沉积的——它们之间比DNA和花粉之间有更多的重叠,而花粉通常是区域分散的44.DNA中缺失的9个类群是苔藓植物,可能是由于该类群在基因组参考数据库中代表性较差。此外,已灭绝的天南星科分类单元在参考数据库中不存在。其余未被发现的属为维管植物,除两个(胚胎学而且山茱萸)在大型化石记录中是罕见的。因为在大化石和DNA记录中,稀有类群的探测都具有挑战性45我们认为,基于这两种方法的局限性,DNA和大化石记录之间的这种重叠是可以预期的。

此外,在本尼克花粉记录中还记录了19个类群46包括四种乔木或灌木,五种蕨类,三种藓类,藻类,真菌和苔类各一种。我们还发现了来自风媒植物的花粉,尤其是裸子植物,它们可以分布在植物实际生长地区的极北地区10.Bennike46还注意到高比例的藓类和蕨类,并建议他们可能过度代表由于他们的孢子壁是抵抗退化。此外,如果这些类群优先分布在流入河口的河流中,它们的孢子在冲积层中的浓度可能比分布更广泛的类群的花粉更集中。因此,抗衰变性和冲积沉积都可能有助于我们观察到的相对频率。同样的冲积动力也可能导致了非常大的读取计数柳树桦木属杨树苔属植物而且木贼属在宏基因组记录中,这意味着无论是这些类群在花粉记录中的比例,还是reads计数,都不一定与它们在区域植被中的实际丰度(生物量或盖度)相关。

最后,我们试图通过叶绿体DNA的系统发育位置来确定植物DNA的年龄。我们检查了该属的数据桦木属杨树而且柳树因为它们具有足够高的叶绿体基因组覆盖率(平均深度分别为24.16×、57.06×和27.04×)和足够多的现代全叶绿体参考序列(方法)。由于它们的年龄和与现代参考基因组的潜在遗传距离,我们将唯一分类reads的相似度阈值降低到90%,并按单位合并以增加覆盖率。这两个桦木属而且柳树基本放置到大多数代表物种在各自属,和杨树放置结果显示支持不同物种的混合有关p . trichocarpa而且p . balsamifera(扩展数据图。7- - - - - -9).

我们使用桦木属叶绿体可用于分子年代测定分析,因为它们被确定地放置在系统发生树的单一边缘上(也就是说,不像在杨树),具有大量的参考序列,在古样本中具有较高的覆盖率。我们使用了BEAST47V1.10.4获取分子钟的日期估计为我国古代桦木属叶绿体样本(详见方法,“分子测年方法”)。我们包括了31个现代的桦木属和一个赤杨皮叶绿体参考序列,仅使用在古代样本中深度至少为20的位点,并包括先前估计的Betula-Alnus叶绿体分化时间4861.1 Myr用于根节点的校准。我们的BEAST分析对古代样本年龄的不同先验和不同的核苷酸取代模型都是稳健的(扩展数据图。10).由此得出的年龄中位数估计为1.323 Myr, 95% HPD为(0.6786,2.0172)Myr(图。2).

动物DNA结果

后生动物线粒体和核DNA记录的多样性远低于植物,但包含一个已灭绝的科,一个在今天的格陵兰岛已经没有了,四个脊椎动物属原产于格陵兰岛,以及四个无脊椎动物科的代表。4).赋值基于参考基因组的不完整和可变表示,因此我们将reads确定为科级,并且只有在存在足够线粒体reads的情况下,我们将这些reads匹配到基于更完整的现代线粒体序列的线粒体系统发育,从而将赋值细化到属级(补充信息,第2节)6).对于植物reads,相似性超过90%的唯一分类动物reads按单位进行解析和合并,以增加系统发育放置的覆盖率。

最值得注意的是,我们在单元B2和B3中发现了属于象科的读数,包括大象和猛犸象,但在分类学上不包括乳齿象(Mammutsp.)——然而,在NCBI分类法中,因此我们的分析读起来归类为象皮科或以下,因此包括Mammut我们象皮科线粒体基因组的共识读数落在Mammut分支(图;4 b),生长在乳齿象所有分支的基部。然而,我们注意到乳齿象中的这种位置仅依赖于两个过渡单核苷酸多态性(SNPs),第一个有三个读取深度,第二个只有一个(扩展数据图)。4方法和补充信息,章节6).此外,我们尝试用BEAST测定恢复的乳齿象线粒体基因组的年代49.我们采用了两种测年方法,一种是单独使用放射性碳测定标本,另一种是使用放射性碳和分子测定乳齿象。第一种分析得出了我们乳齿象有丝分裂基因组的中位年龄估计值为1.2 Myr (95% HPD: 191,000 yr-3.27 Myr),第二种方法得出的中位年龄估计值为5.2 Myr (95% HPD: 1.64-10.1 Myr)(补充图。6.8.5及补充资料部分6).

同样地,分配给子宫颈科的读数支持在基底上的位置至今(驯鹿和北美驯鹿)分支(扩展数据图。3.).线粒体读取映射到Leporidae(野兔和家兔)的位置接近欧亚野兔分支的基础(扩展数据图)。2),是唯一在化石记录中发现的哺乳动物7天兔座,特别是天兔座arcticus它也是现今生活在格陵兰岛的Leporidae中唯一的属。蟋蟀科的线粒体reads仅覆盖了一个信息性的SNP,这表明它们来自Arvicolinae亚科(田鼠、旅鼠和麝鼠)(扩展数据图)。6).对于我们的数据中所代表的唯一的鸟类分类单元——鹅科,鹅和天鹅科,我们发现了该属的一个强大的基础位置Branta由3个读深度在2到4之间的转位snp支持(扩展数据图。5).与植物相比,基于线粒体参照的精细脊椎动物分配在生物地理上更为保守。Dicrostonyx中的Dicrostonyx groenlandicus(新北极领旅鼠)-是今天格陵兰岛本土唯一的蟋蟀科属,就像至今中的tarandus groenlandicus(贫瘠土地上的驯鹿)是鹿科唯一的成员。乳齿象是个例外,因为象皮科的任何一种动物都没有生活在今天的格陵兰岛。

来自海洋生物的远古DNA

在DNA记录中确认的其他后生动物类群是一种造礁珊瑚(Merulinidae)和几种节肢动物,与两种昆虫——蚁科(蚂蚁)和普利科(跳蚤)——以及一个海洋科——鲎科(马蹄蟹)相匹配。这有点出乎意料,因为Kap København组有丰富的昆虫大化石记录,其中包括200多个物种,包括福米卡海洋分类单元比陆地分类单元数量少,在海洋后生动物中未发现线粒体DNA。读取长度、DNA损伤以及分配的读取在参考基因组中均匀分布的事实表明,这些不是人工制品,而是可能是密切相关的、潜在灭绝物种的过度匹配DNA序列,这些物种目前由于分类学表现不佳而从我们的参考数据库中缺席。相比之下,狐鳞科,在亚门螯肢动物门,不太可能被错误识别,因为这个独特的属是其目的中唯一幸存的成员,因此与其他现存的生物严重分化。

这些数据的可能来源是鲎波吕斐摩斯它是该属中唯一的大西洋成员,在沉积物积累时,它会直接在沉积物上繁殖。今天,该属不在芬迪湾(Bay of Fundy,约45°N)北部产卵,这表明Kap København早更新世较温暖的地表水条件与格陵兰岛东北部海岸更新世重建的+8°C年海面温度异常一致50.通过将读取值对准塔拉海洋真核生物宏基因组组装基因组(SMAGs)数据(方法),我们进一步揭示了在14个样本中存在24个海洋浮游类群,包括浮游动物和浮游植物(图2)。5).这些检测到的SMAGs属于超类群Opisthokonta(6)、Stramenopila(15)和Archaeplastida(3)。这些信号大部分来自现代海洋(即北冰洋和南大洋)寒冷地区的SMAGs,如硅藻(硅藻门)、Chrysophyceae和mast4类群(补充表)6.11.1),如我们所料。然而,一些是世界性的,而其他的,如古质体(绿色微藻),具有海洋信号,今天仅限于太平洋的温带水域(图2)。5).尽管我们不知道现代生态系统是否可以外推到古代生态系统,但据信,在北极地区,绿色微藻的丰度正在增加,这往往与地表水变暖有关。

图5:在Kap København组发现的海洋浮游真核生物。
图5

一个,成员单位内SMAG的检测和平均伤害(D-max)。上图为基于Delmont等数据的当代海洋SMAG分布。63.SMAGs是根据Delmont等人的系统基因组推断进行排序的。63b- - - - - -d、Opisthokonta分类超类群中DNA损伤的分布(b)、斯特拉曼诺皮拉(c)和古质体(d)(源数据1)。

讨论

Kap København古eDNA记录的不同寻常有几个原因;估计分子年龄的95%最高后验密度的上限为2.0 Myr,独立支持约2 Myr的地质年龄(图2)。2).这意味着该DNA比任何先前测序的DNA都要古老得多21.我们的DNA结果检测到的植物属数量是之前使用鸟枪测序古沉积物的研究的五倍29345152,这完全在最丰富的北方北方元条形码记录的范围内53.76%的属或科级别的分类单元也出现在同一单元的大化石和/或花粉组合中,这一观察结果加强了分配的准确性。我们的结果证明了古代环境宏基因组学在重建古代环境、系统发育位置和距今约2 Ma的不同类群的古代谱系方面的潜力(补充信息,节)6).最后,DNA鉴定了一组额外的植物属,它们作为大化石出现在其他北极地区的晚上新世和早更新世遗址(图2)。1而且3.及补充资料部分5),而不是Kap København的化石,从而扩大了这些古代植物群的时空分布。

值得注意的是,两者的检测至今(驯鹿和北美驯鹿)和Mammut(乳齿象)迫使人们根据该遗址相对贫瘠的动物群记录,对早期的古环境重建进行修正,在沉积期的大部分时间里,这意味着更高的生产力和栖息地多样性。因为所有通过DNA鉴定的脊椎动物类群都是食草动物,所以它们的表示可能是相对生物量的函数(见补充资料,节中关于埋葬学的讨论)6).在北方的环境中,驯鹿、鹅、野兔和啮齿动物都是丰富的,至少是季节性的。此外,大型食草动物(如驯鹿,特别是乳齿象)的粪便可能是沉积物的重要组成部分34.相比之下,食肉动物没有出现,这与它们的总生物量较小一致。这种动态也解释了植物读类相对于后生动物的优势,以及在某种程度上不同植物属的表现差异(补充资料,章节6).在化石普遍缺失的情况下,DNA可能被证明是重建早更新世脊椎动物生物地理的最有效工具。乳齿象的DNA肯定暗示了这种大型食草动物的存活种群,这将需要一个比早期主要基于植物大型化石的重建推断的更多产的北方栖息地7.在新斯科舍省中部的一处遗址中,大约7.5万年前的乳齿象粪便中含有莎草、香蒲、芦苇、苔藓甚至是叶生植物的大型化石,但主要是云杉针和桦树54.带有乳齿象DNA的Kap København单元产生了大型化石和来自桦木属以及更多的嗜热树木类群,包括金钟柏水松山茱萸而且荚莲属的植物这些地区都没有延伸到今天格陵兰岛的北极苔原或极地沙漠。这些类群在多个单元中同时出现,迫使对以前的温度估计以及永久冻土的存在进行修正。

没有一个单一的现代植物群落或栖息地包括Kap København的许多大化石和DNA样本中所代表的类群范围。群落组合代表了现代北方和北极类群的混合物,这在现代植被中没有类似物1015.在某种程度上,这是意料之中的,因为这些属的现代成员的生态振幅已经被进化改变了55.此外,北极高光周期与较暖条件和较低大气CO的结合2浓度56使北格陵兰岛的早更新世气候与今天非常不同。陆地组合的混合特征也反映在海洋记录中,北极和更国际化的蛇孔鱼和Stramenopila的SMAGs与马蹄蟹、珊瑚和绿色微藻(古原藻)一起被发现,它们今天生活在更南纬的温暖水域。

大型食草动物,尤其是乳齿象,可能对间冰期针叶林环境产生了重大影响,甚至对高纬度地区的植被结构和组成提供了自上而下的营养控制。乳齿象的存在5758再加上没有人为火灾,这在一些全新世的北方栖息地发挥了作用59,是重要的区别。另一个重要因素是,当间冰期开始时条件变得有利时,先锋物种能够分散到北格陵兰岛的避难地的邻近性和生物的丰富性。早更新世冰川作用持续时间较短,产生的冰盖面积较小,使得加拿大东北部物种相对丰富的针叶落叶林地得以殖民1260.更新世后期更广泛的冰川作用使北格陵兰岛越来越孤立,后来的重新殖民来自越来越遥远和/或多样性越来越少的难民。

总之,我们展示了古代eDNA的力量,为我们对这个独特的、与北极物种混合的古代北方开放森林群落的了解增加了大量细节,这个群落的组成没有现代类似物,包括乳齿象和驯鹿等。类似详细的植物群和脊椎动物DNA记录可能在其他地方保存下来。如果这些化石被发现,将有助于我们了解北极地区温暖的早更新世时期的气候变化和生物相互作用。

方法

抽样

沉积物样本采集于2006年、2012年和2016年夏季格陵兰岛北部Kap København组(82°24′00″N 22°12′00″W)(见补充表)3.1.1).采样材料包括富含有机物的永久冻土和干燥的永久冻土。在取样之前,对型材进行清洗以暴露新鲜材料。此后,使用直径10厘米的金刚石头钻头或切割出~40 × 40 × 40厘米的块,从山坡上垂直收集样本。沉积物在野外和运输到哥本哈根实验室设施的过程中被冷冻。使用一次性手套和手术刀,并在每个样品之间更换,以避免交叉污染。在受控的实验室环境中,岩芯和块进一步次采样,只取沉积物岩芯的内部部分,在内芯和表面之间留出1.5-2 cm,这提供了大约6-10 g的子样品。随后,所有样品保存在- 22°C以下的温度下。

我们通过在3个地层单元B1、B2和B3取样和生物复制,对富含有机物的沉积物进行采样,横跨5个不同的地点,地点:50 (B3)、69 (B2)、74a (B1)、74b (B1)和119 (B3)。进一步在不同的子层(编号L0-L4,源数据1,表1)中对每个站点的每个单元的每个生物副本进行采样。

绝对年龄测定法

2014年,用加速器质谱法分析了在现代深度(流切阶地下3至21米)收集的8× 1 kg富含石英的砂岩样品中的Be和Al氧化物目标,并使用简单的埋藏测年方法将宇宙成因同位素浓度解释为最大年龄126艾尔:10被规范化10)。的26艾尔和10Be同位素是在沉积之前,宇宙射线与Kap København上方山区风化层和基岩表面暴露的石英相互作用产生的。我们假设26艾尔:10在这些逐渐被侵蚀的古地表的上面几米,铍在很长一段时间内都是均匀稳定的。一旦被溪流和山坡过程侵蚀,石英砂就沉积在砂质辫状流沉积物、三角洲分流系统或近岸环境中,并有效地屏蔽了埋在沉积物、间歇冰架或冰盖覆盖下(至少在间冰期)的宇宙射线核子,直到最终出现。简单的埋藏年代测定方法假设沙粒只经历过一次埋藏事件。如果多次掩埋事件被重新暴露的时期分开发生,那么开始26艾尔:10在最后一次埋藏事件之前,由于相对较快的衰变,将小于初始生产比(6.75到7.42,见下文讨论)26,因此计算出的埋葬年龄将是最大限制年龄。多次埋藏事件可能是由于源区的厚冰川冰的遮挡,或在最终沉积之前由集水区的沉积物储存造成的。这些屏蔽事件意味着26艾尔:10Be较低,因此,假设初始生产比计算出的埋葬年龄会高估最终的埋葬时间。我们还认为,一旦被埋藏,沙粒可能已经暴露在次级宇宙成因μ子中(它们的深度对于海底核子的产生来说太大了)。由于在这些冰川覆盖的近岸环境中的沉积速度相对较快,我们表明,即使是μ子的产生也可以忽略不计补充信息).然而,一旦海洋沉积物出现在海平面以上,由核生和mugenic产生的原位生产可能会改变26艾尔:10是。的26艾尔和10Be等时线图揭示了这一复杂的埋藏历史(补充资料,第3.)和两者的浓度-深度复合剖面26艾尔和10我们发现,最浅的样本可能是在一段时间内(~15,000年前)暴露出来的,这与该地区的冰川消退相一致(补充信息)。虽然我们将所有样品的单个简单埋藏年龄解释为Kap København组B段的最大沉积极限年龄,但我们建议在单一深度剖面中使用三个屏蔽最深的样品,以最小化沉积后生产的影响。然后我们计算这三个样本(KK06A, B和C)的卷积概率分布年龄。然而,这个计算取决于26艾尔:10取决于我们使用的生产比率(即在6.75和7.42之间),以及我们是否调整了集水区的侵蚀。因此,我们对最低和最高的生产比以及0到最大的可能侵蚀率重复卷积概率分布函数年龄,以获得在1处的最小和最大限制年龄范围σ(补充信息,章节3.).取负3和正3之间的中点σ在置信范围内,得到的最大埋藏年龄为2.70±0.46 Myr。这三个样本在等时线图上的位置也支持这个年龄,这表明真实年龄可能与这个最大限制年龄没有显著差异。

热的年龄

Kap København DNA的热降解程度与来自Krestovka猛犸象臼齿的DNA进行了比较。公布的DNA降解动力学参数64用于计算长期温度记录在给定区间内的相对速率差异,并量化与10°C参考温度的偏移量,从而估算每个样品在10°C下的热年龄(补充信息,第4).Kap København沉积物的年平均气温(MAT)来自Funder et al. (2001)6对于Krestovka猛犸象,MAT是根据Cerskij气象站的温度数据计算的。251230)北纬68.80°161.28°E,距国际研究所数据库32米(https://iri.columbia.edu/)(补充表格4.1.1).

我们没有对Kap København沉积物或Krestovka猛犸象的热年龄计算进行季节波动校正。我们为Kap København沉积物中的DNA提供了四种不同热情景的理论平均片段长度(补充表)10/24/11).使用环境递减率(6.49°C km)对高度的热年龄计算进行了修正−1).我们缩放了Hansen等人(2013)的长期温度模型。65通过一个足以解释末次冰盛期当地温度下降估计的比例因子,对当前垫层的局部估计进行了评估,然后使用127 kJ mol的活化能(Ea)估算了综合速率−1(ref。64).

矿物学组成

每个Kap København沉积物样品中的矿物质都是用x射线衍射识别的,它们的比例是用Rietveld细化量化的。样品均质是通过在McCrone Mill中用乙醇研磨~ 1g沉积物10分钟。样品在60°C下干燥,加入刚玉(CR-1, Baikowski)作为内标,最终浓度为20.0 wt%。衍射图使用Bruker D8 Advance (Θ -Θ geometry)和LynxEye探测器(开口2.71°)收集Kα1、2辐射(1.54 Å;40 kV, 40 mA)使用衍射光束上厚度为0.2 mm的镍滤光片和设置为3mm的束刀。我们从5-90°2θ扫描,步长为0.1°,步长为4秒,样品以20转/分旋转。发散缝的开口为0.3°,反散射缝的开口为3°。主索勒裂隙和次索勒裂隙开度为2.5°,探测窗开度为2.71°。对于Rietveld分析,我们使用BGMN软件的Profex接口6667.利用基本参数射线追踪法确定了仪器参数和峰展宽68.黏土矿物鉴定的详细描述可在辅助资料中找到。

吸附

我们使用纯矿物或纯化矿物进行吸附研究。所使用的矿物及其净化方法见补充表4.2.6.矿物的纯度是用x射线衍射检查的,仪器参数和程序与上一节中列出的相同,即矿物成分。关于起源、提纯和杂质的说明可以在补充信息部分找到4.我们用人工海水69和鲑鱼精子DNA(低分子量,冻干粉,Sigma Aldrich)作为eDNA吸附的模型。将已知量的矿物粉末与海水混合,在超声波浴中超声15分钟。将DNA原液加入悬浮液中,使最终浓度在20 ~ 800 μg ml之间−1.悬浮液在旋转振动筛上平衡4小时。然后将样品离心,用紫外光谱法(生物光度计,Eppendorf)测定上清液中的DNA浓度,同时进行阳性和阴性对照。所有的测量都是一式三份的,我们对每种矿物质测得5到8个DNA浓度。我们利用Langmuir和Freundlich方程将模型与实验等温线拟合,并获得了在给定平衡浓度下矿物的吸附容量。

花粉

花粉样品提取采用俄罗斯科学院地质研究所采用的改良Grischuk方案,该方案利用焦磷酸钠和氢氟酸70.用moticba 400复合显微镜在400倍放大下扫描6个样品的载玻片,并使用Moticam 2300相机拍摄。花粉百分比计算为包括未鉴定颗粒在内的总孢粉的比例。6个样品中只有4个样品的花粉数≥50。在这些样本中,鉴定出的孢粉总数在225到71之间(平均为170.25;中位数= 192.5)。使用几个已发布的密钥进行标识7172.花粉图最初使用Tilia版本1.5.12编译73但在这项研究中使用Psimpoll 4.10重新绘制74

DNA复苏

为了进行回收率计算,我们用DNA饱和矿物表面。为此,我们使用了与测定吸附等温线相同的方法,只是增加了一步,以去除未被吸附但仅困在湿糊体间质孔中的DNA。这一步骤很重要,因为间质DNA会增加明显吸附的DNA数量,从而高估了回收率。为了去除吸附后捕获的DNA,我们将矿物质重新分散在海水中。湿膏在海水中再分散、超离心和上清去除的过程不超过2.5 min。第二次离心后,将湿膏冷冻直至提取。我们使用了与Kap København沉积物相同的提取方案。提取后,再次用紫外光谱法测定DNA浓度。

基因组

共提取41份样本进行DNA检测75并转换为65个双索引Illumina测序库(包括13个阴性提取和库控制)30..34个文库随后使用QX200 AutoDG液滴数字PCR系统(Bio-Rad)按照制造商的协议进行ddPCR。ddPCR检测包括P7指数引物(5’-AGCAGAAGACGGCATAC-3’)(900nM)、基因靶向引物(900nM)和基因靶向探针(250nM)。我们筛选了Viridiplantae psbD(引物:5 ' - tcataattggacgttgaac -3 ',探针:5 ' -(FAM) actcccatatgaaa (BHQ1)-3 ')和Poaceae psbA(引物:5 ' - ctcacaacttccctctagac -3 ',探针5 ' -(HEX)AGCTGCTGTTGAAGTTC(BHQ1)-3 ')。此外,65个文库中的34个使用靶向捕获富集,用于哺乳动物线粒体DNA,使用古芯片Arctic1.0诱饵集31所有文库随后在Illumina HiSeq 4000 80 bp PE或NovaSeq 6000 100 bp PE上测序。我们总共测序了16,882,114,068个reads,经过低复杂度过滤(Dust = 1),质量修剪(≥25),对大于29 bp的reads进行重复去除和过滤(仅对NovaSeq数据进行配对读对),结果有2,873,998,429个reads被解析用于进一步的下游分析。我们接下来估计k所有样本之间的Mer相似性使用simka32(设置最大读取次数的启发式计数(-max-reads 0)和ak(-kmer-size 31)),并对得到的距离矩阵进行主成分分析(PCA)补充信息“DNA”)。我们以后通过HOLI解析所有的QC读取33用于分类学分配。为了提高分类学分配的分辨率和灵敏度,我们用最近发表的北极-北方植物数据库(PhyloNorway)和北极动物数据库补充了RefSeq(92不含细菌)和核苷酸数据库(NCBI)34并在NCBI SRA中检索了139个北方动物类群基因组(2020年3月),其中发现并添加了16个部分全基因组(源数据1,表4),并使用GTDB微生物数据库95版作为诱饵。随后使用samtools合并所有比对,并使用z-sort进行排序(v. 1)。然后使用新开发的metaDMG估计胞嘧啶去氨频率,首先为每个读取找到所有可能比对的最低共同祖先,然后计算每个分类级别的损伤模式36补充信息,部分6).同时,我们计算了平均读取长度以及每个分类节点的读取数(补充信息,部分6).我们对所有分类级别的DNA损伤分析表明,所有分类级别的所有样品都存在最小滤波器,D-max≥25%,似然比(λ-LR)≥1.5。这确保了只有显示古代DNA特征的分类群被解析用于下游分析,结果在任何对照中都没有发现分类群(补充信息,第2节)6).

海洋真核宏基因组

我们试图识别海洋真核生物,首先使用Kraken 2将所有质量控制的reads分类标记为真核生物、古细菌、细菌或病毒76使用参数“置信度0.5—最小命中组3”,并结合额外的过滤步骤,只保留根到叶评分为>0.25的读取。对于最初的Kraken 2搜索,我们使用了一个由taxdb-integration工作流创建的粗略数据库(https://github.com/aMG-tk/taxdb-integration)涵盖生命的所有领域,并包括海洋浮游真核生物的基因组数据库63其中包含683个宏基因组组装基因组(mag)和30个单细胞基因组(sag)塔拉海洋77,遵循Delmont等人的命名惯例。63,我们称之为smag。标记为根、未分类、古生菌、细菌和病毒的Reads通过Kraken 2标记的第二个步骤进行了细化,该步骤使用了由taxdb集成工作流创建的包含古生菌、细菌和病毒的高分辨率数据库。我们使用与初始搜索相同的Kraken 2参数和过滤阈值。Kraken 2数据库都建立了针对研究读取长度优化的参数(- kmer-len 25 -minimizer-len 23 -minimizer-spaces 4)。

标记为eukaryota, root和unclassified的Reads随后用Bowtie2进行映射78对SMAGs。我们使用了Picard的markduplicate (https://github.com/broadinstitute/picard)来删除重复项,然后我们用filterBAM程序(https://github.com/aMG-tk/bam-filter).进一步利用metaDMG中的贝叶斯方法对过滤后的BAM文件进行死后损伤估计,筛选出D-max≥0.25且拟合质量(λ-LR)大于1.5。去除reads小于500、平均reads平均核苷酸标识(ANI)小于93%、覆盖宽度比和覆盖均匀度小于0.75的SMAGs。我们采用数据驱动的方法来选择平均ANI读数阈值,我们探索了映射读数的变化作为平均ANI读数从90%到100%的函数,并确定了曲线中的弯头点(补充图2)。6.11.1).我们用anvi 'o79使用Delmont等人推断的SMAGs系统基因组树作为参考,在手动模式下绘制映射和损伤结果。我们使用Delmont等人的海洋信号作为每个海洋和海洋中SMAGs当代分布的代理。5及补充资料部分6).

DNA、大化石和花粉的比较

为了在DNA、大化石和花粉的记录之间进行比较,分类法按照泛北极植物区系清单进行了协调43和NCBI。例如,自Bennike(1990)以来18Potamogeton已经分裂为Potamogeton而且StuckeniaPolygonym已被拆分为蓼属植物而且Bistorta,虎耳草属被分割为虎耳草属而且Micranthes,而其他的则被合并了,比如Melandrium硅宾40.植物科已经改变了名称——例如,禾草科现在被称为禾草科,而玄参科已经被重新划分,不包括车前草科和车前草科80.将该类群划分为:第1类为DNA和大化石或花粉记录的全部相同属,第2类为DNA记录的大化石或花粉记录的属,包括科级分类的属,第3类为DNA记录的类群,第4类为大化石或花粉记录的类群(来源资料1)。

系统发育位置

我们试图在系统发育学上对具有最多reads的古代类群进行定位,并使用足够数量的参考序列来构建系统发育。这些分类单元包括植物区系属的叶绿体基因组柳树杨树而且桦木属,以及象皮科、蟋蟀科、白兔科、羊绒亚科和鹅绒亚科的线粒体基因组。虽然叶绿体基因组的进化不如植物线粒体基因组的进化稳定,但它的进化速度更快,而且不重组,因此比植物线粒体更有可能包含更多可供我们分析的信息位点81.像线粒体基因组一样,叶绿体基因组也有很高的拷贝数,因此我们可以预期有大量的沉积reads映射到它。

对于这些分类群,我们从NCBI Genbank下载了一组具有代表性的全叶绿体或全线粒体基因组fasta序列82,包括一个来自最近分离的外群的代表性序列。为桦木属我们还从PhyloNorway数据库中收录了三个叶绿体基因组3483.我们将fasta文件中的所有模糊碱基都改为n。我们使用MAFFT84并在NCBI MSAViewer中检查了多个序列的比对,以确认质量85.我们通过去除MegaX中的d-loop,对Leporidae, Cricetidae和Anserinae的高度可变控制区进行了质量不足的线粒体校准86

野兽套房49使用默认参数,从参考序列的多序列比对(msa)中为每组分类群创建超系统发育树,这些序列在Figtree中从Nexus格式转换为Newick格式(https://github.com/rambaut/figtree).然后,我们将多个序列对齐从BioPython传递给Python模块AlignIO87为每一组分类单元创建一个参考共识序列。此外,我们使用了SNPSites88从每个msa创建一个vcf文件。由于SNPSites在丢失数据时输出的格式与下游分析所需的格式略有不同,因此我们使用自定义R脚本适当地修改vcf格式。我们还过滤了非双等位基因的snp。

从损坏过滤的ngsLCA输出中,我们提取了在这些各自的分类单元中唯一分类为引用序列或分配给分类组中的任何共同祖先的所有readid,并使用seqtk (https://github.com/lh3/seqtk).我们合并来自所有站点和层的读取,为每个分类单元创建一个单独的读取集。接下来,由于这些提取的读取数据被映射到一个参考数据库,其中包括来自每个分类单元的多个序列,因此输出文件不在同一个坐标系统上。为了避免这个问题并避免映射偏差,我们使用bwa将每个读集重新映射到上面为该分类单元生成的共识序列89与古代DNA参数(bwa aln -n 0.001)。我们将这些读取转换为bam文件,删除未映射的读取,并使用samtools筛选映射质量> 2590.这产生了103,042,39,306,91,272,182和129的读数柳树杨树桦木属、象皮科和毛茛科。

接下来我们使用pathPhynder62,一种系统发育定位算法,从参考面板中识别系统发育上的信息性标记,评估重叠这些标记的古样本中的snp,并遍历树,根据其派生的和祖先的snp在每个分支上放置古样本。我们使用纯转换滤波器来避免由于脱amination导致的错误,除了桦木属柳树而且杨树其中我们没有使用过滤器,因为覆盖面足够高。最后,我们研究了每个分类单元集中的pathPhynder输出,以确定我们古代样本的系统发育位置(关于系统发育位置的讨论,请参阅补充信息)。

在上述分析的基础上,进一步研究了其在属内的系统发育位置Mammut或乳齿象。为了避免下游结果的参考偏差,我们首先从上述分析中使用的所有比较线粒体基因组构建了一个共识序列,并将ngsLCA中鉴定为Elephantidae的reads映射到共识序列。共识序列首先使用MAFFT对齐所有感兴趣的序列84并在genious v2020.0.5中采用多数决定原则(https://www.geneious.com).我们对我们的序列进行了三个系统发育位置分析:(1)与每个象皮科物种(包括海牛)的单个代表进行比较(儒艮dugon(2)与每个象科物种的单个代表进行比较;(3)与包括亚洲象在内的所有已发表的乳齿象线粒体基因组进行比较作为事。

对于这些分析,我们首先使用BEAST v1.10.4构建了一个新的参考树。47)并重复前面描述的pathPhynder步骤,除了pathPhynder树路径分析MammutSNPs基于转换和反转,而不是由于低覆盖率而仅限于反转。

Mammut americanum

我们使用象皮科线粒体参考序列,GTR+G,严格时钟,出生-死亡替代模型,确认了我们序列的系统发育位置,并运行MCMC链2000万次,每20,000步采样一次。采用示踪仪评估收敛性91v1.7.2和有效样本量(ESS) > 200。为了确定我们恢复的乳齿象有丝分裂基因组的大致年龄,我们使用BEAST进行了分子测年分析47v1.10.4。正如最近发表的一篇文章所证明的那样,我们在测定乳齿象丝裂基因组的年代时使用了两种不同的方法92.首先,我们通过与放射性碳测定标本数据集(n只有13)。其次,我们估计了我们的序列的年龄,包括分子(n= 22)及放射性碳年代测定(n= 13)样本,使用先前确定的分子日期92.我们使用了与Karpinski等人相同的BEAST参数。92用gamma分布(5%分位数:8.72 × 10)设置样本的年龄4,中位数:1.178 × 106;95%分位数:5.093 × 106;初始值:74,900;形状:1;规模:1700000)。简而言之,我们指定了一个GTR+G4的替代模型,一个严格的时钟,恒定的种群大小,并运行马尔科夫链蒙特卡洛链50,000,000次运行,每50,000步采样一次。再次使用示踪剂确定井眼的收敛性。

分子测年法

在本节中,我们描述了古代桦树的分子年代测定(桦木属)叶绿体基因组使用BEAST v1.10.4(参考。47).原则上,属桦木属杨树而且柳树具有足够高的叶绿体基因组覆盖率(平均深度分别为24.16×, 57.06×和27.04×,尽管这种覆盖率在叶绿体基因组中高度不均匀)和足够多的参考序列来尝试对这些样本进行分子测年。值得注意的是,这是我们在这些系统发育树中包括一个最近分化的外群的原因之一,其分化时间估计为每个系统发育树。然而,我们的杨树样本显然包含了不同物种的混合物,从它在pathPhynder输出中不一致的位置可以看出。特别是,两者都有多个支持snp杨树balsamifera而且杨树trichocarpa,以及以上分支上的支持和冲突snp。此外,经检查,我们的柳树样本中含有惊人的高数量的私有snp,这与任何古代甚至现代都不一致,特别是考虑到分配到系统发育树边缘的snp数量导致其他snp柳树序列。我们不确定造成这种不一致的原因,但假设我们的柳树样品也是混合样品,包含多个柳树在不同时期从系统发生树上同一位置分支分化的种。这可以通过观察覆盖这些私有SNP位点的所有读取来支持,这些读取通常来自混合样本,在许多情况下,包含替代和参考等位基因的读取比例很高。或者,或潜在的联合并行,这可能是大量的核质体DNA序列(nupt)的结果柳树93.正因为如此,我们才继续桦木属

首先,我们下载了27篇完整的参考文献桦木属从NCBI基因库中提取了一个叶绿体基因组序列和一个桤木叶绿体基因组序列作为外群,并补充了三个桦木属叶绿体序列来自PhyloNorway数据库中最近的一项研究29,共31个参考序列。由于叶绿体序列是圆形的,下载的序列可能并不总是处于相同的方向或相同的起始点,因此我们使用自定义代码(https://github.com/miwipe/KapCopenhagen),它使用锚定字符串将参考序列旋转到相同的方向,并从同一点启动它们。我们用Mafft创建了这些转换后的参考序列的MSA84在Seqotron用眼睛检查了我们的对准质量94和NCBI MsaViewer。接下来,我们使用BioAlign共识函数从这个MSA调用一个共识序列87在Python中,它是多数原则的共识调用者。我们将使用这个一致序列来绘制古代桦木属读书要,既要避免参考偏颇,又要得到古今桦木属样品在与参考MSA相同的坐标上。

来自metaDMG中最后的公共祖先输出36,我们提取了所有单元、站点和级别的阅读集,这些单元、站点和级别被唯一分类到的分类级别桦木属或更低,最小序列相似度为90%或更高桦木属序列,使用Seqtk95.我们将这些读数集与共识相对应桦木属利用BWA进行叶绿体基因组分析89使用古DNA参数(-o 2 -n 0.001 -t 20),然后去除未映射的读取,质量过滤读取质量≥25,并使用samtools对得到的bam文件进行排序89.出于分子年代测定的目的,将这些读取集视为单个样本是合适的,因此我们使用samtools将得到的bam文件合并为一个样本。我们使用了bcftools89要制作一个mpileup并调用一个VCF文件,使用单倍体选项并禁用默认调用算法,这可以略微偏向于引用序列的调用,有利于通过默认的基本质量截断值13的基数上的大多数调用。我们包含了使用基本对齐质量的默认选项96,我们发现它大大降低了一些碱基的读深,并去除了indel区域周围的伪snp。最后,我们过滤了vcf文件,只包括单核苷酸变异,因为我们不相信其他变异,如在这种类型的古代环境样本中的插入或删除,有足够高的置信度来包括在分子测年中。

我们下载了最长的gff3注释文件桦木属参考序列MG386368.1,来自NCBI。使用自定义R代码97,我们解析了该文件和相关的fasta,将各个位点标记为蛋白质编码区域(其中我们根据gff3文件中记录的相位和链将碱基标记为其在密码子中的位置),RNA,或既不是编码也不是RNA。我们提取了编码区域,并输入了速控94在参考序列和古序列的相关位置上,他们翻译成一个很好的蛋白质比对(例如,没有过早的终止密码子)。尽管现代参考序列的编码区域被翻译成高质量的蛋白质比对,但在没有深度截断的古代序列中翻译相关位置会导致过早的终止密码子和整体低质量的蛋白质比对。另一方面,当使用深度截断20并将古序列中不符合该过滤器的位点替换为N时,我们看到了高质量的蛋白质比对(N位点除外)。我们还询问了古代序列中与共识不同的任何位置,并发现任何可疑区域(例如,基因组中多个snp在空间上紧密聚集在一起)都被深度截断20删除了。正因为如此,我们只在古代和现代样本中满足至少20个古代样本深度截断的遗址中进行了研究,这些遗址约占总数的30%。

接下来,我们通过多个序列对齐解析这个注释,为BEAST创建分区47.在检查每个位点中有多少多态位点和总位点后,我们决定使用四个分区:(1)属于蛋白质编码位置1和2的位点,(2)编码位置3,(3)RNA,或(4)非编码和非RNA。为了确保这些是高置信度的位点,每个分区也只包括那些在古序列中深度至少为20且在多序列对齐中总间隙小于3个的位置。这些分区分别有11,668、5,828、2,690和29,538个站点。我们使用这四个分区来运行BEAST47V1.10.4,为每个分区提供了非链接的替代模型和严格的时钟,每个分区具有不同的相对速率。(这些数据中没有足够的信息从单一校准中推断谱系间的比率变化)。我们将所有参考序列的年龄赋值为0,并对根高采用均值为61.1 Myr,标准差为1.633 Myr的正态分布先验48;通过保守地将95% HPD转换为得到标准偏差z分数。对于整体树先验,我们选择了合并模型。古序列的年龄是按照Shapiro et al.(2011)的总体程序估计的。98.为了评估对这个未知日期的先验选择的敏感性,我们使用了两种不同的先验,即gamma分布度量对更年轻的年龄(形状= 1,刻度= 1.7);以及在范围(0,10 Myr)上的均匀先验。我们还比较了每个分区内不同站点和替代类型之间的速率变化的两种不同模型,即由数据估计的四种速率类别的GTR+G模型和更简单的Jukes Cantor模型,该模型假设每个分区内替代类型和站点之间没有变化。所有其他先验都设置为默认值。无论是率模型还是先验选择都没有对结果产生定性影响(扩展数据图。10).我们还单独运行编码区域,因为它们翻译正确,因此是高度可靠的站点,并发现当使用较少的站点时,它们给出了相同的中位数和更大的置信区间(扩展数据图)。10).我们运行每个马尔可夫链蒙特卡洛,总共1亿次迭代。在去除前10%的老化后,我们验证了Tracer的收敛性91v1.7.2(迹的明显平稳性,所有参数的有效样本量为> 100)。我们还验证了TreeAnnotator生成的MCC树47将这个古老的序列在系统发育上与pathPhynder62如图扩展数据图所示。9.对于我们的主要结果,我们报告了统一的古代年龄先验,和GTR+G4模型应用到四个分区中的每一个。相关的XML在源数据3中给出。古代的95% HPD为(2.0172,0.6786)桦木属叶绿体序列,中位数估计为1.323 Myr,如图所示。2

报告总结

有关研究设计的进一步资料,请参阅自然组合报告摘要链接到这篇文章。