回复F. M.麦卡锡等。自然https://doi.org/10.1038/s41586-022-05633-w(2023)

在此,我们对麦卡锡等人在附文评论中提出的问题作出答复1关于我们的建议2基于进化的脊椎动物催产素和血管催产素配体和受体家族的通用命名法,以及考虑基于同源的基因命名法的原则。我们用额外的证据加强了我们的主张,并提出了基于证据的同源基因命名标准,按照以下可靠性顺序:同构性、系统发育推断、序列同一性和基因功能。我们认为,基因命名委员会和产生高质量集合的倡议在一个通用基因命名委员会中联合力量的时机已经成熟。

我们提出的通用基因命名法(即命名法)用于催产素和血管催产素配体和受体2基于几个标准,包括基因同向性,系统发育,身份和功能,并提供了一个适用于跨基因家族的案例研究。麦卡锡等人。1认为一个标准化的命名系统已经存在,“30年前首次在脊椎动物中建立”,这个基因家族只需要细微的改变,重点是传统、名称稳定性、系统发育、身份和基因功能,并根据具体情况确定证据的优先顺序。我们不同意这两种说法,特别是因为在最近高质量基因组的可用性之前,确定基因orthology是不完全可能的。下面,我们将讨论我们建议应该应用于基因家族和未来计划的原则。在补充信息,我们对麦卡锡等人提出的基因特异性主张作出回应。1

我们的研究中2对于每一种催产素和血管催产素配体和受体,我们列出了两到六个常用的别名(Theofanopoulou et al.的表1)。2).其中许多反映了不正确的矫形学或谬误,表明在我们的研究之前没有一个普遍使用的标准,也没有一个充分描述基因矫形学的标准。我们看到的脊椎动物基因命名法,麦卡锡等。1在他们的表1中作为新提议的“批准”。他们采用了哺乳动物最常见的基因名称,根据我们的研究对其中一些基因名称和其他基因名称进行了修改,并尽可能将它们应用于所有其他脊椎动物(补充说明)1).其他的别名都没有列出,这使得跨物种和跨文献的发现翻译变得困难。此外,在他们新提出的命名法中,传统取代了矫形学和谬误学。例如,他们为基因催产素和血管催产素保留了截然不同的名称,这并不符合他们的谬误(即催产素和精氨酸加压素);对于没有精氨酸氨基酸的物种,他们把名字改为另一个别名(抗利尿激素),但仍然是缩写, avon.我们认为允许传统和稳定性凌驾于矫形学和谬误学的命名规则可能会导致混乱。

然而,我们相信同时考虑传统和矫形学/谬误学是可能的。例如,因为血管催产素是进化上更古老的基因,催产素是由它的局部复制产生的2如果我们严格按照进化命名,我们会把催产素重命名为“血管催产素1”,把催产素重命名为“血管催产素2”。但是为了保留一些传统用法的连续性,我们建议用“vaso催产素”来表示加压素,以反映“催产素”的结尾。在制定这一建议时,我们咨询了我们认可的专家2,以及与Ensembl注释团队的领导者。

重视准确性而非传统也有一些缺点。也许最大的努力将是确保以前的出版物和带有新命名法的注释基因组之间的连续性。为了缓解这一问题,我们建议建立一个从旧基因名到修订基因名的翻译表(例如,Theofanopoulou等人的表1)。2),这些数据将在国家生物技术信息中心等平台上提供。目前的委员会已经使用了这样的表格,但他们建立命名变化的做法要么与我们建议的不同,要么彼此不一致(补充说明)2- - - - - -4).

麦卡锡等人。1也批评我们提议的催产素和血管催产素的两个字母符号(而且VT),因为与三个字母的符号相比,它们在文献搜索中会给出更广泛的结果(例如OXT而且AVP).我们同意并进一步认为,三个字母的符号仍然可以反映一种基于进化的命名法;例如,场外(催产素)和职业训练局(催产素)。我们还建议在字母大写时采用跨物种的基因符号一致性。目前的景观,只有一些哺乳动物和鸟类的基因符号是大写的,老鼠和大鼠的符号是小写的,除了首字母大写,两栖动物和鱼类物种都是小写的,并没有描绘出这些基因的真正orthology,并延续了人类中心主义的做法。在我们的通用命名法提案中2,我们建议跨物种的基因符号应该大写。

我们同意麦卡锡等人的观点。1对名称修改而言,利大于弊。我们相信“名字对我们所做的实验和我们思考的方式有强大的影响”。3.,因此,重要的是,名字不要引起错误的期望。例如,催产素与“后叶加压素”受体的结合经常被认为是令人惊讶的——一些可以用反映它们共同起源的名字(-催产素)来避免的事情。这些知识对医学也很有用,这样医生就能更好地了解两个受体家族之间的药物相互作用。类似地,在其他基因家族中,McCarthy等人。1认可在不同物种间具有不同功能的同源基因中不同的命名法。例如,CSAD除了鸡,其他物种的基因都命名为“半胱氨酸亚磺酸脱羧酶”,在鸡中称为“半胱氨酸亚磺酸脱羧酶”。如果序列和/或功能改变被常规用于改变基因名称,那么几乎所有的同源基因在不同物种之间都会有不同的名称。

麦卡锡等人。1决定不建议关于哪些因素应该比其他因素更重要的笼统“规则”,因为每个情况都会因上下文而异。根据我们的经验,并非所有的证据都有同等的分量。例如,麦卡锡等人。1没有接受我们的命名法,部分原因是缺乏序列标识解析(基本局部对齐搜索工具(BLAST)分析)。然而,序列同一性百分比并不总是为基因命名提供坚实的基础,因为同源同位基因可能误导地与副同源基因具有更高的序列同一性(Theofanopoulou等人的补充表12)。2).此外,McCarthy等。1提出了一个氨基酸的系统发育是不够结论性的,我们的一些解释。然而,我们展示了2氨基酸系统发生在某些分支上具有较低的自举支持,而外显子核苷酸系统发生产生了较高的分辨率,这支持了我们的结论(Theofanopoulou等人的图4。2).自我们最初发表以来,脊椎动物基因组计划(VGP)产生了更多高质量的基因组组合,我们进行了一个新的外显子系统发育,这更有力地支持了我们的结论(图2)。1及补充说明3.而且4).

图1:编码催产素和抗利尿激素受体的基因家谱。
图1

树拓扑推断与系统发育最大似然方法外显子核苷酸比对(MAFFT),与1000个非参数bootstrap重复(智力树)。引导值在分支点上以百分比的形式显示。这棵树是用泥土扎下的根录像机文昌鱼的基因。当前种质的基因名称(见Theofanopoulou et al的表1)。2和Theofanopoulou等人的补充表4a-e。2对于同义词的完整列表)被写过根据我们修订的同音和系统发育为基础的orthology。所有使用的序列,FASTA对齐和Newick树文件可以在这里访问https://github.com/constantinatheo/universalnomenclature/.比例尺,0.62次替换。关于交换的讨论VTR2A而且VTR2C命名参见补充说明3.

我们发现24在大多数情况下,基于同构的方法为基因正畸和谬误提供了最好的解决方案,从而为基因命名。在任何可能的情况下,我们建议使用高度连续的染色体尺度基因组,并具有较高的基础调用精度2.当同步性不明确时,我们建议优先考虑具有相同基因组质量先决条件的核苷酸系统发育推断。在扩展数据图。1及补充说明5,我们就同步性和系统发育分析的推荐实践提供了具体的建议和注意事项。我们认为,同向性和高度支持的系统发育的结合是一个通用的基因命名法的支柱。

根据人类基因命名指南5在美国,当旧的命名法“具有误导性……时,旨在修改命名法的举措受到欢迎”。我们同意这种做法。然而,我们认为用于批准这些修订的程序应该采取与麦卡锡等人提出的不同的方法。1我们认为期刊编辑不应该要求“科学家一贯使用认可的命名法”。1一个有限的委员会。相反,我们认为,根据新的证据,它们应该允许新的用途(见扩展数据图中的检查表)。1).

此外,目前的命名委员会只关注现存7万种脊椎动物中的0.01%,它们的基因组组合更加分散,我们认为它们的传统需要重新考虑。尽管麦卡锡等人所附评论的一些作者。1是最近成立的脊椎动物基因命名委员会(VGNC)的一部分,在他们的数据库(https://vertebrate.genenames.org/)在撰写本文时(2022年11月19日),文献中没有包含使用的基因别名(与Theofanopoulou等人的表1相比)。2).

VGP生成的高质量基因组(https://vertebrategenomesproject.org/)及相关计划,例如地球生物基因组计划(https://www.earthbiogenome.org/67极大地提高了基因同源学的鉴定,从而提高了基因注释,为大多数基因建立一个通用的命名法带来了机会。我们在这些项目中的经验是,现有的基因注释和命名体在他们的方法上还不协调或一致。我们设想了一个通用的基因命名委员会,包括从事测序、组装、注释、系统发育和基因组进化以及所有生命的各自谱系和基因研究的科学家。

一个可能的组织原则是,为每个主要谱系(例如,环口动物)创建一个委员会,将这些委员会归类为一个更大的委员会下的小组委员会(例如,所有脊椎动物物种),将所有这些委员会归类为一个动物王国的所有物种(例如,真核生物物种),然后将所有这些委员会归类为所有生命。我们认为,这样的努力很可能需要改变基础设施(例如,委员会和发表政策)和系统运行的方式(例如,高质量基因组、共时性和系统发育)。

报告总结

有关研究设计的进一步资料,请参阅自然组合报告摘要链接到这篇文章。