这个页面已经归档,不再更新

真核基因组的复杂性

:莱斯利·a·祈祷,博士©2008自然教育
引用:祈祷,L。 (2008)真核基因组的复杂性。自然教育 1 (1):96
电子邮件
有多少基因?这个问题非常不重要的,无关与生物体的复杂性。有更多比独自蛋白编码基因的基因组。
Aa Aa Aa

考虑这些基本的事实真核生物的基因组。它是线性通常,相对于圆形DNA细菌细胞。它符合沃森克里克双螺旋结构模型。此外,它是嵌入在nucleosomes-complex dna蛋白质结构,包装在一起,形成染色体。除了这些基本的、普遍的特性,真核基因组的大小和相差悬殊基因计数。即便如此,基因组大小的数量基因出现在一个生物揭示对生物体的复杂性(图1)。

一个双链DNA分子变得越来越更紧凑的包含八个步骤的示意图。在步骤1中,DNA双螺旋一端被描述作为一个水平双链分子。在步骤2到4中,分子的另一端是伤口在布朗盘的1.65倍,代表了核小体。一个文本框在步骤4定义了一个核小体+ H1组蛋白染色体,描述是一个红色的圆柱绑定到外部的螺旋DNA,紧固DNA核小体。在步骤5中,核小体在相互折叠形成一个空洞,管状纤维,许多核小体排列在平行环形成管的外层。在步骤6中,纤维形成波循环,300纳米。300 -纳米纤维看上去就像一个电话绳盘绕。在步骤7中,纤维的循环压缩和折叠在一起。在步骤8中,纤维紧密压缩成一个x染色体。
图1:染色质结构高度复杂和几个层次的组织。
最简单的水平是DNA的双螺旋结构。
©2013自然教育改编自皮尔斯,便雅悯。遗传学:概念的方法,第二版。保留所有权利。视图的使用条款

大小有关系吗?

它有多大?这通常是第一个问题问到一个有机体的基因组。在过去的60年里,科学家们估计超过10000的基因组大小植物,动物,真菌。然而,尽管一个有机体的基因组大小的信息可能是一个不错的起点试图理解遗传内容,或生物体的“复杂性”,这种方式常常掩盖了巨大的真核基因组的复杂性。范Straalen和鲁洛夫•(2006)解释说,“有一个非凡的基因组之间缺乏对应的大小和生物体的复杂性,尤其是在真核生物中。例如,大理石的肺鱼,Protopterus aethiopicus,每40多倍的DNA细胞比人类!”(Figure 2). Indeed, the marbled lungfish has the largest recorded genome of any真核生物。一个单倍体这条鱼的基因组是由高达1328亿个碱基对,而一份人类单倍体基因组只有35亿。(基因组大小通常以皮克(pg),然后转换成核苷酸号码。一个pg相当于约10亿个碱基对)。因此,基因组的大小显然不是一个指标基因组或生物有机体的复杂性。否则,人类将至少尽可能多的DNA的肺鱼,尽管可能更多。

进一步说明,当科学家谈论真核基因组时,他们通常指的是单倍体genome-this的全套DNA在一个单倍体,如精子或。说,人类基因组是约30亿个碱基对(bp)长是一样的说,每组染色体长30亿个基点。事实上,我们每一个二倍体细胞含有两倍数量的碱基对。此外,科学家们通常只指在细胞核的DNA,除非他们国家。然而,所有真核细胞线粒体基因组,也和许多另外包含叶绿体基因组。在人类中,只有大约16500个核苷酸碱基对,线粒体基因组仅部分的长度30亿bp核基因组(安德森,1981)。

有多少蛋白质编码基因在基因组?

有趣的是,同样的“非凡的缺乏对应关系”可以指出当讨论蛋白质编码基因和生物之间的关系的复杂性。例如,科学家估计,人类基因组有大约20000到25000个蛋白编码基因。之前完成的序列草案人类基因组计划2001年,科学家做赌注,有多少基因在人类基因组中。大多数预测都对30000年和100000年之间。没有人指望图低至20000年,尤其是相比等生物体的蛋白质编码基因的数量阴道毛滴虫t .鞘突是一种单细胞寄生生物负责估计每年有1.8亿人类尿道感染。这个小生物功能最多的蛋白质编码基因的真核基因组测序日期:约60000。

事实上,几乎比任何其他生物,人类的25000个蛋白编码基因似乎并不像许多。果蝇黑腹果蝇例如,大约有13000个蛋白编码基因。或者考虑芥菜植物拟南芥“果蝇”的世界中,科学家们使用生物模型为研究植物遗传学。答:芥刚刚大约相同数量的蛋白质编码基因,人类是否略多,约为25500。此外,答:芥有一个最小的基因组在植物世界!似乎很明显,人类会有更多比植物蛋白编码基因,但事实并非如此。这些观察表明有更多的基因组比蛋白编码基因。

如表1所示(改编自范Straalen &鲁洛夫•,2006),之间没有明确的对应关系基因组大小和数量的蛋白质编码genes-another表明基因在真核基因组的数量对有机体的复杂性。蛋白编码基因的数量通常限制在大约25000左右,甚至随着基因组大小的增加。

表1:基因组蛋白质编码基因的大小和数目选择的物种

物种和普通的名字 估计总基因组的大小(bp) * *估计数量的蛋白质编码基因
酿酒酵母(单细胞崭露头角的酵母) 1200万年 6000年
阴道毛滴虫 1.6亿年 60000年
恶性疟原虫(单细胞疟原虫) 2300万年 5000年
秀丽隐杆线虫(线虫) 9550万年 18000年
黑腹果蝇(果蝇) 1.7亿年 14000年
拟南芥(芥末;thale水芹) 1.25亿年 25000年
栽培稻(大米) 4.7亿年 51000年
背带吊裤带(鸡) 10亿年 20000 - 23000
犬属后裔(国内的狗) 24亿年 19000年
亩骶(实验室老鼠) 25亿年 30000年
智人(人类) 29亿年 20000 - 25000

*可能还有其他估计在文献中,但大多数近似估计那些列在这里。

虽然大部分的重点一直放在特别是蛋白质编码基因,科学家们继续完善他们的定义到底是什么基因,部分的实现不仅仅DNA编码蛋白质。例如,在老鼠基因组的一项研究中,科学家发现,60%以上的这25亿个基点基因组转录,但实际上只有不到2%是转化为功能的蛋白质产品(幽灵财团et al。,2005)。然而,在本文中讨论的重点是蛋白质编码基因,除非另有说明。但是请注意,基因组的大部分转录致力于让tRNA,核糖体rna,很多rna参与拼接基因调控

当科学家们几十年来一直在测量基因组大小,他们最近才有技术能力和技术计算基因。估计蛋白质编码基因的数量在一个基因组,科学家通常开始用所谓gene-prediction程序:计算程序,使感兴趣的序列与一个或多个已知的基因序列。其他计算机程序可以预测基因定位通过寻找基因的序列特征,如开放阅读框架内的外显子和CpG岛之内启动子地区。

然而,所有这些计算机程序预测基因的存在。每个预测必须通过实验验证的,例如通过使用微阵列杂交确认预测基因的表示核糖核酸(扬德尔,2005)。迈克尔·布兰特,华盛顿大学的计算机工程教授解释道自然生物技术、基因预测变得更加准确的在过去的几年中(布伦特,2007)。其改进精密为什么估计占人类基因组的基因数量的减少了从45000年大约10年前,文特尔的估计26588年的人类基因组计划完成后,(文特,2001),当前估计的20000年和21000年之间。简而言之,年长的计算方法产生了大量的假阳性,这意味着他们预测蛋白编码基因的存在,实际上并不存在。

超出估计蛋白质编码基因的数量

与基因组大小一样,有更多的蛋白编码基因并不一定转化为更大的复杂性。这是因为真核基因组进化生成生物复杂性的其他方法。的这种复杂性源于基因组如何“表现”,或者更准确地说,是如何不同的基因表达。

可变剪接是第一个现象科学家发现,不能让他们意识到复杂的基因组蛋白质编码基因的数量来评判。在可变剪接,这发生在转录后和之前翻译,内含子和外显子拼接在一起进行删除信使核糖核酸分子。然而,外显子并不一定都以同样的方式拼接在一起。因此,单个基因,或转录单位,可以为多个蛋白质或其他基因产品代码,这取决于外显子拼接在一起。事实上,科学家们估计,可能有多达500000个或更多不同的人类蛋白质编码仅仅20000个蛋白编码基因。

科学家已经遇到其他一些机制,导致真核基因组产生表型复杂性的能力。这些包括RNA编辑,trans-splicing和串联嵌合现象。RNA编辑是一个信使RNA分子的改造后抄写,为例,修改胞嘧啶到一个尿嘧啶之前转换成一个信使rna分子蛋白质。RNA编辑的表型结果基因和物种之间的差异。虽然有时有害的(例如,一些RNA编辑事件联系在一起疾病),这些RNA编辑事件导致轻微的蛋白质结构的变化可以有选择地有利(Reenan, 2005)。Trans-splicing是单独的成绩单的拼接在一起形成一个信使rna分子,而不是可变剪接,外显子剪接在一起从相同的记录。串联嵌合现象发生在相邻的转录单位转录在一起形成一个信使rna分子(Parra“嵌合”et al。,2005)。

再次考虑的60000个蛋白编码基因阴道毛滴虫。如果所有的60000个基因在相同级别的复杂性为20000左右的基因出头鸟年代,那么不应该t .鞘突是一个比它更复杂的生物是什么?事实证明,它的基因不运行在相同级别的复杂性。首先,很少有内含子的基因,这意味着可变剪接不是蛋白质变化的主要来源。相反,科学家怀疑的大量基因,顺便说一下,是10倍他们预计他们会发现他们开始测序项目是由于之前重复(卡尔顿et al。,2007)。换句话说,许多基因的拷贝。此外,约有一半被认为是“伪基因,”或类似的DNA序列功能蛋白编码基因,但失去了蛋白质编码的能力。科学家们仍然不知道为什么t .鞘突基因组有很多基因,包括很多已经基因。

有机体的复杂性是这样的结果比大量的核苷酸组成一个基因组和基因组编码序列的数量。不仅可以一个编码序列编码通过大量的单独的蛋白质产品可变剪接,但许多基因组也丰富非编码RNA序列,协调工作基因表达。当一个结合了这些元素与其他监管元素,如增强剂和促进剂,以及潜在的序列,仍无特征,很明显,虽然大小是有机体的复杂性的一个组成部分,它对这种复杂性的贡献很小。

引用和推荐阅读


安德森,人类线粒体基因组的序列和组织。自然290年457 - 465 (1981)doi: 10.1038 / 290457 a0 (文章链接)

布伦特,m . r .真核基因预测是如何工作的呢?自然生物技术25883 - 885 (2007)doi: 10.1038 / nbt0807 - 883 (文章链接)

卡尔顿,j . M。。草案性传播病原体的基因组序列阴道毛滴虫。科学315年207 - 212 (2007)doi: 10.1126 / science.1132894

幽灵财团,。哺乳动物基因组的转录景观。科学309年1559 - 1563 (2005)doi: 10.1126 / science.1112014

格雷戈里·t·r·序列之间的协同和规模在大规模基因组学。自然遗传学评论6699 - 708 (2005)doi: 10.1038 / nrg1674文章链接)

Parra, G。,。串联嵌合现象作为一种手段,提高蛋白质的复杂性在人类基因组中。基因组研究1637-44 (2005)

Reenan, r .分子决定因素和引导进化的物种特异性RNA编辑。自然434年409 - 413 (2005)doi: 10.1038 / nature03364 (文章链接)

范Straalen:我。&鲁洛夫•D。介绍了生态遗传学(纽约,牛津大学出版社,2006)

文特尔,j . C。人类基因组的序列科学5507年1304 - 1351 (2001)doi: 10.1126 / science.1058040

扬德尔,M。。计算和实验的方法来验证注解和基因预测黑腹果蝇基因组。美国国家科学院院刊》上102年1566 - 1571 (2005)

电子邮件

文章历史

关闭

国旗不合适

此内容目前正在建设。

连接
连接 发送消息


Scitable自然教育 自然教育的家庭了解更多关于教师页面学生页面反馈



核酸的结构和功能

视觉浏览

关闭
Baidu
map