这个页面已经归档,不再更新

遗传学和统计分析

由:英格丽Lobo博士(写科学)©2008自然教育
引用:洛沃,我。 (2008)遗传学和统计分析。自然教育 1 (1):109
电子邮件
“意义”有一个非常特殊的生物学意义由于统计数据。这个词如何证明一个实验的结果是值得特别关注?
Aa Aa Aa

一旦完成一个实验,你怎么能知道你的结果是显著的吗?例如,假设你执行遗传交叉你知道父母的基因型。在这种情况下,你可能会假设十字架将导致一定比例的表型后代。但如果你观察到的结果不完全匹配你的期望?你怎么判断这个偏差是由于机会吗?回答这些问题的关键是使用统计数据,它允许您确定您的数据是否符合您的假设。

形成和测试一个假设

任何科学家所做的第一件事在执行一个实验之前形成一个假设是关于实验的结果。这通常需要的形式零假设,这是一个统计假设州不会有观察和预期的数据之间的差异。科学家提出的零假设是在完成一个实验,它可以支持的数据或反驳了,取而代之的是另一种假说。

让我们考虑一些示例使用零假设的遗传学实验。记住,孟德尔遗传处理特征表明不连续变化,这意味着表型分为不同的类别。因此,在孟德尔遗传交叉,零假设通常是一个外在的假设;换句话说,预期的比例可以预测和计算实验开始前。那么可以设计一个实验来确定数据确认或拒绝的假设。另一方面,在另一个实验中,你可能会假设2基因是有联系的。这叫做一个固有的假设,这是一个假设,预期的比例计算实验完成后使用一些信息从实验数据(麦当劳,2008)。

数学与生物学如何

但数学和基因是如何通过使用有关假设和统计分析?这个过程的关键人物是卡尔·皮尔森,一个世纪之交的数学家着迷于生物学。当被问及他最初的记忆是,皮尔森回应说,“好吧,我不知道我是多么老,但我坐在高椅子上,我吮吸拇指。停止吸吮它,有人告诉我说,如果我这样做,拇指会枯萎。我把两个大拇指在一起,看着他们很长一段时间。“他们对我看起来很相像,”我对自己说,“我不能再看到我吸拇指是小于。我想知道她可能对我撒谎”(沃克,1958)。这个故事说明了,皮尔森可能是天生的科学家。他是一个敏锐的观察者和意图解释自己的数据。在他的职业生涯中,皮尔森开发统计理论和应用生物数据的探索。 His innovations were not well received, however, and he faced an arduous struggle in convincing other scientists to accept the idea that mathematics should be applied to biology. For instance, during Pearson's time, the Royal Society, which is the United Kingdom's academy of science, would accept papers that concerned要么数学生物,但它比担心拒绝接受文件这两个主题(沃克,1958)。作为回应,皮尔森,以及弗朗西斯·高尔顿和w·f·r·韦尔登创立一个新的杂志生物统计学1901年推动遗传数据的统计分析。皮尔森的坚持得到了回报。今天,为研究生物数据统计测试是必不可少的。

皮尔逊卡方拟合优度检验

皮尔森的最重要的成就之一,发生在1900年,当他了统计检验叫皮尔逊卡方(Χ2)测试,也称为卡方拟合优度检验(皮尔森,1900)。皮尔逊卡方检验是用于检查机会生产的作用观察和预期值之间的偏差。测试取决于一个外在的假设,因为它需要计算理论预期值。测试表明概率这个机会单独产生预期和观测值之间的偏差(皮尔斯,2005)。当计算皮尔逊卡方检验的概率高,假设机会单独产生差异。相反,当概率很低,人们认为机会产生偏差以外的一个重要因素。

1912年,亚瑟j·哈里斯皮尔逊卡方测试应用于检查孟德尔比率(哈里斯,1912)。重要的是要注意,当孟德尔研究继承,他没有使用统计数据,和贝特森也没有,桑德斯,庞尼特,摩根在他们的实验,发现了基因链接。因此,直到皮尔森的统计测试应用于生物数据,科学家们认为拟合优度理论与观察实验结果简单地通过检查数据和结论(哈里斯,1912)。虽然这个方法可以完美的工作如果一个一个的数据完全匹配的预测,科学实验经常具有与其相关联的变化,这使得统计测试非常有用。

卡方值计算使用以下公式:


使用这个公式,区别每个实验的观察和期望频率计算结果的类别。不同的是平方,除以预期频率。最后,每个结果总结在一起,卡方值所代表的求和符号(Σ)。

皮尔逊卡方检验的工作与基因数据,只要在每个小组有足够的预期值。在小样本的情况下(小于10在任何一类),1个自由度,测试是不可靠的。(自由度、df将解释在本文后面。)然而,在这种情况下,测试可以纠正使用耶茨连续性校正,从而降低每个差异的绝对值平方前观察和期望频率0.5。此外,重要的是要记住,卡方检验只能应用于数字后代,不要比例或百分比。

现在你知道使用测试的规则,它的时间来考虑如何计算皮尔逊卡方的一个例子。回想一下,当孟德尔越过他的豌豆植物时,他得知高(T)占主导地位的短(t)。你想要确认这是正确的,所以你先制定以下零假设:在一个介于两个杂合子(Tt)植物,后代应该发生在一个3:1的比例高植物矮的植物。接下来,您穿过植物,在十字架之后,你测量的特点,400年的后代。你注意到有305高豌豆植物和95短豌豆植物;这些是你的观察到的值。与此同时,你预计300年将会有高的植物和100短植物从孟德尔式比例。

现在可以执行的统计分析结果,但是首先,你必须选择一个临界值,拒绝零假设。你选择一个临界值的概率0.01(1%),观察和预期值之间的偏差是由于机会。这意味着如果概率小于0.01,则偏差是重要的,而不是由于机会,你将拒绝零假设。然而,如果偏差大于0.01,则偏差并不重要,你不会拒绝零假设。

所以,你应该拒绝零假设或不呢?这是一个总结你的观察和预期的数据:

预期 300年 One hundred.
观察到的 305年 95年

现在,让我们来计算皮尔逊卡方:

  • 高大的植物:Χ2= (305 - 300)2/ 300 = 0.08
  • 短的植物:Χ2= (95 - 100)2/ 100 = 0.25
  • 两类之和为0.08 + 0.25 = 0.33
  • 因此,总体是Χ皮尔逊卡方的实验2= 0.33

接下来,你确定的概率与卡方值计算。要做到这一点,你把你在卡方表卡方值与理论计算值具有相同数量的自由度。自由度的数量代表的方式观察到的结果分类可以自由变化。皮尔逊卡方检验,自由度是相等的n- 1,n代表了许多不同的预期表型(皮尔斯,2005)。在你的实验中,有两个女人预期的结果表型(高和矮)n= 2大类,自由度等于2 - 1 = 1。因此,与你计算卡方值(0.33)和相关的自由度(1),您可以确定的概率使用卡方检验表(表1)。

表1:卡方检验表

自由度

(df)

概率(P)
0.995 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01 0.005
1 推荐- - - - - - 推荐- - - - - - 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 7.042 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582
20. 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.993
29日 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.336
30. 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766
50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490
60 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952
70年 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.425 104.215
80年 51.172 53.540 57.153 60.391 64.278 96.578 101.879 106.629 112.329 116.321
90年 59.196 61.754 65.647 69.126 73.291 107.565 113.145 118.136 124.116 128.299
One hundred. 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.169

不重要

&不拒绝假说

重要的

&拒绝假说

(表改编自琼斯,2008)

注意,表卡方组织与自由度(df)在左列和概率(P)。卡方值的概率是中心的表。确定的概率,首先定位自由度的连续实验,确定计算卡方值会被放置在理论值在相应的行。

一开始你的实验,你决定,如果概率小于0.01,你会拒绝零假设,因为偏差,不是因为机会都是很重要的。现在,看着行对应于1自由度,你看到,计算卡方值为0.33时介于0.016,相关的概率为0.9,2.706,0.10的概率。因此,有10%至90%的概率之间的偏差,你观察到你的预期和观察到的数字高和矮的植物是由于机会。换句话说,与卡方值相关的概率远远大于0.01的临界值。这意味着我们不会拒绝零假设,以及观察到的和预期结果之间的偏差并不重要。

显著性水平

决定是否接受或拒绝一个假设是由实验者决定的,是谁的人选择了“显著性水准”或信心。科学家们通常使用0.05、0.01或0.001概率水平,截止值。例如,在实验的例子中,您使用了0.01的概率。因此,P≥0.01可以被解释为意味着机会可能引起的观测值与预期值之间的偏差(即超过1%概率有可能解释了数据)。如果相反,我们观察到P≤0.01,这就意味着有概率小于1%,我们的数据可以解释为机会。之间有显著差异我们的预期和观察结果,所以造成的偏差必须之外的东西的机会。

引用和推荐阅读


哈里斯,j . A .一个简单的测试拟合优度的孟德尔比率。美国博物学家46741 - 745 (1912)

琼斯,J。“表:卡方概率。”http://people.richland.edu/james/lecture/m170/tbl-chi.html(2008)(2008年7月7日通过)

麦当劳,j·h·卡方拟合优度检验。从生物统计的手册。http://udel.edu/ ~麦当劳/ statchigof.html(2008)(2008年6月9日通过)

k·皮尔逊在给定系统的标准偏差的可能相关的系统变量,这样它可以合理地从随机抽样应该出现。哲学杂志50157 - 175 (1900)

皮尔斯,B。遗传学:概念的方法弗里曼(纽约,2005)

沃克,h . m .卡尔·皮尔森的贡献。美国统计协会杂志》上53时间为,月11日至22日(1958)

电子邮件

文章历史

关闭

国旗不合适

此内容目前正在建设。

连接
连接 发送消息


Scitable自然教育 自然教育的家庭了解更多关于教师页面学生页面反馈



基因继承和传播

视觉浏览

关闭
Baidu
map