遗传学和统计分析

引用:洛沃,我。 (2008)遗传学和统计分析。自然教育 1 (1):109

“意义”有一个非常特殊的生物学意义由于统计数据。这个词如何证明一个实验的结果是值得特别关注?

Aa Aa Aa

一旦完成一个实验,你怎么能知道你的结果是显著的吗?例如,假设你执行遗传交叉你知道父母的基因型。在这种情况下,你可能会假设十字架将导致一定比例的表型后代。但如果你观察到的结果不完全匹配你的期望?你怎么判断这个偏差是由于机会吗?回答这些问题的关键是使用统计数据,它允许您确定您的数据是否符合您的假设。

形成和测试一个假设

任何科学家所做的第一件事在执行一个实验之前形成一个假设是关于实验的结果。这通常需要的形式零假设,这是一个统计假设州不会有观察和预期的数据之间的差异。科学家提出的零假设是在完成一个实验,它可以支持的数据或反驳了,取而代之的是另一种假说。

让我们考虑一些示例使用零假设的遗传学实验。记住,孟德尔遗传处理特征表明不连续变化,这意味着表型分为不同的类别。因此,在孟德尔遗传交叉,零假设通常是一个外在的假设;换句话说,预期的比例可以预测和计算实验开始前。那么可以设计一个实验来确定数据确认或拒绝的假设。另一方面,在另一个实验中,你可能会假设2基因是有联系的。这叫做一个固有的假设,这是一个假设,预期的比例计算实验完成后使用一些信息从实验数据(麦当劳,2008)。

数学与生物学如何

但数学和基因是如何通过使用有关假设和统计分析?这个过程的关键人物是卡尔·皮尔森,一个世纪之交的数学家着迷于生物学。当被问及他最初的记忆是,皮尔森回应说,“好吧,我不知道我是多么老,但我坐在高椅子上,我吮吸拇指。停止吸吮它,有人告诉我说,如果我这样做,拇指会枯萎。我把两个大拇指在一起,看着他们很长一段时间。“他们对我看起来很相像,”我对自己说,“我不能再看到我吸拇指是小于。我想知道她可能对我撒谎”(沃克,1958)。这个故事说明了,皮尔森可能是天生的科学家。他是一个敏锐的观察者和意图解释自己的数据。在他的职业生涯中,皮尔森开发统计理论和应用生物数据的探索。 His innovations were not well received, however, and he faced an arduous struggle in convincing other scientists to accept the idea that mathematics should be applied to biology. For instance, during Pearson's time, the Royal Society, which is the United Kingdom's academy of science, would accept papers that concerned要么数学或生物,但它比担心拒绝接受文件这两个主题(沃克,1958)。作为回应,皮尔森,以及弗朗西斯·高尔顿和w·f·r·韦尔登创立一个新的杂志生物统计学1901年推动遗传数据的统计分析。皮尔森的坚持得到了回报。今天,为研究生物数据统计测试是必不可少的。

皮尔逊卡方拟合优度检验

皮尔森的最重要的成就之一,发生在1900年,当他了统计检验叫皮尔逊卡方(Χ²)测试,也称为卡方拟合优度检验(皮尔森,1900)。皮尔逊卡方检验是用于检查机会生产的作用观察和预期值之间的偏差。测试取决于一个外在的假设,因为它需要计算理论预期值。测试表明概率这个机会单独产生预期和观测值之间的偏差(皮尔斯,2005)。当计算皮尔逊卡方检验的概率高,假设机会单独产生差异。相反,当概率很低,人们认为机会产生偏差以外的一个重要因素。

1912年,亚瑟j·哈里斯皮尔逊卡方测试应用于检查孟德尔比率(哈里斯,1912)。重要的是要注意,当孟德尔研究继承,他没有使用统计数据,和贝特森也没有,桑德斯,庞尼特,摩根在他们的实验,发现了基因链接。因此,直到皮尔森的统计测试应用于生物数据,科学家们认为拟合优度理论与观察实验结果简单地通过检查数据和结论(哈里斯,1912)。虽然这个方法可以完美的工作如果一个一个的数据完全匹配的预测,科学实验经常具有与其相关联的变化,这使得统计测试非常有用。

卡方值计算使用以下公式:

使用这个公式,区别每个实验的观察和期望频率计算结果的类别。不同的是平方,除以预期频率。最后,每个结果总结在一起,卡方值所代表的求和符号(Σ)。

皮尔逊卡方检验的工作与基因数据,只要在每个小组有足够的预期值。在小样本的情况下(小于10在任何一类),1个自由度,测试是不可靠的。(自由度、df将解释在本文后面。)然而,在这种情况下,测试可以纠正使用耶茨连续性校正,从而降低每个差异的绝对值平方前观察和期望频率0.5。此外,重要的是要记住,卡方检验只能应用于数字后代,不要比例或百分比。

现在你知道使用测试的规则,它的时间来考虑如何计算皮尔逊卡方的一个例子。回想一下,当孟德尔越过他的豌豆植物时,他得知高(T)占主导地位的短(t)。你想要确认这是正确的,所以你先制定以下零假设:在一个介于两个杂合子(Tt)植物,后代应该发生在一个3:1的比例高植物矮的植物。接下来,您穿过植物,在十字架之后,你测量的特点,400年的后代。你注意到有305高豌豆植物和95短豌豆植物;这些是你的观察到的值。与此同时,你预计300年将会有高的植物和100短植物从孟德尔式比例。

现在可以执行的统计分析结果,但是首先,你必须选择一个临界值,拒绝零假设。你选择一个临界值的概率0.01(1%),观察和预期值之间的偏差是由于机会。这意味着如果概率小于0.01,则偏差是重要的,而不是由于机会,你将拒绝零假设。然而,如果偏差大于0.01,则偏差并不重要,你不会拒绝零假设。

所以,你应该拒绝零假设或不呢?这是一个总结你的观察和预期的数据:

	高	短
预期	300年	One hundred.
观察到的	305年	95年

现在,让我们来计算皮尔逊卡方:

高大的植物:Χ²= (305 - 300)²/ 300 = 0.08
短的植物:Χ²= (95 - 100)²/ 100 = 0.25
两类之和为0.08 + 0.25 = 0.33
因此,总体是Χ皮尔逊卡方的实验²= 0.33

接下来,你确定的概率与卡方值计算。要做到这一点,你把你在卡方表卡方值与理论计算值具有相同数量的自由度。自由度的数量代表的方式观察到的结果分类可以自由变化。皮尔逊卡方检验,自由度是相等的n- 1,n代表了许多不同的预期表型(皮尔斯,2005)。在你的实验中,有两个女人预期的结果表型(高和矮)n= 2大类,自由度等于2 - 1 = 1。因此,与你计算卡方值(0.33)和相关的自由度(1),您可以确定的概率使用卡方检验表(表1)。

表1:卡方检验表

自由度 (df)	概率(P)
自由度 (df)	0.995	0.99	0.975	0.95	0.90	0.10	0.05	0.025	0.01	0.005
1	推荐- - - - - -	推荐- - - - - -	0.001	0.004	0.016	2.706	3.841	5.024	6.635	7.879
2	0.010	0.020	0.051	0.103	0.211	4.605	5.991	7.378	9.210	10.597
3	0.072	0.115	0.216	0.352	0.584	6.251	7.815	9.348	11.345	12.838
4	0.207	0.297	0.484	0.711	1.064	7.779	9.488	11.143	13.277	14.860
5	0.412	0.554	0.831	1.145	1.610	9.236	11.070	12.833	15.086	16.750
6	0.676	0.872	1.237	1.635	2.204	10.645	12.592	14.449	16.812	18.548
7	0.989	1.239	1.690	2.167	2.833	12.017	14.067	16.013	18.475	20.278
8	1.344	1.646	2.180	2.733	3.490	13.362	15.507	17.535	20.090	21.955
9	1.735	2.088	2.700	3.325	4.168	14.684	16.919	19.023	21.666	23.589
10	2.156	2.558	3.247	3.940	4.865	15.987	18.307	20.483	23.209	25.188
11	2.603	3.053	3.816	4.575	5.578	17.275	19.675	21.920	24.725	26.757
12	3.074	3.571	4.404	5.226	6.304	18.549	21.026	23.337	26.217	28.300
13	3.565	4.107	5.009	5.892	7.042	19.812	22.362	24.736	27.688	29.819
14	4.075	4.660	5.629	6.571	7.790	21.064	23.685	26.119	29.141	31.319
15	4.601	5.229	6.262	7.261	8.547	22.307	24.996	27.488	30.578	32.801
16	5.142	5.812	6.908	7.962	9.312	23.542	26.296	28.845	32.000	34.267
17	5.697	6.408	7.564	8.672	10.085	24.769	27.587	30.191	33.409	35.718
18	6.265	7.015	8.231	9.390	10.865	25.989	28.869	31.526	34.805	37.156
19	6.844	7.633	8.907	10.117	11.651	27.204	30.144	32.852	36.191	38.582
20.	7.434	8.260	9.591	10.851	12.443	28.412	31.410	34.170	37.566	39.997
21	8.034	8.897	10.283	11.591	13.240	29.615	32.671	35.479	38.932	41.401
22	8.643	9.542	10.982	12.338	14.041	30.813	33.924	36.781	40.289	42.796
23	9.260	10.196	11.689	13.091	14.848	32.007	35.172	38.076	41.638	44.181
24	9.886	10.856	12.401	13.848	15.659	33.196	36.415	39.364	42.980	45.559
25	10.520	11.524	13.120	14.611	16.473	34.382	37.652	40.646	44.314	46.928
26	11.160	12.198	13.844	15.379	17.292	35.563	38.885	41.923	45.642	48.290
27	11.808	12.879	14.573	16.151	18.114	36.741	40.113	43.195	46.963	49.645
28	12.461	13.565	15.308	16.928	18.939	37.916	41.337	44.461	48.278	50.993
29日	13.121	14.256	16.047	17.708	19.768	39.087	42.557	45.722	49.588	52.336
30.	13.787	14.953	16.791	18.493	20.599	40.256	43.773	46.979	50.892	53.672
40	20.707	22.164	24.433	26.509	29.051	51.805	55.758	59.342	63.691	66.766
50	27.991	29.707	32.357	34.764	37.689	63.167	67.505	71.420	76.154	79.490
60	35.534	37.485	40.482	43.188	46.459	74.397	79.082	83.298	88.379	91.952
70年	43.275	45.442	48.758	51.739	55.329	85.527	90.531	95.023	100.425	104.215
80年	51.172	53.540	57.153	60.391	64.278	96.578	101.879	106.629	112.329	116.321
90年	59.196	61.754	65.647	69.126	73.291	107.565	113.145	118.136	124.116	128.299
One hundred.	67.328	70.065	74.222	77.929	82.358	118.498	124.342	129.561	135.807	140.169
	不重要 &不拒绝假说								重要的 &拒绝假说

(表改编自琼斯,2008)

注意,表卡方组织与自由度(df)在左列和概率(P)。卡方值的概率是中心的表。确定的概率,首先定位自由度的连续实验,确定计算卡方值会被放置在理论值在相应的行。

一开始你的实验,你决定,如果概率小于0.01,你会拒绝零假设,因为偏差,不是因为机会都是很重要的。现在,看着行对应于1自由度,你看到,计算卡方值为0.33时介于0.016,相关的概率为0.9,2.706,0.10的概率。因此,有10%至90%的概率之间的偏差,你观察到你的预期和观察到的数字高和矮的植物是由于机会。换句话说,与卡方值相关的概率远远大于0.01的临界值。这意味着我们不会拒绝零假设,以及观察到的和预期结果之间的偏差并不重要。

显著性水平

决定是否接受或拒绝一个假设是由实验者决定的,是谁的人选择了“显著性水准”或信心。科学家们通常使用0.05、0.01或0.001概率水平,截止值。例如,在实验的例子中,您使用了0.01的概率。因此,P≥0.01可以被解释为意味着机会可能引起的观测值与预期值之间的偏差(即超过1%概率有可能解释了数据)。如果相反,我们观察到P≤0.01,这就意味着有概率小于1%,我们的数据可以解释为机会。之间有显著差异我们的预期和观察结果,所以造成的偏差必须之外的东西的机会。