高级生物统计基本知识课件.ppt

资源ID：1478836 资源大小：5.91MB 全文页数：170页
资源格式： PPT 下载积分：16金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要16金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

高级生物统计基本知识课件.ppt

高级生物统计学,第三章多年多点试验结果的联合分析,第一章单个自由度比较分析,第二章裂区试验设计及其统计分析,第四章曲线回归分析,第五章多元回归分析,第六章协方差分析,第七章一次回归正交设计及其统计分析,生物统计学基本知识回顾,第八章二次回归正交设计及其统计分析,第九章二次旋转设计及其统计分析,基本知识回顾,第三节生物统计学的基本方法,第一节生物统计学的基本概念,第四节田间试验及设计方法,第二节生物统计学的基本原理,第五节方差分析,第六节直线回归分析,生物统计学及其特点,生物统计学（Biometry or Bio-statistics）是数学中的概率论与数理统计学在生物科学中的应用而形成的一门系统性学科。,统计学,理论统计学即数理统计学,应用统计学,社会科学领域的统计学,自然科学领域的统计学,1.逻辑性较强；,2.假设较多，比较抽象；,3.统计方法的分析过程复杂；,4.规律性较强；,5.分析方法的分析步骤不具灵活性。,其特点:,第一节生物统计学的基本概念,1.数据（data）在科学试验或调查过程中，对研究对象的某些特征、特性进行观察记载得到的数字资料的总称。数据具有变异性和趋中性。,2.变数（variable）生物个体具有变异性的特征、特性。变数的某一具体数值称为变量（variate）或观测值（observed value）。连续性变数（continuous variable）是指观测值在一定范围内可以取任何一个数值，这些观测值一般是通过测量或称量的方法获得的。离散性变数(discontinuous or discrete variable）是指观测值只能取0或正整数的变数，其观测值一般通过观察和计数的方法获得的。,第一节生物统计学的基本概念,3.总体（population or universe）根据研究目的而确定的，具有共同性质的个体所组成的集团，或者说是整个研究对象中每个个体某一变数所有观测值的总称。,5.样本（sample）从总体中抽出一部分有代表性的个体或观测值。,4.总体的参数或参量（parameter) 根据总体全体观测值算出的总体特征数。常用希腊字母表示。如总体平均数，方差2，标准差等。,6.统计数或统计量（statastic）根据样本所有观测值计算出的样本特征数。常用英文字母表示。例如样本平均数，方差S2，标准差S等。,第一节生物统计学的基本概念,算术平均数:,7.平均数（average or mean）是数据的代表值，表示资料中观测值的中心位置。,中(位)数（median）:,众数（mode）:,几何平均数（geometric mean）:,所有观测值的总和除以观测值数目所得的商。,将资料所有观测值排序后，居于中间位置的那个观测值的值（或，当观测值数目为偶数时，那两个观测值的和之半)。,资料中最常见的一数，或次数分布表中次数最多的那组的组中值。,n个观测值的乘积的n次方根。,其中以算术平均数最为常用。,第一节生物统计学的基本概念,极差（range) 一组数据的最大值与最小值之差。,8.变异数表示数据资料变异大小的数值。,离均差平方和简称平方和(sum of squares，SS) 可较好地衡量资料的变异。定义公式：计算公式: 其中C为矫正数，为资料中所有观测值总和的平方除以观测值的个数。,第一节生物统计学的基本概念,8.变异数表示数据资料变异大小的数值。,方差(variance)是平方和除以观测值的个数。,总体方差（population variance):,样本方差（sample variance):,分类资料:,分类资料:,第一节生物统计学的基本概念,8.变异数表示数据资料变异大小的数值。,标准差(standard deviation)是方差的正根值。,总体标准差（Population SD):,样本标准差（Sample SD):,变异系数(Coefficient of Variation,记为C.V. )是指资料的标准差与平均数之比。即：,不可能事件,第二节生物统计学的基本原理,随机事件,事件,概率,必然事件,某事件出现的概率用P( )表示；例如P(A)、 P(B)等。,概率的有效范围为01，即0P(A)1。,必然事件记为，其概率为1，即 P() = 1。,不可能事件记为，其概率为0，即 P() = 0。,随机事件的概率在01之间，即0P(A)1。,1.事件(event)与概率(probability),第二节生物统计学的基本原理,事件间的关系,和事件,积事件,互斥事件,对立事件,事件系,事件的独立性,完全事件系,完全互斥事件系,第二节生物统计学的基本原理,计算事件概率的法则,互斥事件的加法定律,可以引伸到：n 个两两互斥的事件的概率等于这 n 个事件的概率之和。,即：如果AB=，则P(A+B)=P(A)+P(B)。,即：如果AiAj=，则P(Ai)=P(Ai)。,第二节生物统计学的基本原理,计算事件概率的法则,互斥事件的加法定律,独立事件的乘法定律,可以引伸到：n 个相互独立的事件同时发生概率等于这 n 个事件各自发生的概率之乘积。,即：P(AB)=P(A)P(B)。,完全互斥事件系的概率之和为1。,即，如果AiAj=同时A1+A2+An=，则P(Ai)=1。,第二节生物统计学的基本原理,2.二项分布(binomial distribution):由对立事件构成的总体称为二项总体（binomial population）,二项总体观测值的概率分布即为二项分布。,若某事件出现的概率为p，其对立事件出现的概率为q=1-p，做n次重复独立试验，该事件出现X次的可能性(概率)有多大？现在是：n=2，p=3/4，q=1/4，X可以为0，1，2。P(X=0)=(1)(1/4)(1/4)=(1) (3/4)0(1/4)2=(1) p0q2-0P(X=1)=(2)(3/4)(1/4)=(2) (3/4)1(1/4)1=(2) p1q2-1P(X=2)=(1)(3/4)(3/4)=(1) (3/4)2(1/4)0=(1) p2q2-2其中系数为在n个中取X个进行组合的数目。,所以，概率分布函数为：,第二节生物统计学的基本原理,比较下面两个概率分布图，会发现二项分布的形状是由n和p两个参数决定的。当 p = q = 0.5 时，分布是对称的；当 p q 时，分布就不对称； p和q差异越大，分布就越偏斜。,第二节生物统计学的基本原理,利用概率分布表，可以计算出随机变量 X的总体平均数和总体方差 2。,对数列求和得 X的总体均数为：,同法求得 X 的总体方差为：,将方差开平方得 X 的总体标准差为：,第二节生物统计学的基本原理,于是，随机变量X落在区间（X1,X2)内的概率为：,3.正态分布(normal distribution)连续性变数的概率分布,其概率密度函数为：记为其中为X的平均数，为X的方差。,其概率分布函数为：,第二节生物统计学的基本原理,正态曲线的特性：, 单峰，倒钟状，当X= 时，f(x)达最大值；, 当X时，f(x)0；, 以X=为轴左右对称；, 曲线与横轴间面积为1；, 在X= 处有两个拐点；, 若不变, 改变使曲线左右平移, 形状不变；=0时，对称轴与纵轴重合；说明代表了数据的中心位置；, 当不变，改变使曲线形状改变，对称轴不变；当变小时，曲线变高瘦，中部的面积变大；当变大时，曲线变矮胖，中部的面积变小；说明衡量了资料的变异程度。,第二节生物统计学的基本原理,于是原变量X在区间(X1,X2)之间的概率就可以用u在区间(u1,u2)之间的概率来计算。,因为X的平均数为，方差为2,所以的平均数为:方差为：,统计学家已经将标准正态分布的概率计算出来，我们只要学会查表就可以计算对应于不同的u的(u)值。,第二节生物统计学的基本原理,统计学一个主要任务是研究总体和样本之间的关系,总体和样本之间的关系可以从两个方向进行研究：从总体到样本：即研究从总体中抽出的所有可能样本的统计数的分布及其与原总体之间的关系。即抽样分布的情况。从样本到总体：即研究从总体中抽出的一个随机样本，用该样本的统计数来估计总体的参数，即参数估计；对总体的参数作出推断，即统计假设测验。,4.抽样分布(sampling distribution)研究样本统计数的概率分布。,第二节生物统计学的基本原理,研究样本的方法对于比较小的总体，可以将总体中所有可能的样本都抽出来进行研究样本统计数的分布。对于较大或无限总体，可以从中抽出比较多的样本来研究样本统计数的分布。,抽样又分为复置抽样和不复置抽样复置抽样将抽得的个体放回总体继续参加抽样。不复置抽样抽得的个体不放回总体参加后续的抽样。,大数定律：对客观事物进行足够多地观察，客观事物的规律性就会充分显现出来。大数定律保证了参数估计的可靠性。统计上,E（）=， E（S2）= 2, E(S) ,第二节生物统计学的基本原理,样本平均数的抽样分布,如果有一个总体，大小为N，平均数为，方差为 2。,从这总体中抽取一个大小为 n 的样本，可以算出样本平均数。,这个不是常数，而是一个随机变量。因为你下次再从这总体中抽取一个大小为 n 的样本,这个的值就不同了。,如果N是个有限大的数，将一共有m=N n种可能的样本。如果N是个无限大的数，则m是个无限大的整数。这m个可以构成一个总体。称为样本平均数的衍生总体。,统计学已经证明，样本平均数总体的平均数等于原总体的平均数，样本平均数总体的方差等于原总体方差的n分之一。即 ,两个独立样本平均数差数的总体分布,如果从一个具有参数1,12的正态总体中抽取大小为 n1的样本，样本平均数为；又从另一个具有参数2, 22 的正态总体中抽取大小为n2的样本，样本平均数为。则两样本平均数之差数将服从总体平均数为，总体方差为的正态分布。,将转换为正态离差就可以计算出差数落在某区间的概率。,如果两个独立样本来自不同的非正态总体，只有当 12 22 ，且n1n2都足够大时，两样本平均数之差数才近似服从正态分布。否则分布很难确定。,第二节生物统计学的基本原理,请注意，上面讨论到的抽样总体，不论是样本平均数总体还是两样本平均数之差数的总体其样本平均数和方差与原总体的平均数和方差都有相应的关系，与原总体的分布无关。,如果原总体的分布为已知，则相应的抽样总体的分布就更为清楚了。,以下讨论原总体的分布与相应的抽样总体的分布之间的关系。,第二节生物统计学的基本原理,实际应用中，当n30时，就可以应用此定理。,如果原总体服从正态分布，则无论样本容量n是大是小，样本平均数将服从平均数为 , 方差为的正态分布。即,如果原总体不是正态分布的，但已知其总体均数为 , 方差为，则当从中抽取的样本容量n足够大时，中心极限定理指出，样本平均数将服从平均数为，方差为的正态分布。即,将转换为正态离差 u，就可以计算出落在某区间的概率。,第二节生物统计学的基本原理,在前面介绍了标准化正态分布即u分布的定义公式：。现在由此可以衍生出另外两个u值的计算公式，即符合正态分布的样本平均数和样本平均数差数衍生总体的u值转换公式：,样本平均数衍生总体：,样本平均数差数衍生总体：,正态总体中的数值,正态总体的平均数,正态总体的标准差,第二节生物统计学的基本原理,学生氏分布 t=,若随机变量t的概率密度函数为：则称随机变量t服从自由度为n-1的t分布。,分布曲线的特性：, 单峰，倒钟状，以 t = 0为轴左右对称；, 不同的df有不同的曲线，当df小时，曲线肥矮，当df大时，曲线高瘦，当df时，曲线与标准正态曲线重合；, 曲线与横轴间面积为1。,第二节生物统计学的基本原理,第二节生物统计学的基本原理,根据前面介绍了二项总体的理论分布，二项总体是由对立事件构成的总体，其总体的观测值是由抽样次数“n”来定义的，因此同一种二项总体因n值不同，其总体内的观测值种类多少也是不相同的，这给研究其抽样分布带来了困难。,为此，可将出现此事件记为X=1，出现彼事件记为X=0，这样二项总体的观测值都转换为0和1的总体，这种总体称为“二项分布的两点总体”，以后统称二项总体。,先计算出这样的总体的平均数和方差。,若此事件出现的概率为p，彼事件出现的概率为q=1-p，可以计算出总体平均数=p和总体方差 2=pq。其实这就是前面所介绍的二项总体“n=1”的情况。,=(1p+0q)/(p+q)=p 2 =(p(1-p)2+q(0-p)2)/(p+q) =(pq2+qp2) /(p+q)=pq,第二节生物统计学的基本原理,二项总体平均数的抽样分布,根据前面所介绍的知识，当n比较大时，构成的分布可近似符合正态分布，可将其转换为u值或t值：,从此总体中抽取大小为n的样本，样本平均数 X/n将服从平均数为p，方差为pq/n的二项分布。这里所说的样本平均数是指成数或百分数，也可用表示。,第二节生物统计学的基本原理,从两个二项总体中抽出两个样本容量分别为n1和n2的样本，两个样本平均数差数d= 将服从平均数为p1-p2，方差为的二项分布。,二项总体平均数差数的抽样分布,同样地，如果两个样本的容量都比较大，差数的分布也近似地符合正态分布，可以将其转换为u值或t值：,第二节生物统计学的基本原理,2分布（卡平方分布）,随机变量2的概率密度函数为：则称随机变量2服从自由度为n-1的2分布。,从一正态总体N（ ,2）中抽出一个样本，这个样本的观测值转换为u值，所有u的平方之和定义为2。如果将所有样本容量为n的样本都抽出，得到很多的2值构成了卡平方分布。即,第二节生物统计学的基本原理,2分布曲线的特性：, 20，图象都在第一象限；, 不对称的曲线，随着自由度增加变得稍对称但顶峰变矮，并逐渐趋向正态分布。, df3时，曲线与横轴间面积为1；df 3时，曲线与纵横两轴间面积为1。,第二节生物统计学的基本原理,2分布总体虽然是从正态总体衍生来的，但是它解决的问题主要是离散型变数资料，尤其是计数资料。使用较多的不是它的定义公式而是它的计算公式,分布,随机变量的概率密度函数为：则称随机变量服从第一自由度为n1 -1的、第二自由度为n -1的分布。,第二节生物统计学的基本原理,从一正态总体N（ ,2）中抽出样本容量分别为n1和n2的两个样本，两个样本方差的比值定义为F值。如果将该总体所有可能的样本都抽出，得到很多的F值构成了F分布。即 F=S12/S22,分布曲线的特性：,0，图象都在第一象限；,曲线受两个自由度的影响，随着自由度的增加趋向对称；, 不对称的单尾型曲线，曲线与横轴间面积为1。,第二节生物统计学的基本原理,第三节生物统计学的基本方法,1. 统计假设测验:通过对抽样调查得到的样本数据进行分析而对样本所来自的总体作出统计判断的方法。,一些常见的例子:,(1)产品检验: 某产品某个技术指标值为 ,现从一批该产品中抽取大小为的样本，测得样本平均数为，标准差为，试测验该批产品的该技术指标平均数是否与已知的间有显著差异。,(2)品种比较: 调查A品种株，平均产量为 ,标准差为；调查B品种株，平均产量为 ,标准差为；试测验两品种的真正产量与之间有无显著差异。,* 这种测验称为单个平均数的假设测验。,* 这种测验称为两个平均数相比较的假设测验。,第三节生物统计学的基本方法,统计假设,针对研究的问题对总体参数提出一对统计假设。其中： * 认为试验的处理没有效应的假设称为无效假设（H0 - null hypothesis)； * 当H0不能被接受时所采纳的假设称为备择假设（HA - alternative hypothesis)。,如果是对总体平均数提出假设，则一个总体 H0: = 0（C）对HA: 0 H0: 0 对 HA: 0 H0: 0 对 HA: 0两个总体 H0: 1 = 2 对 HA: 1 2 H0: 1 2 对 HA: 1 2 H0: 1 2 对 HA: 1 2,如果是对总体方差提出假设，则一个总体 H0: 2= 0 2 （C）对HA: 2 0 2 H0: 2 0 2 对 HA: 2 0 2 H0: 2 0 2 对 HA: 2 0 2两个总体 H0: 1 2 = 2 2对 HA: 1 2 2 2 H0: 1 2 2 2 对 HA: 1 2 2 2 H0: 1 2 2 2 对 HA: 1 2 2 2,第三节生物统计学的基本方法,统计测验的基本方法和一般步骤：,2.利用试验数据计算一个统计量的值。再根据该样本统计量的抽样分布，计算出当H0为正确时出现这样一个值的概率。对不同资料进行测验时，由于统计量及其的分布不同，计算统计量和概率的公式有所不同。,3.当此概率小于预先设定的水平，就根据“小概率事件实际上不可能发生”原理拒绝H0，接受HA。该水平称为显著水平(记为)。常用的为5%或1%。,1.针对研究的问题提出一对统计假设。其中： * 认为试验的处理没有效应的假设称为无效假设（H0 - null hypothesis)； * 当H0不能被接受时所采纳的假设称为备择假设（HA - alternative hypothesis)。,第三节生物统计学的基本方法,两尾测验：接受区域位于中间,否定区域位于两侧的.,单尾测验：接受区域位于一侧,否定区域位于另一侧.,第三节生物统计学的基本方法,假设测验会出现两种不同类型的错误。,假设测验依据“小概率事件实际上不可能发生原理”。利用估计值来对总体的相应参数进行判断。这种判断不是绝对正确的，有可能会犯错误。,假设测验中犯这两类型错误的概率有多大？,第一类错误是指：将一个正确的H0错判为不正确。例如，我们的例子中，H0: = 0 vs HA: 0如果本来 = 0 ，但却判断为 0 ，有多大可能？,因为我们用1-的把握作推断，只有当算出的测验值落在接受区间以外，才会推翻H0，所以犯第一类错误的概率等于。,第三节生物统计学的基本方法,假设测验会出现两种不同类型的错误。,假设测验依据“小概率事件实际上不可能发生原理”。利用估计值来对总体的相应参数进行判断。这种判断不是绝对正确的，有可能会犯错误。,假设测验中犯这两类型错误的概率有多大？,第二类错误是指：将一个错误的H0错判为正确。例如，我们的例子中，H0: = 0 vs HA: 0如果本来 0 ，但却判断为 = 0 ，有多大可能？,我们称犯第二类错误的概率为，的计算比较复杂，它要求真正的为已知。,第三节生物统计学的基本方法,犯这两类型错误的概率(与)之间的关系。, 如果样本容量n不变，减少，则增大。,即提供置信度(减小显著水平，或减少犯第一类错误的概率)，将增大犯第二类错误的可能性；。, 对于相同的n和，与 0 相距越远，则越小。, 当n、与0都相同时，越小则越小。,两个样本平均数相比较的假设测验,单个样本平均数的假设测验, 当总体方差2为已知时；, 当总体方差2为未知但n足够大时；, 当总体方差2为未知但n不够大时；,成组数据的平均数比较；,成对数据的平均数比较；, 两总体方差12和22为已知时；, 两总体方差12和22为未知但可以认为12=22时；, 两总体方差12和22为未知但可认为1222时；,第三节生物统计学的基本方法平均数的假设测验, 当总体标准差为已知时的一般步骤:,两尾测验时 H0: = 0 vs HA: 0,计算统计量：,(大端)一尾测验时 H0: 0 vs HA: 0,(小端)一尾测验时 H0: 0 vs HA: 0,两尾测验时，|u|u 则有(1-)的概率推翻H0；,(大端)一尾测验时，uu 则有(1-)的概率推翻H0；,(小端)一尾测验时，u u 则有(1-)的概率推翻H0。,单个样本平均数的假设测验,第三节生物统计学的基本方法,第三节生物统计学的基本方法, 当总体标准差为未知但n足够大时的一般步骤:,两尾测验时 H0: = 0 vs HA: 0,计算统计量：,(大端)一尾测验时 H0: 0 vs HA: 0,(小端)一尾测验时 H0: 0 vs HA: 0,两尾测验时，|t|u 则有(1-)的概率推翻H0；,(大端)一尾测验时，tu 则有(1-)的概率推翻H0；,(小端)一尾测验时，t u 则有(1-)的概率推翻H0。,单个样本平均数的假设测验,第三节生物统计学的基本方法, 当总体标准差为未知但n不够大时的一般步骤:,两尾测验时 H0: = 0 vs HA: 0,计算统计量：,(大端)一尾测验时 H0: 0 vs HA: 0,(小端)一尾测验时 H0: 0 vs HA: 0,两尾测验时，|t|t 则有(1-)的概率推翻H0；,(大端)一尾测验时，tt 则有(1-)的概率推翻H0；,(小端)一尾测验时，t t 则有(1-)的概率推翻H0。,单个样本平均数的假设测验,第三节生物统计学的基本方法, 两总体方差12和22为已知时的一般步骤:,计算统计量：,两个样本平均数相比较的假设测验,第三节生物统计学的基本方法, 两总体方差12和22为未知但可以认为12=22时,计算统计量：,因为可以认为12=22 = 2，所以变成,但 2未知, 用样本方差se2估计, 变成,如果第一样本的方差为第二样本的方差为 , 那么合并样本的方差将是 2的更好估计。,两个样本平均数相比较的假设测验,第三节生物统计学的基本方法, 两总体方差12和22为未知但可认为1222时,计算统计量：,因为不可以认为12=22，因此用s12估计12，用s22估计22，,自由度的校正公式为：,其中,两个样本平均数相比较的假设测验,第三节生物统计学的基本方法,成对数据的平均数比较,成对数据一般是通过配对设计获得的，该设计得到的数据结构为：,因此，可以按照单个样本平均数的假设测验的方法来分析,第三节生物统计学的基本方法,成对数据的平均数比较,计算统计量：,2.计算如果H0正确，20个卵中的正常孵化数大于等于19个的概率。,对于二项资料百分数的假设测验，理论上应该按二项分布进行。,例题：某品种家蚕的卵在某地区的自然孵化率为70%，即p= 0.7。现将这种卵放入某种孵化器进行孵化。抽取大小为n=20的样本，发现有19个卵能正常孵化。请用 95%的置信度(=0.05)测验用这种孵化器进行孵化是否 (比自然孵化)能显著提高孵化率。,3.因为算得的概率小于显著水平，推翻H0，判断差异显著，即用这种孵化器能显著提高孵化率。,1.提出统计假设 H0: p 0.7 vs HA: p 0.7,第三节生物统计学的基本方法,两个样本百分数相比较的假设测验,单个样本百分数的假设测验, 用观察百分数进行计算的测验公式；, 直接用观察次数进行计算的测验公式；, 连续性矫正的计算公式；, 用观察百分数进行计算的测验公式；, 连续性矫正的计算公式；,这是测验某一个样本百分数所来自的总体百分数 p与已知的百分数 p0 之间是否有显著差异的方法。因为百分数又称为成数，所以这种测验又称为成数的假设测验。,这是测验两个样本百分数和所来自的总体百分数p1和 p2 之间是否有显著差异的方法。对于这种测验，通常假设两总体的方差是相等的，即。,第三节生物统计学的基本方法,两尾测验时 H0: p = p0 vs HA: p p0,计算统计量：,(大端)一尾测验时 H0: p p0 vs HA: p p0,(小端)一尾测验时 H0: p p0 vs HA: p p0,两尾测验时，|u|u 则有(1-)的概率推翻H0；,(大端)一尾测验时，uu 则有(1-)的概率推翻H0；,(小端)一尾测验时，u u 则有(1-)的概率推翻H0。, 用观察百分数进行计算的测验公式；,第三节生物统计学的基本方法,单个样本百分数的假设测验,计算统计量：, 直接用观察次数进行计算的测验公式；,第三节生物统计学的基本方法,单个样本百分数的假设测验,计算统计量：,第三节生物统计学的基本方法, 连续性矫正的计算公式；,单个样本百分数的假设测验,计算统计量：,第三节生物统计学的基本方法, 用观察百分数进行计算的测验公式,两个样本百分数相比较的假设测验,计算统计量：,第三节生物统计学的基本方法, 连续性矫正的计算公式；,两个样本百分数相比较的假设测验,第三节生物统计学的基本方法-方差的同质性测验,一个样本方差与已知总体方差的统计测验,若从一个总体抽取一个大小为n的样本，算得样本方差为s2，想了解此总体方差 2是否与已知方差02间有显著的差异。,两个样本方差是否来自同一总体方差的统计测验,多个样本方差是否来自同一总体方差的统计测验,若样本方差s12来自总体方差12，样本方差s22来自总体方差22，想了解这两个总体方差之间是否有显著差异。,若总共有k个样本，第i个样本的样本方差si2来自总体方差i2。想了解这k个总体方差之间是否有显著差异。,第三节生物统计学的基本方法,计算统计量：,一个样本方差与已知总体方差的统计测验,如果是大样本，计算出的2值可利用正态分布转为u值，直接与u比较，做出推断。即：,第三节生物统计学的基本方法,计算统计量：,两个样本方差是否来自同一总体方差的统计测验,若大小为n1的样本方差s12来自总体方差12，大小为n2的样本方差 s22 来自总体方差 22，想了解这两个总体方差 12 之间是否有显著差异。,第三节生物统计学的基本方法,计算统计量：,H0: 12 = 22 = = k2 vs HA: 并非都相等,其中：,3.如果， 2 2 ,则有(1-)概率推翻H0。,第三节生物统计学的基本方法-适合性测验,先将数据列成上面的表。, 测验假设 H0: 比率为1:1 vs HA:比率不是1:1, 计算：, 因为 2 = 0.2927 = 3.84，接受H0，认为实际比率与理论比率1:1相符。,例题：玉米花粉粒中形成淀粉粒或糊精是由一对等位基因控制的性状。淀粉粒加碘将变蓝色，而糊精加碘则不会变蓝。如果等位基因的复制是等量的，并且在配子中分配是随机的，F1代中的两种花粉粒的数目应该是1:1的。现调查了6919粒花粉，发现有3437粒会变蓝。问实际比率与理论比率1:1之间是否有显著差异。,第三节生物统计学的基本方法-独立性测验,独立性测验是检查两个(对计数指标有)影响(的)因素是否相互独立(或有关)的方法。,例如，“小麦种子是否经过灭菌处理”与“长出的麦穗是否发病”这两件事情是否有关。所以它的统计假设为：,H0：两个因素相互独立 vs HA：两个因素相互有关,根据各因素的水平数多少分为：,22 相依表的独立性测验,2C 相依表的独立性测验,RC 相依表的独立性测验,22 相依表的独立性测验,例题：调查经过灭菌处理与未经过灭菌处理的两类小麦种子长出的麦穗发生小麦散黑穗病的株数，得下表，试分析种子灭菌与否和植株是否发病有无关系。,用于处理有两行两列的计数资料，即两个因素各自可分为两种水平时的情况。,第三节生物统计学的基本方法-独立性测验,H0: 灭菌与否和发病无关 vs HA:发病与灭菌与否有关,如果H0正确，灭不灭菌的发病率都应该等于210/460。经灭菌的种子调查了76株，理论上应有76(210/460) = 34.7 株发病，,统计推断：种子灭菌与否和发病不发病有显著关系。,26（34.7）,50(41.3),184(175.3),200(208.7),76-34.7=41.3株无病；,384-175.3株无病。,第三节生物统计学的基本方法-独立性测验,方差分析解决的问题:,研究一个或两个样本平均数的假设测验，可采用u测验或t测验的方法。但是对多个样本的差异显著性测验，采用u测验或t测验的方法是不恰当的。如果有5个样本，两两间都进行比较，则需要做10次测验，不仅比较烦琐，而且置信概率大大降低，仅为0.9510 = 0.59870.95，这样犯第一类错误的概率就增加了。,多个样本平均数之间的差异大小可以用这些平均数计算出的方差St2来表示，方差大，差异大；方差小，差异小。但是必须要用一个比较的标准来判断，如何确定这个标准呢？如果我们从一个总体中抽出若干个样本，这些样本平均数之间也会有差异，但不是本质性的差异，这种差异叫抽样误差，也是随机误差的一种，可以计算出它们之间的方差Se2 。如果St2和Se2大小差不多，毫无疑问，这多个样本之间没有差异；如果St2比Se2大得多，那就说明它们之间有本质性的差异。很显然，要比较这两种方差的差异，可以用F测验来解决，即方差分析（analysis of variance）的方法。因此，要达到这种目的，必须计算出这两种变异的平方和、自由度和方差。,第四节方差分析,第四节方差分析,线性可加数学模型是将数据中的每一个观测值划分为若干个线性可加部分的数学表达式。,对于一个总体 xi = + i 一个样本 xi = + ei,对于多个总体 xij =+i+ij 多个样本 xij = +ti+eij,固定模型（fixed model）：,随机模型（random model）,试验因素的效应i是固定的，也称为模型。,试验因素的效应i是随机的，也称为模型。,例：某课题组研制出了5个防治小麦纹枯病的新配方，通过试验来比较它们的防治效果，从中找出最好的配方。这5种配方和不喷药的处理效应与总平均效应的差值是常数，因此这些处理效应为固定模型。,例：某植保站为了搞清目前在小麦生产上使用的防治小麦纹枯病的农药品种情况，从中随机抽出20种来做试验。其目的是通过这20种的试验结果来反映目前使用农药的现状，而不是找出最好的农药种类，因此这些处理效应为随机模型。,方差分析的基本思路:,将试验数据的总变异分解为设置的若干可控因素引起的变异，扣除这些可控因素引起的变异后，把剩余的变异当作为由误差引起的。变异的分解主要是对平方和与自由度进行分解。分解后分别计算各自的方差，再将要试验因素引起的方差与误差引起的方差比较，如果试验因素引起的方差显著地大于误差引起的方差，便判定该因素对研究的变数有显著的效应，拒绝H0，,接受HA ；否则，判定该因素对变数没有显著的效应，接受H0 ，拒绝HA 。,第四节方差分析,在方差分析中数据的变异用方差来衡量。,第四节方差分析,多样本的数据资料:,第四节方差分析,如果共有k 组数据，每组有n个观察值，各观察值分别记为xij。其中i = 1, 2, k；j = 1, 2, n。试比较不同组的数据间有无显著差异。,H0: vs HA:并非所有都相等,容易证明：总平方和组间平方和+组内平方和。,同样可以证明：总自由度组间自由度+组内自由度。,第四节方差分析,来看一个简单数据的变异分解:,利用定义公式计算：,xij-4,可以看出：SST=SSt+SSe,第四节方差分析,为方便起见，先计算出校正项：,利用计算公式计算：,把分解的结果列成方差分析表:,MSt是样本组间方差，估计了总体的组间差异和试验误差( )。,MSe是样本组内方差，估计了总体误差( )。,F = MSt / MSe 测验了统计假设 H0: vs HA:,如果F测验显著，说明组间有显著差异。,第四节方差分析,把各种平方和及自由度的计算结果抄入一张表内。称它为方差分析表。,计算出类间均方(方差) 和误差均方(方差) 并将结果填入表中。,16,2,第四节方差分析,样本类间均方(方差)16估计了总体类间均方的倍(即 16)；,样本误差均方(方差)2估计了总体误差均方： (即 2)。,=16/2 估计了。,第四节方差分析,从统计理论知：两个方差之比服从第1自由度为分子自由度，第2自由度为分母自由度的分布。将上表中的类间方差除以误差方差，算出值。若F0.05判断类间差异显著；若F0.01判断类间差异极显著。,本例中，=16/2=8 F0.05=4.26。,第四节方差分析,8,8.02,4.26,多重比较（F测验显著基础上进行）,如果方差分析表显示组间有显著差异，你就会想知道，在所有的k组之间，共有k（k1）/2对比较，到底是哪组与哪组之间有显著差异，那些之间没有差异。多重比较就是做这项工作的方法。多重比较的方法有很多种，但常用的主要有以下两种：1.最小显著差数法（Least Significant difference-LSD法或t测验法）2.最小显著极差法即新复极差法（ Least Significant Range-SSR法或Duncan法）,第四节方差分析,最小显著差数法（LSD法）,LSD法实质上是t测验法。其基本原理是：在样本间的F测验为显著的前提下，计算出显著水平为时的最小显著差数LSD；任何两个平均数的差数LSD ，即为在水平上差异显著；反之，则为在水平上差异不显著，这种方法又称为F测验保护下的最小显著差数法。已知：若tt，即为在水平上显著。因此，最小显著差数为：当两样本的容量n相等时，可用公共的方差Se2来计算样本平均数的标准误：,用Se2的自由度查表,F测验分母的方差,比较的平均数包含的观测值个数,该方法一般只适合两个平均数之间的比较，特别是当试验中有对照（Check，简称CK），每一个样本平均数与对照平均数进行比较时，或者在进行试验前已确定的样本平均数之间的比较，通常采用此方法。但是应用LSD法必须先做F测验，在F测验显著基础上进行。,第四节方差分析,最小显著极差法（LSR法）,在多重比较中，包括着多个样本，这多个样本中平均数最大的一个与平均数最小的一个比较，实际上已不再是一对独立随机样本的比较，用LSD法，必然增大I型错误的概率，容易接受不真实的备择假设，为此D.B.Duncan提出了新复极差法，又称最小显著极差法（shortest significant ranges, SSR），这种多重比较测验方法是把多个样本中两个极端平均数的差数当作极差对待，如果极差不显著，则包括在这两个极端处理平均数间的各处理平均数的任何成对比较，其差异也是不显著的。极差是否显著用极差相当于样本平均数标准误的倍数来表示,其中,在一定自由度下，当平均数个数为2、3、k时，SR值已由统计学家求出，见附表7。这样只要计算出样本平均数的标准误，从附表7中查出SR ，就可以计算出LSR ：,LSR法适合多个样本平均数间的相互比较，在比较时，根据比较的平均数个数的不同采用的标准是不一样的。该方法不需要F测验保护，但与F测验的结果也会出现一些较小的差异。,第四节方差分析,多重比较结果的表示方法,列梯形表法：,下划线法：,字母标记法：,将全部平均数从大到小顺次排列，然后算出各平均数间的差数。凡达到a=0.05水平的差数在右上角标一个“*”号，凡达到a=0.01水平的差数在右上角标两个“*”号，凡未达到a=0.05水平的差数则不予标记。,将平均数按大小顺序排列成一行，在不显著极差的平均数后面划一道横线，有连线的平均数间差异不显著，没有的表示差异显著。,该方法是最常用的多重比较结果的表示方法，在科技论文中一般采用此方法，但是比较过程较复杂。下面重点介绍其标记过程。,=0.01 乙甲丙丁 32.10 30.58 24.28 30.36,第四节方差分析,第四节方差分析,字母标记法：,aa,b,c,AA,BB,第四节方差分析,字母标记法：,aa,bb,AAA,BB,ccc,CCC,第四节方差分析,方差分析的基本假定,试验误差应该是随机的、彼此独立的，并且具有平均数为0的正态分布。,所有试验处理必须具有共同的误差方差，即误差同质性。因为只有当误差方差相等时，才可以将各处理的误差进行合并。,各效应之间具有可加性；因为这样才能有平方和的分解式。,第四节方差分析,不符合基本假定资料的处理方法,剔除某些表现特殊的观察值、处理或重复。,用观测值的平均数来进行分析。,将整个试验分成为几个试验误差较为同质的部分来进行分析。,针对数据的性质进行数据转换。,第四节方差分析,数据转换,平方根转换如果样本平

注意事项

本文（高级生物统计基本知识课件.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。