高级生物统计基本知识课件.ppt
《高级生物统计基本知识课件.ppt》由会员分享,可在线阅读,更多相关《高级生物统计基本知识课件.ppt(170页珍藏版)》请在三一办公上搜索。
1、高级生物统计学,第三章 多年多点试验结果的联合分析,第一章 单个自由度比较分析,第二章 裂区试验设计及其统计分析,第四章 曲线回归分析,第五章 多元回归分析,第六章 协方差分析,第七章 一次回归正交设计及其统计分析,生物统计学基本知识回顾,第八章 二次回归正交设计及其统计分析,第九章 二次旋转设计及其统计分析,基本知识回顾,第三节 生物统计学的基本方法,第一节 生物统计学的基本概念,第四节 田间试验及设计方法,第二节 生物统计学的基本原理,第五节 方差分析,第六节 直线回归分析,生物统计学及其特点,生物统计学(Biometry or Bio-statistics)是数学中的概率论与数理统计学在
2、生物科学中的应用而形成的一门系统性学科。,统计学,理论统计学即数理统计学,应用统计学,社会科学领域的统计学,自然科学领域的统计学,1.逻辑性较强;,2.假设较多,比较抽象;,3.统计方法的分析过程复杂;,4.规律性较强;,5.分析方法的分析步骤不具灵活性。,其特点:,第一节 生物统计学的基本概念,1.数据(data)在科学试验或调查过程中,对研究对象的某些特征、特性进行观察记载得到的数字资料的总称。数据具有变异性和趋中性。,2.变数(variable)生物个体具有变异性的特征、特性。变数的某一具体数值称为变量(variate)或观测值(observed value) 。 连续性变数(conti
3、nuous variable)是指观测值在一定范围内可以取任何一个数值,这些观测值一般是通过测量或称量的方法获得的。 离散性变数(discontinuous or discrete variable)是指观测值只能取0或正整数的变数,其观测值一般通过观察和计数的方法获得的。,第一节 生物统计学的基本概念,3.总体(population or universe) 根据研究目的而确定的,具有共同性质的个体所组成的集团,或者说是整个研究对象中每个个体某一变数所有观测值的总称。,5.样本(sample)从总体中抽出一部分有代表 性的个体或观测值。,4.总体的参数或参量(parameter) 根据总体全
4、体观测值算出的总体特征数。常用希腊字母表示。 如总体平均数 ,方差2,标准差 等。,6.统计数或统计量(statastic)根据样本所有观测值计算出的样本特征数。常用英文字母表示。例如样本平均数 ,方差S2,标准差S等。,第一节 生物统计学的基本概念,算术平均数:,7.平均数(average or mean)是数据的代表值,表示资料中观测值的中心位置。,中(位)数(median):,众数(mode):,几何平均数(geometric mean):,所有观测值的总和除以观测值 数目所得的商。,将资料所有观测值排序后,居于中间位置的那个观测值的值(或,当观测值数目为偶数时,那两个观测值的和之半)。
5、,资料中最常见的一数,或次数分布表中次数最多的那组的组中值。,n个观测值的乘积的n次方根。,其中以算术平均数最为常用。,第一节 生物统计学的基本概念,极差(range) 一组数据的最大值与最小值之差。,8.变异数表示数据资料变异大小的数值。,离均差平方和简称平方和(sum of squares,SS) 可较好地衡量资料的变异。 定义公式: 计算公式: 其中C为矫正数,为资料中所有观测值总和的平方除以观测值的个数。,第一节 生物统计学的基本概念,8.变异数表示数据资料变异大小的数值。,方差(variance)是平方和除以观测值的个数。,总体方差(population variance):,样本方
6、差(sample variance):,分类资料:,分类资料:,第一节 生物统计学的基本概念,8.变异数表示数据资料变异大小的数值。,标准差(standard deviation)是方差的正根值。,总体标准差(Population SD):,样本标准差(Sample SD):,变异系数(Coefficient of Variation,记为C.V. )是指资料的标准差与平均数之比。即:,不可能事件,第二节 生物统计学的基本原理,随机事件,事件,概率,必然事件,某事件出现的概率用P( )表示;例如P(A)、 P(B)等。,概率的有效范围为01,即0P(A)1。,必然事件记为,其概率为1,即 P(
7、) = 1。,不可能事件记为 ,其概率为0,即 P() = 0。,随机事件的概率在01之间,即0P(A)1。,1.事件(event)与概率(probability),第二节 生物统计学的基本原理,事件间的关系,和事件,积事件,互斥事件,对立事件,事件系,事件的独立性,完全事件系,完全互斥事件系,第二节 生物统计学的基本原理,计算事件概率的法则,互斥事件的加法定律,可以引伸到:n 个两两互斥的事件的概率等于这 n 个事件的概率之和。,即:如果AB=,则P(A+B)=P(A)+P(B)。,即:如果AiAj=,则P(Ai)=P(Ai)。,第二节 生物统计学的基本原理,计算事件概率的法则,互斥事件的加
8、法定律,独立事件的乘法定律,可以引伸到:n 个相互独立的事件同时发生概率等于这 n 个事件各自发生的概率之乘积。,即:P(AB)=P(A)P(B)。,完全互斥事件系的概率之和为1。,即,如果AiAj=同时A1+A2+An=,则P(Ai)=1。,第二节 生物统计学的基本原理,2.二项分布(binomial distribution):由对立事件构成的总体称为二项总体(binomial population),二项总体观测值的概率分布即为二项分布。,若某事件出现的概率为p,其对立事件出现的概率为q=1-p,做n次重复独立试验,该事件出现X次的可能性(概率)有多大?现在是:n=2,p=3/4,q=1
9、/4,X可以为0,1,2。P(X=0)=(1)(1/4)(1/4)=(1) (3/4)0(1/4)2=(1) p0q2-0P(X=1)=(2)(3/4)(1/4)=(2) (3/4)1(1/4)1=(2) p1q2-1P(X=2)=(1)(3/4)(3/4)=(1) (3/4)2(1/4)0=(1) p2q2-2其中系数为在n个中取X个进行组合的数目。,所以,概率分布函数为:,第二节 生物统计学的基本原理,比较下面两个概率分布图,会发现二项分布的形状是由n和p两个参数决定的。当 p = q = 0.5 时,分布是对称的;当 p q 时,分布就不对称; p和q差异越大,分布就越偏斜。,第二节 生
10、物统计学的基本原理,利用概率分布表,可以计算出随机变量 X的总体平均 数 和总体方差 2。,对数列求和得 X的总体均数为:,同法求得 X 的总体方差为:,将方差开平方得 X 的总体标准差为:,第二节 生物统计学的基本原理,于是,随机变量X落在区间(X1,X2)内的概率为:,3.正态分布(normal distribution)连续性变数的概率分布,其概率密度函数为: 记为 其中为X的平均数, 为X的方差。,其概率分布函数为:,第二节 生物统计学的基本原理,正态曲线的特性:, 单峰,倒钟状,当X= 时,f(x)达最大值;, 当X时,f(x)0;, 以X=为轴左右对称;, 曲线与横轴间面积为1;,
11、 在X= 处有两个拐点;, 若 不变, 改变使曲线左右平移, 形状不变;=0时, 对称轴与纵轴重合;说明 代表了数据的中心位置;, 当 不变, 改变使曲线形状改变,对称轴不变; 当 变小时,曲线变高瘦,中部的面积变大;当 变 大时,曲线变矮胖,中部的面积变小;说明 衡量了 资料的变异程度。,第二节 生物统计学的基本原理,于是原变量X在区间(X1,X2)之间的概率就可以用u在区 间(u1,u2)之间的概率来计算。,因为X的平均数为,方差为2,所以 的平均数为:方差为:,统计学家已经将标准正态分布的概率计算出来,我们 只要学会查表就可以计算对应于不同的u的(u)值。,第二节 生物统计学的基本原理,
12、统计学一个主要任务是研究总体和样本之间的关系,总体和样本之间的关系可以从两个方向进行研究: 从总体到样本:即研究从总体中抽出的所有可能样本的统计数的分布及其与原总体之间的关系。即抽样分布的情况。 从样本到总体:即研究从总体中抽出的一个随机样本,用该样本的统计数来估计总体的参数,即参数估计;对总体的参数作出推断,即统计假设测验。,4.抽样分布(sampling distribution)研究样本统计数的概率分布。,第二节 生物统计学的基本原理,研究样本的方法 对于比较小的总体,可以将总体中所有可能的样本都抽出来进行研究样本统计数的分布。 对于较大或无限总体,可以从中抽出比较多的样本来研究样本统计
13、数的分布。,抽样又分为复置抽样和不复置抽样 复置抽样 将抽得的个体放回总体继续参加抽样。不复置抽样 抽得的个体不放回总体参加后续的抽样。,大数定律:对客观事物进行足够多地观察,客观事物的规律性就会充分显现出来。 大数定律保证了参数估计的可靠性。统计上,E( )=, E(S2)= 2, E(S) ,第二节 生物统计学的基本原理,样本平均数的抽样分布,如果有一个总体,大小为N,平均数为,方差为 2。,从这总体中抽取一个大小为 n 的样本,可以算出样本平均数 。,这个 不是常数,而是一个随机变量。因为你下次再从这总体中抽取一个大小为 n 的样本,这个 的值就不同了。,如果N是个有限大的数,将一共有m
14、=N n种可能的样本。如果N是个无限大的数,则m是个无限大的整数。这m个 可以构成一个总体。称为样本平均数的衍生总体。,统计学已经证明,样本平均数总体的平均数等于原总 体的平均数,样本平均数总体的方差等于原总体方差 的n分之一。即 ,两个独立样本平均数差数的总体分布,如果从一个具有参数1,12的正态总体中抽取大小为 n1的样本,样本平均数为 ;又从另一个具有参数2, 22 的正态总体中抽取大小为n2的样本,样本平均数 为 。则两样本平均数之差数 将服从总 体平均数为 ,总体方差为 的正态分布。,将 转换为正态离差 就可以计算出差数 落在某区间的概率。,如果两个独立样本来自不同的非正态总体,只有
15、当 12 22 ,且n1n2都足够大时,两样本平均数之差数 才近似服从正态分布。否则分布很难确定。,第二节 生物统计学的基本原理,请注意,上面讨论到的抽样总体,不论是 样本平均数总体 还是 两样本平均数之差数的总体 其样本平均数和方差与原总体的平均数和方差都有相应的关系,与原总体的分布无关。,如果原总体的分布为已知,则相应的抽样总体的分布 就更为清楚了。,以下讨论原总体的分布与相应的抽样总体的分布之间的关系。,第二节 生物统计学的基本原理,实际应用中,当n30时,就可以应用此定理。,如果原总体服从正态分布 ,则无论样本容 量n是大是小,样本平均数 将服从平均数为 , 方差为 的正态分布。即,如
16、果原总体不是正态分布的,但已知其总体均数为 , 方差为 ,则当从中抽取的样本容量n足够大时,中心 极限定理指出,样本平均数 将服从平均数为 , 方差为 的正态分布。即,将 转换为正态离差 u,就可以计算出 落在某区间的 概率。,第二节 生物统计学的基本原理,在前面介绍了标准化正态分布即u分布的定义公式: 。现在由此可以衍生出另外两个u值的计算公式,即符合正态分布的样本平均数和样本平均数差数衍生总体的u值转换公式:,样本平均数衍生总体:,样本平均数差数衍生总体:,正态总体中的数值,正态总体的平均数,正态总体的标准差,第二节 生物统计学的基本原理,学生氏分布 t=,若随机变量t的概率密度函数为:则
17、称随机变量t服从自由度为n-1的t分布。,分布曲线的特性:, 单峰,倒钟状,以 t = 0为轴左右对称;, 不同的df有不同的曲线,当df小时,曲线肥矮,当df大 时,曲线高瘦,当df时,曲线与标准正态曲线重合;, 曲线与横轴间面积为1。,第二节 生物统计学的基本原理,第二节 生物统计学的基本原理,根据前面介绍了二项总体的理论分布,二项总体是由对立事件构成的总体,其总体的观测值是由抽样次数“n”来定义的,因此同一种二项总体因n值不同,其总体内的观测值种类多少也是不相同的,这给研究其抽样分布带来了困难。,为此,可将出现此事件记为X=1,出现彼事件记为X=0,这样二项总体的观测值都转换为0和1的总
18、体,这种总体称为“二项分布的两点总体”,以后统称二项总体。,先计算出这样的总体的平均数和方差。,若此事件出现的概率为p,彼事件出现的概率为q=1-p,可以计算出总体平均数=p和总体方差 2=pq。其实这就是前面所介绍的二项总体“n=1”的情况。,=(1p+0q)/(p+q)=p 2 =(p(1-p)2+q(0-p)2)/(p+q) =(pq2+qp2) /(p+q)=pq,第二节 生物统计学的基本原理,二项总体平均数的抽样分布,根据前面所介绍的知识,当n比较大时, 构成的分布可近似符合正态分布,可将其转换为u值或t值:,从此总体中抽取大小为n的样本,样本平均数 X/n将服从平均数为p,方差为p
19、q/n的二项分布。这里所 说的样本平均数是指成数或百分数,也可用 表示。,第二节 生物统计学的基本原理,从两个二项总体中抽出两个样本容量分别为n1和n2的样本,两个样本平均数差数d= 将服从平均数为p1-p2,方差为 的二项分布。,二项总体平均数差数的抽样分布,同样地,如果两个样本的容量都比较大,差数的分布也近似地符合正态分布,可以将其转换为u值或t值:,第二节 生物统计学的基本原理,2分布(卡平方分布),随机变量2的概率密度函数为: 则称随机变量2服从自由度为n-1的2分布。,从一正态总体N( ,2)中抽出一个样本,这个样本的观测值转换为u值,所有u的平方之和定义为2。如果将所有样本容量为n
20、的样本都抽出,得到很多的2值构成了卡平方分布。即,第二节 生物统计学的基本原理,2分布曲线的特性:, 20,图象都在第一象限;, 不对称的曲线,随着自由度增加变得稍对称但顶峰变矮,并逐渐趋向正态分布。, df3时,曲线与横轴间面积为1;df 3时,曲线与纵横两轴间面积为1。,第二节 生物统计学的基本原理,2分布总体虽然是从正态总体衍生来的,但是它解决的问题主要是离散型变数资料,尤其是计数资料。使用较多的不是它的定义公式而是它的计算公式,分布,随机变量的概率密度函数为: 则称随机变量服从第一自由度为n1 -1的、第二自由度 为n -1的分布。,第二节 生物统计学的基本原理,从一正态总体N( ,2
21、)中抽出样本容量分别为n1和n2的两个样本,两个样本方差的比值定义为F值。如果将该总体所有可能的样本都抽出,得到很多的F值构成了F分布。即 F=S12/S22,分布曲线的特性:,0,图象都在第一象限;,曲线受两个自由度的影响,随着自由度的增加趋向对称;, 不对称的单尾型曲线,曲线与横轴间面积为1。,第二节 生物统计学的基本原理,第三节 生物统计学的基本方法,1. 统计假设测验:通过对抽样调查得到的样本数据进行分析而对样本所来自的总体作出统计判断的方法。,一些常见的例子:,(1)产品检验: 某产品某个技术指标值为 ,现从一批 该产品中抽取大小为 的样本,测得样本平均数为 ,标准差为 ,试测验该批
22、产品的该技术指标平均数 是否与已知的 间有显著差异。,(2)品种比较: 调查A品种 株,平均产量为 ,标准 差为 ;调查B品种 株,平均产量为 ,标准差 为 ;试测验两品种的真正产量 与 之间有无 显著差异。,* 这种测验称为单个平均数的假设测验。,* 这种测验称为两个平均数相比较的假设测验。,第三节 生物统计学的基本方法,统计假设,针对研究的问题对总体参数提出一对统计假设。其中: * 认为试验的处理没有效应的假设称为无效假设 (H0 - null hypothesis); * 当H0不能被接受时所采纳的假设称为备择假设 (HA - alternative hypothesis)。,如果是对总
23、体平均数提出假设,则一个总体 H0: = 0(C)对HA: 0 H0: 0 对 HA: 0 H0: 0 对 HA: 0两个总体 H0: 1 = 2 对 HA: 1 2 H0: 1 2 对 HA: 1 2 H0: 1 2 对 HA: 1 2,如果是对总体方差提出假设,则一个总体 H0: 2= 0 2 (C)对HA: 2 0 2 H0: 2 0 2 对 HA: 2 0 2 H0: 2 0 2 对 HA: 2 0 2两个总体 H0: 1 2 = 2 2对 HA: 1 2 2 2 H0: 1 2 2 2 对 HA: 1 2 2 2 H0: 1 2 2 2 对 HA: 1 2 2 2,第三节 生物统计学
24、的基本方法,统计测验的基本方法和一般步骤 :,2.利用试验数据计算一个统计量的值。再根据该样本统 计量的抽样分布,计算出当H0为正确时出现这样一个 值的概率。对不同资料进行测验时,由于统计量及其 的分布不同,计算统计量和概率的公式有所不同。,3.当此概率小于预先设定的水平,就根据“小概率事件 实际上不可能发生”原理拒绝H0,接受HA。该水平称 为显著水平(记为)。常用的为5%或1%。,1.针对研究的问题提出一对统计假设。其中: * 认为试验的处理没有效应的假设称为无效假设 (H0 - null hypothesis); * 当H0不能被接受时所采纳的假设称为备择假设 (HA - alterna
25、tive hypothesis)。,第三节 生物统计学的基本方法,两尾测验 :接受区域位于中间,否定区域位于两侧的.,单尾测验 :接受区域位于一侧,否定区域位于另一侧.,第三节 生物统计学的基本方法,假设测验会出现两种不同类型的错误。,假设测验依据“小概率事件实际上不可能发生原理”。 利用估计值来对总体的相应参数进行判断。这种判断 不是绝对正确的,有可能会犯错误。,假设测验中犯这两类型错误的概率有多大?,第一类错误是指:将一个正确的H0错判为不正确。例如,我们的例子中,H0: = 0 vs HA: 0如果本来 = 0 ,但却判断为 0 ,有多大可能?,因为我们用1-的把握作推断,只有当算出的测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高级 生物 统计 基本知识 课件
链接地址:https://www.31ppt.com/p-1478836.html