差异显著性测验学生复习用.ppt
《差异显著性测验学生复习用.ppt》由会员分享,可在线阅读,更多相关《差异显著性测验学生复习用.ppt(201页珍藏版)》请在三一办公上搜索。
1、第三章差异显著性测验,学习本章需掌握的知识要点1、基本概念2、正态分布概率的计算方法3、理解平均数间的比较用差异显著性测验的理由,减少试验误差的措施4、差异显著性测验的原理、方法及其应用5、熟记差异显著性测验的计算公式,主要内容 一、统计假设检验概念与统计理论 二、差异显著性测验(一)统计假设检验的原理和方法(二)单个平均数的假设检验(三)两个平均数相比较的假设检验(四)百分数的假设检验(五)参数的区间估计,3.1 基本概念,一、概念一般人比较两种事物在数量性状方面的差异(如比较两个品种的产量,或比较两种农药对某种病虫的防治效果等等),习惯用平均数作为比较标准,求一个平均数的差数便算完事。,3
2、.1 基本概念,例如,有A、B两种农药杀虫试验,两种农药杀虫效果如下:,能否仅凭这两个平数的差值=1.77,立即得出A与B两种农药的杀虫效率不同,并且B比A好的结论呢?,3.1 基本概念,统计学认为,这样得出的结论是不可靠的。因为如果我们再做一次AB两种农药杀虫试验,又可得到两个样本资料。由于抽样误差的随机性,两样本平均数就不一定是8.88和10.65,其差值也不一定是1.77。造成这种差异可能有两种原因:一是两种农药杀虫效果(处理效应)不同造成的差异,即是两种农药本质不同所致。另一可能是试验误差(或抽样误差)。,试验获得的数据,受到2种效应的影响:试验处理效应(Treatment effec
3、ts):由处理因素影响观察值的大小;试验误差效应(Error effects):除了试验处理效应外,其他因素造成观察值的大小差异。试验结果取得的数据,计算出的平均数,也有以下的不足之处:与有一定的差异;是观察值的统计值,受处理效应和误差效应的影响。,3.1 基本概念,1、试验误差(Error)除了试验处理效应外,其他因素造成观察值的差异称为试验误差。2、误差的类型(1)系统误差:由于试验条件不同造成的误差;在整个试验过程中误差的符号和数值是恒定不变的,或者遵循着一定规律变化,即始终向一个方向减小或增加。其出现有规律,可以校正和消除。,3.1 基本概念,(2)偶然误差(随机误差):严格控制试验条
4、件后,由于偶然性因素造成的误差。特点:有偶然性:试验误差不可能避免,只能减少,不能消除。具有随机性:服从一定的概率分布,它发生的可能性大小是受其本身概率支配。正态分布:可用正态分布规律估计试验误差的大小,判断试验的可靠程度。,3.1 基本概念,3、减少试验误差的方法(1)合理的试验设计;(2)严格控制试验的条件,除了试验处理的项目外,其他条件要尽可能做到一致。(3)试验要有一定的重复,要有对照;(4)调查取样的方法要适当,取样要随机,不能主观挑选,要有适当大小的样本容量。,如药剂防治试验,除不同农药种类外,其他如:药剂浓度、用量、施用时期、施用方法、调查日期、防治对象作物的品种、栽培条件和生育
5、阶段,防治对象害虫的密度、虫龄,或防治对象病害喷药前发生程度等等,都要求尽可能一致。,3.1 基本概念,对两个样本进行比较时,必须判断样本间差异是抽样误差造成的,还是本质不同引起的。如何区分两类性质的差异?怎样通过样本来推断总体?这正是显著性检验要解决的问题。,3.1 基本概念,4、差异显著性测验的概念也称统计检验,是检验和推断试验因素是否存在真实效应的一种数学判断方法。对试验误差作出估计,看试验处理间的差异或样本均数与总体均数的离差有没有超出试验误差的范围的测验方法称为差异显著性测验。,3.1 基本概念,要估计试验误差,就要了解试验误差出现的规律性。要了解试验误差出现的规律性,就需了解理论分
6、布的有关知识。理论分布主要有二项分布、正态分布等。重点了解正态分布二项分布的极限就呈正态分布,3.1 基本概念,(一)二项分布试验或调查中最常见的一类间断性随机变数,是整个总体的各个个体或单位可以根据某种性状的出现与否分为非此即彼的两种情况,这一类资料就叫“二项资料”。例如种子的发芽或不发芽,施药后的害虫死或活,植株的发病或不发病,杂交后代分离抗病或感病等等。这种非此即彼构成的总体叫二项总体(Binomial distribution)。,3.1 基本概念,二项分布的概率关系为了便于研究,通常给予此变量为1,其概率为p;给予彼变量为0,其概率为q,其概率关系为:pq1 或 q1p如果每次独立抽
7、取0,1总体的n个个体则所得变量x将有0、1、n,共n+1种。这n+1变量有它各自的概率而组成一个分布,这种分布叫二项概率分布。,3.1 基本概念,例如,观察施用某种农药后菜青虫的死亡数记“死”为1,“活”为0,如每次取5条虫为一样本(n=5),则有6种(n+1种)可能:5条全活(0);一条死(1);2条死(2);3条死(3);4条死(4);5条全死(5)。由这6种可能相应概率组成的分布,就是n=5时活虫数的二项分布。,3.1 基本概念,二项分布是间断性变数的一种最重要的理论分布,它的应用范围是相当广泛的。1、二项分布的概率计算参见p28-29页,自学。2、二项总体的平均数和标准差,3.1 基
8、本概念,对于一个给定的二项分布,n和p是常数,是两个重要的参数。随机变数二项分布总体的平均数和标准差可由下式求得:(1)以个数为单位(2)以百分数为单位,3.1 基本概念,3、二项分布的形状特点二项分布的形状决定于n和p的大小。n一定,图形随p变化而变化,如p=q,二项分布呈对称分布;如pq 为偏斜分布,p与q 相差越大,偏斜越大。,3.1 基本概念,p一定,图形随n而变化,n大,图形顶点向中间移;n小,图形偏度大。n,不论p为何值,图形都对称。当n,p不过小,且np、nq5,且数值接近时,二项分布正态分布。,3.1 基本概念,即如果n适当增大(大于30)而p又不过小(不靠近0值)并且np及n
9、q均不小于5,则此二项分布趋于正态分布,它的概率分布可以用正态离差概率表进行计算,即是说,在此情况下,可将间断性的二项分布看作是连续性的正态分布。,3.1 基本概念,(二)正态分布(Normal distribution)1、概念正态分布是连续性变数的一种重要的理论分布。它的分布曲线是对称的,一般叫正态分布曲线,或正态概率分布曲线。是指随机抽取变数,其总体的理论分布是以概率来表示的,而这种反映概率分布的曲线就叫正态概率分布曲线。,3.1 基本概念,正态分布是一种在统计意义上和应用上最重要的分布,是数量分布的基本类型。在生物和农业的科学试验中,绝大多数数量性状数据是属于正态分布的,试验误差的分布
10、服从于这种分布,许多统计分析方法都是以正态分布为基础的。而且在一定条件下,它还可以代替二项分布和其他间断性分布。,3.1 基本概念,100个小区玉米螟虫害株数分布属间断性分布,有100个样本,开始是呈频数分布,频数分布图是方柱形图,连成曲线是不光滑不对称的,如果采样无限增多,n,柱形图就一一变为纵轴线,连接的多边形图就成为一条对称的光滑曲线,3.1 基本概念,2、正态分布的特点(1)正态分布曲线是一条光滑、钟形、顶部平缓,两边对称而急剧下降,并向两端延伸,但永远不与横轴相交的曲线,曲线的全距从到+。见p31页,图31 正态分布曲线图,3.1 基本概念,(2)正态分布曲线围绕算术平均数向左右两侧
11、作对称分布,所以它是一条对称曲线。正态分布的算术平均数、中数及众数相等,三者合一,都位于点。(3)正态分布的多数观察值集中于算术平均数的附近,离平均数愈远,相应的次数愈少,在-3 以外,次数极少。,3.1 基本概念,(4)正态分布曲线与x轴之间所夹的总面积等于1,因此在曲线下x轴的任何定值,例如从 x=x1到x=x2 之间的面积,等于 介乎这两个定值间 面积占总面积的成 数,或者说等于x落 于这个区间内的概率。,3.1 基本概念,(5)正态分布曲线的形状完全取决于 和 两个参数,所以它是一个曲线系统。确定正态分布在 x 轴上的中心位置,确定正态分布的变异度。,标准差相同(=1)而平均数不同1=
12、0,2=1,3=2三个正态曲线,平均数相同(=0)而标准差不同的三个正态曲线,3.1 基本概念,(6)正态分布曲线的方程式为:表示平均数为,2为方差的正态分布记作 它是一个曲线系统,不同的总体有不同的和,正态曲线的位置及形态随和的不同而不同,这就给研究具体的正态总体带来困难。为了一般化的应用(简化计算),需将正态分布标准化。,概率密度函数,3.1 基本概念,正态分布标准化,一般用一个新变数正态离差u来代替x变数,即将x离其平均数的差数,以为单位进行转换,于是u称标准正态离差令=0,=1,可将(31)式标准化为:,标准化正态分布密度函数,(u)称为标准化正态分布密度函数,即=0,=1时的正态分布
13、记作N(0,1),概率的取值范围是01由于它有最简单的形式,各种不同平均数和标准差都可以经过适当转换用标准化分布表示出来,所以用它来计算正态分布曲线的概率。,标准化正态分布函数:,(u)称为标准化正态分布密度函数,即=0,=1时的正态分布记作N(0,1)由于它有最简单的形式,各种不同平均数和标准差都可以经过适当转换用标准化分布表示出来,所以用它来计算正态分布曲线的概率。,3.1 基本概念,3、正态分布曲线区间面积或概率计算前述标准化正态分布曲线下任何两个x定值间的面积或概率,完全由曲线的平均数()和标准差()来确定。详细面积见附表1,但一些常用的概率数值见p32页。区间 面积或概率1 0.68
14、262 0.95453 0.99731.96 0.9500*2.58 0.9900*,常用的概率数值,3.1 基本概念,根据正态分布的性质,变量在两个定值间取值的概率等于曲线与其x轴在该区间围成的面积。因此概率的计算即正态分布概率密度函数的定积分计算。,3.1 基本概念,一定区间概率的表示方法,一般采用下述符号,若一随机变数X取a与b两个定值,而ab的概率,则此a、b两定值区间的概率(P)表示方法为P(axb)P(axb),3.1 基本概念,在正态分布曲线下,x的两个定值从x=a 到x=b的概率可用曲线下区间面积来表示,下图所示面积。,3.1 基本概念,因为正态分布曲线的全距是从至+,可以计算
15、曲线下从到x的面积,其公式如下:称为正态分布的累积函数,f(x)称为概率密度函数。,3.1 基本概念,称为正态分布的累积函数,现给予变数x任何一定值:例如a,则可以计算变数xa的概率为 即P(xa)=如果给予定值b,计算xb的概率为P(xb)=(35)如果a与b是变数x的两个定值且ab,则其区间概率可以从下式计算P(axb)=-.(36),采用这个方法计算区间概率有一个好处,就是事先可以制定一个标准化的累积正态分布FN(x)表(如附表1),需要计算某一变数两个定值间的区间概率时,只要知道它的平均数和标准差,把这两个定值分别转换成正态离差(),再从表上查出FN(x)代入(36)式,就可以算出其间
16、的概率,非常方便。,3.1 基本概念,由于正态分布的概率密度函数fN(x)是按x值将累积函数FN(x)求其导数得到,根据(3-4)式当x=时,F()=0;当x=+,F(+)=1,3.1 基本概念,【例31】p33页。假定有一具有正态分布的随机变数x,其平均数=35,标准差=5,试计算x小于31和小于45的概率,介于3145之间的概率,以及大于45的概率。,3.1 基本概念,计算x31的概率:P(x31)=先将x值31转换成标准正态离差u值:查附表1,当u=0.8时,累积正态分布,=0.2119,这说明从到31范围内的变值占全部变值的21.19%,或者说就是变值小于31的概率P(x31)=0.2
17、119。,(见图3-3),3.1 基本概念,x45的概率:P(x45)=查附表1,当u=2时,,即x45的概率P(x45)=0.9773。,(见图3-3),3.1 基本概念,计算x45的概率因为当x=时,故P(x45)=1 P(x45)=10.9773=0.0227。x 介于3145的区间的概率为:P(31x45)=P(x45)P(x31)=0.97730.2119=0.7654,(见图3-3),3.1 基本概念,(2)计算某个中间概率对应的 x 值例如,求中间概率为0.99和0.95的x值已知:中间概率为0.99区间外的概率为p=1/2(10.99)=0.005,查附表1对应的u=2.58,
18、即p(x)=0.00494的u=2.58 根据正态离差公式:,当p=99时,,3.1 基本概念,当概率为95 时中间概率为0.95区间外的概率为p=1/2(10.95)=0.025,查附表1对应的u=1.96,即取p(x)=0.0250的u=1.96根据正态离差公式:,当p=95时,,3.1 基本概念,二、差异显著性测验,3.2 差异显著性测验的原理,1、差异显著性测验的原理“小概率事件实际不可能性”原理是统计学上进行假设检验(显著性检验)的基本依据。测验一个样本平均数的代表性大小,就是看它在总体正态分布中出现的概率有多大,与总体均数是否有显著性差异。样本平均数离总体平均数愈远,出现的概率就愈
19、小。出现的概率很小(如小于0.05或小于0.01)的事件,在一次试验中很难碰上的,可以看作是实际上不可能出现的事件。,3.2 差异显著性测验的原理,如果样本均数出现的概率等于或小于5%,即样本在95%范围外,100次抽样中有95次得不到此样本,就认为差异显著,不能代表总体,或者说二者有本质的差别,不是属于同一个总体,这种判断有95%的可靠性。,3.2 差异显著性测验的原理,同理:如果样本均数出现的概率等于或小于1%,即在99%范围外,抽样100次有99次得不到此样本,则认为样本平均数与总体平均数间的差异极显著,更没有代表性,这种判断有99%可靠。,3.2 差异显著性测验的原理,进行差异显著性测
20、验,一般都是用样本平均数作比较,因此必须要计算平均数标准差或平均数差数标准差,以此来估计样本平均数或平均数差数出现的概率,作为测验差异是否显著的依据。,3.2 差异显著性测验的原理,1、平均数标准差如果在一群体中连续多次抽取同样大小的样本,计算每次取样的平均数,则这些平均数并不是一致的,而在一定范围内变动,它对于总体的平均数也有差异,这就是平均数标准差(也称均数标准误)。它表示平均数抽样误差的大小,是衡量样本平均数代表性程度的重要依据,平均数标准差愈小,代表性愈大,反之则愈小。,3.2 差异显著性测验的原理,一个总体内抽取样本平均数计算表,8个平均数不相同,对于总体平均数是有差异的,3.2 差
21、异显著性测验的原理,总体平均数标准差用 代表,计算公式:,在实际工作中,总体标准差往往是未知的,因而无法求得。此时,可用样本标准差S 估计于是,以 估计。记 为,称作样本标准误或均数标准误。样本标准误 是平均数抽样误差的估计值。若样本中各观测值为 则,3.2 差异显著性测验的原理,3.2 差异显著性测验的原理,注意,样本标准差与均数标准误是既有联系又有区别的两个统计量,上式已表明了二者的联系。二者的区别在于:样本标准差 S 是反映样本中各观测值,变异程度大小的一个指标,它的大小说明了 对该样本代表性的强弱。平均数标准差 是样本平均数 的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的
22、大小及精确性的高低。,3.2 差异显著性测验的原理,计算样本平均数标准差 的目的,是要了解取样的平均数在一群体中出现的概率,以便测验样本平均数的可靠程度或进行差异显著性测验。在比较两个样本平均数之间的差异,进行差异显著性测验时,也要以平均数标准差(误)为依据。,3.2 差异显著性测验的原理,2、平均数差数的标准差从同一总体随机抽取两组样本,这两组样本的平均数相减所得的差数叫平均数差数,如连续抽很多对样本,并求出平均数的差数,则此众多的平均数差数也在一定范围内波动,也可以用标准差来表示其变异程度,这种标准差就叫平均数差数标准差(或差数标准误)。,n对平均数差数呈波动性,()n,用平均数差数标准差
23、估计,3.2 差异显著性测验的原理,同样,研究两个总体,分别从总体1中抽取一个随机样本,从总体2中抽取另一个随机样本,这两个样本的均值之差,也叫平均数差数,如果分别从两个总体中抽取很多对随机样本,求出平均数差数,则这些众多的平均数差数也在一定范围内波动,也可以用标准差来表示其变异程度,这种标准差就叫平均数差数标准差。,()1,n对平均数差数也呈现波动性,()n,用平均数差数标准差估计,继续抽样,3.2 差异显著性测验的原,(1)成组数据平均数差数标准差成组数据又叫不成对数据。如:两个试验处理的设计为完全随机,对环境条件的影响不加以控制,而处理间的供试单位为彼此独立,数据不成配对,两处理样本容量
24、可以相同,也可以不同的试验得到的数据称为成组数据。如:其中n1、n2可相等,可不相等。,3.2 差异显著性测验的原理,两总体方差12和22已知或两总体方差未知,但两样本容量n130、n230,两样本平均数比较进行u测验时,平均数差数标准差的计算,S12,n1分别为第一样本方差和样本容量S22,n2分别为第二样本方差和样本容量,3.2 差异显著性测验的原理,由于总体方差未知,上式利用两样本的方差S12、S22估计两总体方差12、22,3.2 差异显著性测验的原理,如果两样本总体方差12和22为未知,但假设12=22=2,且两样本均为小样本(n130,n230),进行t测验时,用两个样本S12和S
25、22的加权平均数S2 估计2精确性更高。因此:,3.2 差异显著性测验的原理,其中:当n1=n2=n时,(3-10)可变为,(3-11),3.2 差异显著性测验的原理,(2)成对数据平均数差数标准差试验的两个处理采取对比排列,设若干重复,每次重复都是把两处理安排在相邻的小区组成配对,这种设计取得的数据就是成对数据。如甲、乙两种农药药效对比试验,分5次进行。,将差数作为一组变数求差数标准差和差数标准误,3.2 差异显著性测验的原理,成对数据,其平均数差数标准差的计算方法,先分别求出每对差数d(d=x1x2),再把这些差数作为一组变数来求差数标准差Sd和差数平均数标准差。,三、平均数差异显著性测验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 差异 显著 测验 学生 复习
链接地址:https://www.31ppt.com/p-6469065.html