第五章假设检验.ppt
《第五章假设检验.ppt》由会员分享,可在线阅读,更多相关《第五章假设检验.ppt(43页珍藏版)》请在三一办公上搜索。
1、励淬拓吼聘避雍忱礁蓟领洗卵蔽富淑倡吧对旧仁夕问举漠秸伪沿钓沟畦杉第五章假设检验第五章假设检验,第五章 均数差异显著性检验t检验,学习要求 了解显著性检验的意义及均数差异显著性检验中u检验和t检验各自应用的条件。理解显著性检验原理,尤其是接受或否定无效假设的原理;掌握总体均数和样本均数,两样本均数(配对和非配对),百分数资料差异显著性检验的步骤和方法。重点与难点 重点:显著性检验的原理,t检验的步骤和方法 难点:显著性检验的原理思考题及作业 1、样本平均数抽样总体的分布与参数和起始总体间有何关系?2、什么是样本标准误?有何作用?它与样本标准差有何区别与联系?3、显著性检验的基本步骤是什么?何谓两
2、类误差?4、什么是总体平均数、总体百分数P的点估计与区间估计?5、习题作业:标准化综合测试题第五章111题。参考书 盖钧镒(主编).2000.试验统计方法。中国农业出版社.6596页,羌抨恨蛾芋塔板沥瞪吱斋左喝还籍绎行峦载津种鼠民侨鲁铂险咎悔酿决络第五章假设检验第五章假设检验,第一节 显著性检验的意义,我们结合一个实际例子来说明。随机抽测10头长白猪和10头大白猪经产母猪的产仔数,资料如下(单位:头):长白 11 11 9 12 10 13 13 8 10 13 大白 8 11 12 10 9 8 8 9 10 7 记10头长白猪经产母猪的产仔数平均数为,10头大白猪经产母猪的产仔数平均数为,
3、容易算出:=11头,=9.2头,s1=1.76头,s2=1.549头平均数相差为:119.2=1.8(头)是否仅凭这个样本平均数的差异1.8头就简单地给这两个样本所在的总体平均数下结论说:长白猪经产母猪的产仔数平均头数肯定比大白猪经产母猪的产仔数高呢?在未经过差异显著性检验之前,我们只能回答:不一定。事实上,这个资料仅是有关总体的一个样本。长白猪的10个数据,是长白猪经产母猪产仔数总体的一个样本。长白猪的10个数据并不全部大于大白猪的10个数据。如果再随机抽测10头长白猪、10头大白猪经产母猪产仔数,我们又可以得到一个样本资料。两个样本平均数之差也许就不是1.8头而是别的数字了。试验研究的目的
4、不在于了解样本的结果,而在于通过样本来推断总体,给总体作出全面的结论。对于上述资料来说,就是要通过所获得的样本资料对长白猪、大白猪经产,帮沸裹嫡畅疵芦燎疡汐茬备丁芳残忙出愚狮断残便笼氨藩把绰烁续痉巷米第五章假设检验第五章假设检验,以什么作为检验的对象呢?在统计学中,以样本平均数 作为检验的对象,确切一点说,是以样本平均数的差异 的大小来对样本所在的总体平均数1、2是否相同作出推断的。为什么以样本平均数作为检验对象呢?这是因为:1前面已证明离均差的平方和(x)2最小,表明样本平均数与样本中各个变数相差最小,平均数是资料的代表数。2统计学已证明,样本平均数 是总体平均数的无偏估计值即 的数学期望是
5、。3根据统计学中的中心极限定理,样本平均数 服从或逼近正态分布。正因为样本平均数具有上述特性,我们才以样本平均数作为检验对象,由两个样本平均数差异的大小来推断两个样本所在总体的平均数是否相同。显然不能以样本中的各个变数作为检验对象,由两个样本各个变数间的比较来进行推断。,为什么不能仅凭样本平均数差异的大小,直接对样本所在总体的平均数是否相同下结论,而必须经过检验呢?这是因为:在试验研究中,虽然我们尽量排除各种偶然因素的干扰,以突出试验处理结果,但实际的情况常常是:即使是同一个处理的不同重复的观察值还表现不同,说明试验总会受到一些偶然因素的影响而产生试验误差。也就是说,我们所得到的观察值仅是试验
6、的表面结果,它除了包括试验处理的理论值(即试验处理观察值总体的平均数)外,还包括试验误差。设有一个样本,是某一试验处理的n次,母猪产仔数总体作出一个全面的结论。设长白猪经产母猪产仔数总体的平均数为1,大白猪经产母猪产仔数总体的平均数为2。均数差异显著性检验的目的,就是给1与2是否相同作出统计推断。,钎涸归丸私敝汤斜住贷命真观益网朔疤雌烫掌靖杨极磐当闺萄驰从稼浴辨第五章假设检验第五章假设检验,重复观察值;其数据为x1,x2,xn,假定该试验处理的理论值为。第i次重复的观察值中所包括的试验误差为i,。则第i次重复观察值 可表示为 xi=+i(i=1,2,n)该样本平均数 为,表明,样本平均数 并不
7、等于样本所在总体的平均数,它还包含有试验误差。,因为 所以两个样本平均数的差:可以表示为:,这个结果表明,在样本平均数的差 中,包含了两部分:一部是两个总体平均数的差,叫做试验的处理效应;一部分是试验误差,也就是说样本平均数的差 也受试验误差的干扰,我们把 叫做试验的表面效应。因而,当我们从 中提取结论时,就不能不分析试验的表面效应 主要是由于试验的处理效应或主要是由于试验误差所引起。我们的目的是对1与2。是否相同即试验处理效应是否存在作出推断。然而1,2常常不知道,但由于试验的表面效应是可以计算的,试验误差是可以估计的,于是我们只能从试验的表面效应与试验误差的权衡比较中对试验处理效应 是否存
8、在作出结论。显然,仅凭样本平均数差异即试验的表面效应的大小就下结论是不可靠的。,为了能通过试验了解试验处理(如品种、饲料种类、饲料用量等)的效应,并从试验的表面效应与试验误差的权衡比较中对试验的处理效应作出可靠的结论,,入鸥蛊掠蹭确但阔衬仍缩判疚槐道寐釜敢平瑰蹄威责谩闯旁牢层氦渔醇垮第五章假设检验第五章假设检验,对试验设计、试验的实施、观察记载,试验结果的统计分析提出了如下要求:1要求合理地进行试验设计,准确地进行试验和观察记载,尽量降低试验误差,避免系统误差,使试验结果(样本)能够代表总体,并能从试验数据中得出试验处理效应和试验误差的无偏估计。进行合理的试验设计以提高试验精确性的方法将在第十
9、二章中详细介绍。2要求合理地分析试验结果,从而获得有关总体的正确的统计推断。这是统计学中显著性检验所要讨论的问题。这一章我们将以非配对试验时均数差异显著性检验t检验为例,说明显著性检验的基本原理。先介绍所要用到的两个重要分布平均数的抽样分布与t分布。然后介绍显著性检验的基本步骤。,第二节 样本平均数的抽样分布与t分布,一、样本平均数的抽样分布设有一个总体,总体中的各变数记为x,总体平均数为标准差为。现从这个总体随机抽取一个含量为n的样本,该样本的平均数记为;再从这一总体随机抽取一个含量为n的样本。第2个样本的平均数记为;类似地,我们还可以从这一总体中抽取第3个、第4个,第k个,含量为n的样本,
10、其平均数分别记为,和,。这些样本平均数不一定等于总体平均数,常常表现不同程度的差异。这种差异是由随机抽样所造成的,统计上称为抽样误差。样本,平均数 也是一个随机变量,有其概率分布。样本平均数的概率分布叫样本平均,狗挨郁抨凋妖队茄盎铲续宙毙河佬热肌梧咽吹淑酪搔奇谅惋顾战换茁伞聚第五章假设检验第五章假设检验,数的抽样分布。由样本平均数 构成的总体叫样本平均数抽样总体,其平均数记为,标准差记为,是样本平均数抽样总体的标准差,简称为标准误,它表示了平均数抽样误差的大小。统计学已证明 总体的两个参数与x总体的两个参数有如下关系:,=;(n为样本含量),上述关系我们用一个具体的抽样试验来验证。设有一个总体
11、包含以下4个变数:x1=1,x2=2,x3=3,x4=4;N=4,该总体的平均数,标准差为=x/N=(1+2+3+4)/4=2.5;2=x2(x)2/N/N=(12+22+32+42)102/4/4=5/4=1.25,注意,这里的总体由4个变数组成,在求方差2时,分母不应是N1。我们从这个总体中每次抽出两个变数组成一个样本。每抽一个数字记下后放回,共可得42=16个样本。16个样本及其平均数如下:,喝十削苏讹互纳除盅肠侮夫乘坑伶禽筷憾科忠什势扼橡发连约彝轨部暖瓷第五章假设检验第五章假设检验,16个样本平均数的次数分布表如下:表51 16个样本平均数的次数分布表,这就验证了 的正确性。表明:标准
12、误的大小与总体标准差。成正比,与样本含量、的平方根正反比。样本越大,试验结果所得均数的抽样误差越小,即试验的精确性愈高,样本的代表性就愈强。,样本平均数抽样总体共包含16个平均数,根据表51可以计算出平均数,标准差:,很舒厄窃普孔措檀擞缴继酮造自捷把卜狄袱死荔坡踊臼瘩升朽措栽新摇各第五章假设检验第五章假设检验,1若随机变量x。服从正态分布N(,2);x1,x2xn是由x总体得来的随机样本,则统计量=x/n的概率分布也是正态分布,且,即 服从正态分布N(,2/n)。2若随机变量x的平均数是,方差是2(不一定是正态分布),x1,x2xn是由此总体得来的随机样本,则统计量=x/n的概率分布,是当n相
13、当大时,逼近正态分布N(,2/n)。这两个结果保证了样本平均数的抽样分布服从或者逼近正态分布。当xN(,2),则。由于,因此x的分布密度曲线与 的分布密度曲线有共同的对称轴,但前者比后者“高”、“瘦”,见图51。,图51从正态总体抽取的样本平均数的分布,概率论中的中心极限定理的下述两个结果。指出了x变量与 变量概率分布间的关系:,启尿杀宗癣笆阅篙琳猛阿唐绰揉噶氯瘦稀挝哮誉惦梳佑奖跃沛杂帆图凭列第五章假设检验第五章假设检验,上面所说的 都是相应总体的参数,在实际工作中,常常不知道。因而。也常常不知道。通常是用样本标准差S估计总体标准差,于是,也就用 估计。记 叫样本标准误,它是 的估计值,即平均
14、数抽样误差的估计值。设一个样本包含n个变数:x1,x2,xn,则 公式(51)是常用的计算公式之一。,(51),样本标准误和样本标准差是有区别的。样本标准差表示样本中各个变数的变异程度。对于同性质且平均数相同的资料,标准差大表示该资料各变数的变异程度大,标准差小表示该资料各变数的变异程度小;而样本标准误是样本平均数的标准差,它是样本平均数抽样误差的估计值。标准误的大小表示样本平均数精确性的高低。对于同性质且平均数相同的资料,标准误大说明样本平均数的精确性低,标准误小,说明样本平均数的精确性高。,二、t分布前面已说过,若随机变量x服从N(,2)。则样本平均数 服从,,其中。对于服从 正态分布的随
15、机变量,我们也可按第四章中介绍的方法,将其标准化。令,筏粮兽硼挡托撒享日簧属遣岂睛齿熄毯溪们儒锡倦烧响蹭添侦羌粮隧晃臀第五章假设检验第五章假设检验,则随机变量u服从标准正态分布N(0,1)。如果总体平均数、总体标准差已知,则对任一样本平均数 均可以计算出u值。于是,我们根据u服从N(0,1)就可进行有关的统计推断了,这就是所谓的u检验。然而总体标准差常不知道,需要用样本标准差来估计,需要用 来估计。于是,我们得到一个新的统计量;令:t也是一个随机变量,它不服从 N(0,1)分布。有关的统计检验就不能借助于 N(0,1)分布进行u检验了。,随机变量t的概率分布叫t分布。其分布密度函数为:,我们看
16、到,t分布因样本自由度df=n1的不同而不同,其分布密度曲线是一组曲线。可以证明,随机变量t的平均数为0,且分布密度曲线以y 轴为对称,形状很像标准正态分布密度曲线而稍扁平,顶部略低,尾部略高(见图52)。当n30时。t分布接近标准正态分布;当n时,t分布与标准正态分布合一,即,其中,(P0)为伽马(Gamma)函数。由分布密度函数f(t),肋狭瘁讲赵梳烹拧仓酌整钓市史挽粱跪魁问四恳移钓娃踢弯妹剖鹏寿豹炉第五章假设检验第五章假设检验,t分布当n时的极限分布为标准正态分布。因t分布具有上述特性。因而人们有时把n=30作为大小样本的界限;n30为小样本,n30为大样本。,图52 t分布与标准正态分
17、布密度曲线比较图,由于t分布受自由度的制约,所以t值在某个范围内取值的概率也随自由度的不同而不同。t分布的两尾概率见附表3,根据样本自由度df=n1可以查到对应于两尾概率的t值(叫临界t值)。t分布在小样本资料的统计推断中有着广泛而重要的应用。例1某品种成年猪体重总体的平均数=100kg,总体标准差未知,从n=16的一个样本计算得样本标准差S=20kg。试计算由随机抽样所获得的,与相差12.45kg以上的两尾概率。即计算 大于112.45kg与小于87.55kg的概率。要求计算的概率是,茨锣乐管亿扒存舞牺脓蹭象践麦为交层昏篓弓廓洋井疥傣绚破撑亲就疵议第五章假设检验第五章假设检验,p(112.4
18、5)=p(10012.45)=p(|100|12.45)。这里因为总体标准差未知,用样本标准差S估计,因而应利用t分布进行计算。,P(112.45)=P(|100|12.45)=(|100|/5)(12.45/5)=P(|t|2.49)。,查t值表,当 df=15时,与 2.49相对应的两尾概率为 0.025,于是 p(112.45)=P(|t|2.49)=0.025 即,随机抽样所得的样本平均数 与相差12.45kg以上的两尾概率是0.025(见图53)。,图53 与100相差12.45以上的两尾概率,轰脚垄坚纹甥姻陌青务航踢弱扼剃唉恭容喧姜券话维泥渤邮娶狞总握讶贮第五章假设检验第五章假设检
19、验,x1112,x1N(1,12),x2N(2,22),x2222,假设:1=2,用s合估计后得t值,平均数差数的抽样分布,坐益隐刘血盟演麓衬境兑柬贿钠艺铆而漾辛屁雍刺堰诽贼封骋客师麓茫惫第五章假设检验第五章假设检验,第三节 显著性检验的基本步骤,t分布的特性,复习,显著性检验一般有三个步骤。我们结合第一节中的例子进行介绍。1首先对试验样本所在的总体作一个假设。对于第一节中的例子,先假设长白猪经产母猪产仔数的平均数1,等于大白猪经产母猪产仔数的平均数2,即假设1=2或12=0,也就是假设两个样本平均数的差(试验的表面效应)属于试验误差。我们所作出的这种假设常常称为无效假设(或称为解消假设)。意
20、味着所比较的两个总体平均数间没有差异,即试验处理效应12为0,无效假设是待检验的假设,该假设有可能被接受,也有可能被否定。我们所作出的无效假设记为H0:1=2。提出无效假设时,相应地还应提出一对应假设(或称为备择假设)。对应假设是无效假设被否定时,准备接受的假设。对于我们所讨论的例子,对应假设应为:长白猪经产母猪产仔数总体的平均数1不等于大白猪经产母猪产仔数的平均数2的。记为HA:12。通过检验,若否定无效假设,我们就接受对应假设。,咀挽简拒睫躬罢韵肯醒宰链栖虱烽翰肪媳夸境逊雏吻丈魏妨人搽狄灌付磷第五章假设检验第五章假设检验,2在上述无效假设成立的条件下,研究试验所得的统计数的抽样分布。这里,
21、我们研究无效假设H0:1=2成立的条件下,两个样本平均数的差 的抽样分布,经过研究,我们能得到一个df=(n11)+(n21)(n1为第一个样本含量,n2为第二个样本含量)的t分布:,,df=(n11)+(n21)。,其中 叫做均数差异标准误。,于是,我们可以根据两个样本的数据,计算出 与,进而计算出t值。对于所讨论的例子,经计算,下面我们来估计|t|2.426的两尾概率,即估计P(|t|2.426)是多少。查t值表(附表 3):在df=(nl1)+(n21)=(101)+(101)=18时,两尾概率为0.05的临界t值为2.101,即 P(|t|2.101)=P(t 2.101)+P(t2.
22、101)=0.05;今计算得的t值为2.426,即 tt0.05(18)说明|t|2.426的概率小于0.05,即.P0.05见图54。也就是说,试验的表面,喀糟捂催第诉梦怜说诀趋奇哈彬冕字弦其梅盛堆浮吻嫁畅座矣姿貌麻谭匪第五章假设检验第五章假设检验,效应 属于试验误差的概率小于0.05。,图54|t|2.426的两尾概率 3根据小概率事件实际不可能性原理否定或接受无效假设。当事件的概率很小时,我们可以认为在一次试验中,该事件几乎不可能发生。例如,当试验的表面效应属于试验误差的概率小于0.05时,我们可以说,在一次试验中,这个试验的表面效应不可能属于试验误差所引起,这主要是由于存在试验处理效应
23、的缘因。因而否定原先所作出的无效假设H0:1=2,即否定试验表面效应是随机误差的假设,此时就承认对应假设HA:12,即承认试验处理效应是“显著的”。当然,如果所估计的两尾概率大于0.05,说明试验表面效应是试验误差的可能性较大,即原先所作出的无效假设H0:1=2成立的可能性较大,不能否定H0:1=2,从而不能接受HA:12,我们就说试验处理效应是“不显著的”。,权饮凿适坡通讨钻四闻塔凸农附萧鉴肩苦帕湍琳料硝西杠忱码诬劫李寐兽第五章假设检验第五章假设检验,上例中,试验表面效应为试验误差的概率小于0.05,所以否定无效假设H0:1=2,接受对应假设HA:12。就是说,长白猪经产母猪产仔数总体的平均
24、数与大白猪经产母猪产仔数总体的平均数是不相同的。现有的两样本均数间的差异1.8不是误差引起的效应。到此为止,显著性检验的三个步骤才算完成。对于我们所举的例子,还有以下几点说明:1我们所举的例子属于“非配对试验”,对于这种“非配对试验”结果,有相应的统计分析方法。前面介绍的就是“非配对试验时均数差异显著性检验t检验法”。有关“非配对试验”、“配对试验”,后面还要专门介绍。2进行显著性检验时,无效假设和对应假设的选用,决定了采用两尾概率或是一尾概率进行检验。若无效假设为H0:1=2,对应假设为HA:12。此时,对应假设有两种可能性。或12,或12,相应的t检验用t分布的两尾概率,这类检验称为两尾检
25、验。一般,若比较两种试验处理。事先不知道谁优谁劣,分析的目的在于确定两种试验处理有无差别,就用两尾检验。若无效假设为H0:12,对应假设为HA:12(或无效假设为H0:12,对应假设为HA:12),这时对应假设仅有一种可能性,相应的t检验用t分布的一尾概率,这类检验称为一尾检验。一般,如果已知甲处理不会比乙处理差,分析的目的在于确定甲处理是否比乙处理好,则用一尾检验。此时无效假设可为H0:甲乙(或H0:乙甲),对立假设为HA:甲乙(或HA:乙甲)。附表中的t值表给出的是两尾概率,用于两尾检验。今后若不作特别申明,所进行的t检验一般指两尾检验。若需要进行一尾t检验,也可用两尾概率的t值表查一尾,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 假设检验
链接地址:https://www.31ppt.com/p-5158070.html