《【教学课件】第五章统计假设测验.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第五章统计假设测验.ppt(89页珍藏版)》请在三一办公上搜索。
1、第五章统计假设测验,第一节 统计假设测验的基本原理第二节 平均数的假设测验第三节 二项资料的百分数假设测验第四节 参数的区间估计,第一节统计假设测验的基本原理,一、统计假设的基本概念二、统计假设测验的基本方法三、两尾测验与一尾测验。四、假设测验的两类错误,一、统计假设的基本概念,所谓统计假设(statistical hypothesis)是指有关某一总体参数的假设。例如假设某小麦新品种的产量和原地方品种的产量一样,或者比旧地方品种更好。,单个平均数的假设,适于统计测验的假设,两个平均数相比较的假设,(一)单个平均数的假设 一个样本是从一个具有平均数 的总体中随机抽出的,记作:。例如:(1)某一
2、小麦品种的产量具有原地方品种的产量,这指新品种的产量表现乃原地方品种产量表现的一个随机样本,其平均产量 等于某一指定值,故记为。(2)某一棉花品种的纤维长度()具有工业上某一指定的标准(),这可记为。,(二)两个平均数相比较的假设 两个样本乃从两个具有相等参数的总体中随机抽出的,记为 或。例如:(1)两个小麦品种的产量是相同的。(2)两种杀虫药剂对于某种害虫的药效是相等的。,上述两种假设称为无效假设(null hypothesis)。因为假设总体参数(平均数)与某一指定值相等或假设两个总体参数相等,即假设其没有效应差异,或者说实得差异是由误差造成的。,和无效假设相对应的应有一个统计假设,叫对应
3、假设或备择假设(alternative hypothesis),记作 或。如果否定了无效假设,则必接受备择假设;同理,如果接受了无效假设,当然也就否定了备择假设。,二、统计假设测验的基本方法,(一)对所研究的总体首先提出一个统计假设(二)在承认上述无效假设的前提下,获得平均数的抽样分布,计算该假设正确的概率(三)根据“小概率事件实际上不可能发生”原理接受或否定假设,下面以一个例子说明假设测验方法的具体内容。设某地区的当地小麦品种一般667m2产300kg,即当地品种这个总体的平均数=300(kg),并从多年种植结果获得其标准差=75(kg),而现有某新品种通过25个小区的试验,计得其样本平均产
4、量为每667m2330kg,即=330,那么新品种样本所属总体与=300的当地品种这个总体是否有显著差异呢?以下将说明对此假设进行统计测验的方法。,(一)对所研究的总体首先提出一个无效假设 通常所做的无效假设常为所比较的两个总体间无差异。测验单个平均数,则假设该样本是从一已知总体(总体平均数为指定值)中随机抽出的,即。如上例,即假定新品种的总体平均数 等于原品种的总体平均数=300kg,而样本平均数和之间的差数:330300=30(kg)属随机误差;对应假设则为。如果测验两个平均数,则假设两个样本的总体平均数相等,即,也就是假设两个样本平均数的差数 属随机误差,而非真实差异;其对应假设则为。,
5、(二)在承认上述无效假设的前提下,获得平均数的抽样分布,计算假设正确的概率 先承认无效假设,从已知总体中抽取样本容量为n=25的样本,该样本平均数的抽样分布具正态分布形状,平均数=300(kg),标准误=15(kg)。通过试验,如果新品种的平均产量很接近300 kg,例如301kg或299kg等,则试验结果当然与假设相符,于是应接受H0。如果新品种的平均产量为500kg,与总体假设相差很大,那当然应否定H0。但如果试验结果与总体假设并不相差悬殊,就要借助于概率原理,具体做法有以下两种:,1.计算概率 在假设 为正确的条件下,根据的抽样分布算出获得=330kg的概率,或者说算得出现随机误差=30
6、(kg)的概率:在此,根据u 测验公式可算得:,因为假设是新品种产量有大于或小于当地品种产量的可能性,所以需用两尾测验。查附表3,当u=2时,P(概率)界于0.04和0.05之间,即这一试验结果:=30(kg),属于抽样误差的概率小于5%。,2.计算接受区和否定区 在假设H0为正确的条件下,根据 的抽样分布划出一个区间,如 在这一区间内则接受H0,如 在这一区间外则否定H0。如何确定这一区间呢?,根据上章所述 和 的分布,可知:,因此,在 的抽样分布中,落在()区间内的有95%,落在这一区间外的只有5%。,如果以5%概率作为接受或否定H0的界限,则上述区间()为接受假设的区域,简称接受区(ac
7、ceptance region);和 为否定假设的区域,简称否定区(rejection region)。,同理,若以1%作为接受或否定H0的界限,则()为接受区域,和 为否定区域。,所以在测验时需先计算1.96 或2.58,然后从 加上和减去1.96 或2.58,即得两个否定区域的临界值。,如上述小麦新品种例,=300,,1.96=29.4(kg)。因之,它的两个2.5%概率的否定区域为 30029.4和 300+29.4,即大于329.4(kg)和小于270.6(kg)的概率只有5%(见图5.1)。,图5.1 5%显著水平假设测验图示(表示接受区域和否定区域),(三)根据“小概率事件实际上不
8、可能发生”原理接受或否定假设,当 由随机误差造成的概率小于5%或1%时,就可认为它不可能属于抽样误差,从而否定假设。如果因随机误差而得到某差数的概率P0.05,则称这个差数是显著的。如果因随机误差而得到某差数的概率P0.01,则称这个差数是极显著的。而这种假设测验也叫显著性测验。用来测验假设的概率标准5%或1%等,称为显著水平(significance level)。一般以 表示,如=0.05或=0.01。,综合上述,统计假设测验的步骤可总结如下:(1)对样本所属的总体提出统计假设,包括无效假设和备择假设。(2)规定测验的显著水平 值。(3)在 为正确的假定下,根据平均数()或其他统计数的抽样
9、分布,如为正态分布的则计算正态离差u值。由u值查附表3即可知道因随机抽样而获得实际差数(如 等)由误差造成的概率。或者根据已规定概率,如=0.05,查出u=1.96,因而划出两个否定区域为:和(4)将规定的 值和算得的u值的概率相比较,或者将试验结果和否定区域相比较,从而作出接受或否定无效假设的推断。,三、两尾测验与一尾测验,如果统计假设为,则备择假设为,在假设测验时所考虑的概率为曲线左边一尾概率(小于)和右边一尾概率(大于)的总和。这类测验称为两尾测验(two-tailed test),它具有两个否定区域。,如果统计假设为,则其对应的备择假设必为。因而,这个对应的备择假设仅有一种可能性,而统
10、计假设仅有一个否定区域,即曲线的右边一尾。这类测验称一尾测验(one-tailed test)。一尾测验还有另一种情况,即,,这时否定区域在左边一尾.作一尾测验时,需将附表3列出的两尾概率乘以1/2,再查出其u值。,四、假设测验的两类错误,表5.1 假设测验的两类错误,第一类错误的概率为显著水平 值。第二类错误的概率为 值。值的计算方法就是计算抽样平均数落在已知总体的接受区的概率(这里的已知总体是假定的)。,例:已知总体的均值=300,其平均数抽样标准误为15,被抽样总体的平均数 315kg、标准误也为15,由此可以画出这两个总体的分布曲线如图5.2,图中标出了已知总体的接受区域在c1和c2之
11、间。由于两个总体的平均数不同,这种可能性正是第二类错误的概率值,其一般计算方法为:,查附表2,P(u12.96)=0.0015,P(u20.96)=0.8315,故有=P(u20.96)P(u1 2.96)=0.83150.0015=0.83或83%,图5.2:=300是错误时的 值,关于两类错误的讨论可总结如下:(1)在样本容量n固定的条件下,提高显著水平(取较小的值),如从5%变为1%则将增大第二类错误的概率 值。(2)在n和显著水平 相同的条件下,真总体平均数 和假设平均数 的相差(以标准误为单位)愈大,则犯第二类错误的概率 值愈小。(3)为了降低犯两类错误的概率,需采用一个较低的显著水
12、平,如=0.05;同时适当增加样本容量,或适当减小总体方差,或两者兼有之。(4)如果显著水平 已固定下来,则改进试验技术和增加样本容量可以有效地降低犯第二类错误的概率。,第二节 平均数的假设测验,一、t 分布二、单个样本平均数的假设测验三、两个样本平均数相比较的假设测验,一、t 分布,从一个平均数为、方差为 的正态总体中抽样,,(2)当样本容量不太大(n30)而 为未知时,以样本均方 估计,则其标准化离差 的分布不呈正态,而作 t 分布,具有自由度DF=n-1。,(1)样本平均数 的分布必趋向正态分布,,并且 遵循正态分布N(0,1)。,(51),为样本平均数的标准误,,s为样本标准差,n为样
13、本容量。,t 分布(t-distribution)是1908年.S.Gosset首先提出的,又叫学生氏分布(students t distribution)。它是一组对称密度函数曲线,具有一个单独参数 以确定某一特定分布。v 是自由度。在理论上,当v 增大时,t 分布趋向于正态分布。,t 分布的密度函数为:,t 分布的平均数和标准差为:,(54),(53),t 分布曲线是对称的,围绕其平均数 向两侧递降。和正态曲线比较,t 分布曲线稍为扁平,峰顶略低,尾部稍高(图5.5)。t 分布是一组随自由度v 而改变的曲线,但当v30时接近正态曲线,当v=时和正态曲,线合一。由于t 分布受自由度制约,所以
14、t 值与其相应的概率也随自由度而不同。,t 分布的概率累积函数为:,(55),和正态概率累积函数一样,t 分布的概率累积函数也分一尾表和两尾表。计算 于给定 t0 值时,因而t 分布曲线右尾从 t 到的面积为1Fv(t),而两尾面积则为21Fv(t),在t 表中,若v相同,则P越大,t 越小;P越小,t 越大。因此在假设测验时,若算得的|t|,则接受无效假设。,二、单个样本平均数的假设测验,测验某一样本 所属总体平均数是否和某一指定的总体平均数相同。,例5.1 某春小麦良种的千粒重 34g,现自外地引入一高产品种,在8个小区种植,得其千粒重(g)为:35.6、37.6、33.4、35.1、32
15、.7、36.8、35.9、34.6,问新引入品种的千粒重与当地良种有无显著差异?,这里总体 为未知,又是小样本,故需用t 测验;又新引入品种千粒重可能高于也可能低于当地良种,故需作两尾测验。测验步骤为:,H0:新引入品种千粒重与当地良种千粒重指定值相同,即 34g;或简记作H0:34g;对HA:34g。,显著水平=0.05。,测验计算:,查附表4,v=7时,t0.05=2.365。现实得|t|0.05。,推断:接受H0:34g,即新引入品种千粒重与当地良种千粒重指定值没有显著差异。,三、两个样本平均数相比较的假设测验,由两个样本平均数的相差,以测验这两个样本所属的总体平均数有无显著差异。,测验
16、方法,成组数据的平均数比较,成对数据的比较,(一)成组数据的平均数比较,如果两个处理为完全随机设计的两个处理,各供试单位彼此独立,不论两个处理的样本容量是否相同,所得数据皆称为成组数据,以组(处理)平均数作为相互比较的标准。,成组数据的平均数比较又依两个样本所属的总体方差(和)是否已知、是否相等而采用不同的测验方法。,(1)在两个样本的总体方差 和 为已知时,用u测验,由抽样分布的公式知,两样本平均数 和 的差数标准误,在 和 是已知时为:,并有:,在假设 下,正态离差u值为,故可对两样本平均数的差异作出假设测验。,例5.2 据以往资料,已知某小麦品种每平方米产量的。今在该品种的一块地上用A、
17、B两法取样,法取12个样点,得每平方米产量=1.2(kg);B法取8个样点,得=1.4(kg)。试比较A、B两法的每平方米产量是否有显著差异?,假设H0:A、B两法的每平方米产量相同,即 系随机误差;对 显著水平,因为实得|u|0.05 推断:接受,即A、B两种取样方法所得的每平方米产量没有显著差异。,(2)在两个样本的总体方差 和 为未知,但可假定,而两个样本又为小样本时,用t 测验。,从样本变异算出平均数差数的均方,,(56),其两样本平均数的差数标准误为:,当 时,,于是有:,由于假设,故,自由度,(57),(58),(59A),(59B),例5.3 调查某农场每亩30万苗和35万苗的稻
18、田各5块,得亩产量(单位:kg)于表5.2,试测验两种密度亩产量的差异显著性。,表5.2 两种密度的稻田亩产(kg),假设H0:两种密度的总体产量没有差异,即 对,显著水平=0.05,测验计算:=428kg=440kg SS1=1930 SS2=550,故,查附表4,v=4+4=8时,t0.05=2.306。现实得|t|=1.080.05。推断:接受假设,两种密度的亩产量没有显著差异。,例5.4 研究矮壮素使玉米矮化的效果,在抽穗期测定喷矮壮素小区8株、对照区玉米9株,其株高结果如表5.3。试作假设测验。,表5.3 喷矮壮素与否的玉米株高(cm),矮壮素只可能矮化无效而不可能促进植侏长高,因此
19、假设H0:喷矮壮素的株高与未喷的相同或更高,即 对即喷矮壮素的株高较未喷的为矮,作一尾测验。显著水平=0.05。,测验计算:=176.3cm=233.3cm SS1=3787.5 SS2=18400,故有,按 v=7+8=15,查t表得一尾 t0.05=1.753(一尾测验t0.05等于两尾测验的t0.10),现实得 t=3.05t0.05=1.753,P0.05。推断:否定,接受,即认为玉米喷矮壮素后,其株高显著地矮于对照。,(3)两个样本的总体方差 和 为未知,且 时,用近似t测验,由于,故差数标准误需用两个样本的均方 和 分别估计 和,即有:,(511),在作t 测验时需先计算k值和,(
20、510),(512A),然后有,(近似于t分布,具有有效自由度为),(513),(Satterwaite公式),(512B),进一步有,例5.5 测定冬小麦品种东方红3号的蛋白质含量(%)10次,得=14.3,=1.621;测定农大139号的蛋白质含量5次,得=11.7,=0.135。试测验两品种蛋白质含量的差异显著性。,假设H0:两品种的蛋白质含量相等,即;对。显著水平=0.01,两尾测验。,测验计算:,查附表,=11时,t0.01=3.106。现 3.106,故P0.01。推断:否定,接受。即两品种的蛋白质含量有极显著差异。,(二)成对数据的比较,若试验设计是将性质相同的两个供试单位配成一
21、对,并设有多个配对,然后对每一配对的两个供试单位分别随机地给予不同处理,则所得观察值为成对数据。,成对数据,由于同一配对内两个供试单位的试验条件很是接近,而不同配对间的条件差异又可通过同一配对的差数予以消除,因而可以控制试验误差,具有较高的精确度。在分析试验结果时,只要假设两样本的总体差数的平均数,而不必假定两样本的总体方差 和 相同。,设两个样本的观察值分别为y1和 y2,共配成n对,各个对的差数为 d=y1y2,差数的平均数为,则差数平均数的标准误 为:,因而,它具有 v=n1。若假设,则上式改为:,即可测验,(514),(515A),(515B),例5.6 选生长期、发育进度、植株大小和
22、其他方面皆比较一致的两株番茄构成一组,共得7组,每组中一株接种A处理病毒,另一株接种B处理病毒,以研究不同处理方法的饨化病毒效果,表5.4结果为病毒在番茄上产生的病痕数目,试测验两种处理方法的差异显著性。,表5.4 A、B两法 处理的病毒在番茄上产生的病痕数,这是配对设计,因A、B两法对饨化病毒的效应并未明确,故用两尾测验。,假设:两种处理对饨化病毒无不同效果,即;对。显著水平。,测验计算:,查附表,v=7-1=6时,t0.01=3.707。实得现|t|t0.01,故P0.01。推断:否定,接受,即A、B两法对饨化病毒的效应有极显著差异。,例5.7 研究某种新肥料能否比原肥料每亩增产5kg以上
23、皮棉,选土壤和其他条件最近似的相邻小区组成一对,其中一区施新肥料,另一区施原肥料作对照,重复9次。产量结果见表5.5。试测验新肥料能否比原肥料每亩增产5kg以上皮棉?,表5.5 两种肥料的皮棉产量(kg),因为要测验新肥料能否比对照增产5kg,故采用一尾测验。,H0:新肥料比对照每亩增收不到5kg,最多5kg,即;对HA:新肥料比对照每亩可增收5kg以上,即。显著水平。,测验计算:,按v=91=8,查t表得,t0.05=1.860(一尾概率)。现实得|t|0.05。推断:接受,即认为新肥料较原肥料每亩增收皮棉不超过5kg。,成对数据和成组数据平均数比较的不同:(1)成对数据和成组数据平均数比较
24、所依据的条件是不相同的。前者是假定各个配对的差数来自差数的分布为正态的总体,具有N(0,);而每一配对的两个供试单位是彼此相关的。后者则是假定两个样本皆来自具有共同(或不同)方差的正态总体,而两个样本的各个供试单位都是彼此独立的。(2)在实践上,如将成对数据按成组数据的方法比较,容易使统计推断发生第二类错误,即不能鉴别应属显著的差异。故在应用时需严格区别。,第三节 二项资料的百分数假设测验,许多生物试验的结果是用百分数或成数表示的,如结实率、发芽率等,这些百分数系由计数某一属性的个体数目求得,属间断性的计数资料.在理论上,这类百分数的假设测验应按二项分布进行,即从二项式(p+q)n的展开式中求
25、出某项属性个体百分数的概率。但是,如样本容量n 较大,p较小,而np和nq又均不小于5时,(p+q)n的分布趋近于正态。因而可以将百分数资料作正态分布处理,从而作出近似的测验。适于用u测验所需的二项样本容量n见表5.6。,表5.6 适于用正态离差测验的二项样本的 和n值表,一、单个样本百分数(成数)的假设测验,测验某一样本百分数 所属总体百分数与某一理论值或期望值p0的差异显著性。由于样本百分数的标准误 为:,故由,即可测验H0:p=p0。,(516),(517),例5.8 以紫花和白花的大豆品种杂交,在F2代共得289株,其中紫花208株,白花81株。如果花色受一对等位基因控制,则根据遗传学
26、原理,F2代紫花株与白花株的分离比率应为31,即紫花理论百分数p=0.75,白花理论百分数q=1p=0.25。问该试验结果是否符合一对等位基因的遗传规律?,假设大豆花色遗传符合一对等位基因的分离规律,紫花植株的百分数是75%,即H0:p=0.75;对HA:p0.75。显著水平 0.05,作两尾测验,u0.05=1.96。,测验计算:,因为实得|u|0.05。,推断:接受H0:p=0.75,即大豆花色遗传是符合一对等位基因的遗传规律的,紫花植株百分数=0.72和p=0.75的相差系随机误差。如果测验H0:p=0.25,结果完全一样。,以上资料亦可直接用次数进行假设测验。当二项资料以次数表示时,,
27、故测验计算:,于是,结果同上,二、两个样本百分数相比较的假设测验,测验两个样本百分数和所属总体百分数p1和p2的差异显著性.一般假定两个样本的总体方差是相等的,即,设两个样本某种属性个体的观察百分数分别为 和,而两样本总体该种属性的个体百分数分别为p1和 p2,则两样本百分数的差数标准误 为:,(518),上式中的q1=(1p1),q2=(1p2)。这是两总体百分数为已知时的差数标准误公式。,如果假定两总体的百分数相同,即 p1=p2=p,q1=q2=q,则:,p1 和 p2 未知时,则在 的假定下,可用两样本百分数的加权平均值 作为 p1 和 p2 的估计。,(520),(519),因而两样
28、本百分数的差数标准误为:,(521),故由,即可对 H0:p1=p2 作出假设测验。,(522),例5.9 调查低洼地小麦378株(n1),其中有锈病株355株(y1),锈病率93.92%();调查高坡地小麦396株(n2),其中有锈病346株(y2),锈病率87.31%()。试测验两块麦田的锈病率有无显著差异?,假设H0:两块麦田的总体锈病率无差别,即 H0:p1=p2;对 HA:p1 p2。显著水平取,作两尾测验,u0.05=1.96。,测验计算:,实得|u|u0.05,故P0.05,,推断:否定H0:p1=p2 接受HA:p1 p2,即两块麦田的锈病率有显著差异。,例5.10 原杀虫剂A
29、在1000头虫子中杀死657头,新杀虫剂B在1000头虫子中杀死728头,问新杀虫剂B的杀虫率是否高于原杀虫剂A?,假设新杀虫剂B的杀虫率并不高于原杀虫剂A,即 H0:P2P1;对 HA:P2P1。显著水平,作一尾测验,u0.01=2.326(一尾概率)。,测验计算:,实得uu0.01=2.326,故P0.01,,推断:否定H0:P2P1,接受HA:P2P1,即新杀虫剂的杀虫率极显著地高于原杀虫剂A。,三、二项样本假设测验时的连续性矫正,二项总体的百分数的分布是间断性的二项分布。把它当作连续性的正态分布或t分布处理,结果会有些出入,一般容易发生第一类错误。因此,在假设测验时需进行连续性矫正。(
30、1)在n30,而 5时这种矫正是必须的;经过连续性矫正的正态离差u值或t 值,分别以uC 或 tC 表示。(2)如果样本大,试验结果符合表5.6条件,则可以不作矫正,用u测验。,(一)单个样本百分数假设测验的连续性矫正,单个样本百分数的连续性矫正公式为:,它具有 v=n1。式中,是 的估计值,(523),(524),例5.11 用基因型纯合的糯玉米和非糯玉米杂交,按遗传学原理,预期F1植株上糯性花粉粒的p0=0.5,现在一视野中检视20粒花粉,得糯性花粉8粒,试问此结果和理论百分数p0=0.5是否相符?,假设系p=p0=0.5的一个随机样本,即H0:p=0.5 对HA:p0.5 显著水平取,用
31、两尾测验。,测验计算:,np=nq=200.5=10,推断认为实得百分数0.4与理论百分数0.5没有显著差异。,查附表4,v=201=19,t0.05=2.093,现实得|t|0.05,=200.4=8粒(糯),=20-8=12粒(非糯),(二)两个样本百分数相比较的假设测验的连续性矫正,设两个样本百分数中,取较大值的具有 y1 和 n1,取较小值的具有 y2 和 n2,则经矫正的 tC 公式为:,(525),它具有 v=n1+n22。,其中 为 中 的估计值。,例5.12 用新配方农药处理25头棉铃虫,结果死亡15头,存活10头;用乐果处理24头,结果死亡9头,存活15头。问两种处理的杀虫效
32、果是否有显著差异?,本例不符合表5.6条件,故需要进行连续性矫正。,假设两种处理的杀虫效果没有差异,即H0:p1=p2;对HA:p1 p2。显著水平,作两尾测验。,测验计算:,查附表,v=24+252=4745时,t0.05=2.014。现实得|tC|0.05。,推断:接受H0:p1=p2,否定HA:p1 p2,即承认两种杀虫剂的杀虫效果没有显著差异。,本例如不作连续性矫正,t=(0.600.375)/0.143,大于1.29,增加了否定H0 发生第一类错误的可能性。,第四节 参数的区间估计,所谓参数的区间估计,是指在一定的概率保证之下,估计出一个范围或区间以能够覆盖参数。这个区间称置信区间(
33、confidence interval),区间的上、下限称为置信限(confidence limit),区间的长度称为置信距。一般以L1和L2分别表示置信下限和上限。保证该区间能覆盖参数的概率以P=(1)表示,称为置信系数或置信度。,一、总体平均数 的置信限,(一)在总体方差 为已知时,的置信区间为:,并有,以上式中的 为正态分布下置信度1 时的u临界值。,(二)在总体方差 为未知时,需由样本均方s2 估计,于是置信区间为:,并有,上式中的 为置信度P=(1)时 t 分布的 t 临界值。,(526A),(526B),(527A),(527B),例5.13 某棉花株行圃36个单行的皮棉平均产量为
34、 kg,已知=0.3kg,求99%置信度下该株行圃单行皮棉产量的置信区间。,在置信度P=(1)=99%下,由附表3查得 u0.01=2.58;并算得;故99%置信区间为 即,推断:估计该株行圃单行皮棉平均产量在4.04.2kg之间,此估计值的可靠度有99%。,例5.14 例5.1已算得某春小麦良种在8个小区的千粒重平均数,。试估计在置信度为95%时该品种的千粒重范围。,由附表4查得 v=7时 t0.05=2.365,故代入(527A)有,即,推断:该品种总体千粒重在33.836.6g之间的置信度为95%。在表达时亦可写作 形式,即该品种总体千粒重95%置信度的区间是35.2(2.3650.58
35、)=35.21.4(g),即33.836.6g。,二、两总体平均数差数()的置信限,在一定的置信度下,估计两总体平均数 至少能差多少。估计方法依两总体方差是否已知或是否相等而有不同。,(一)在两总体方差为已知或两总体方差虽未知但为大样本时,对 的1 置信区间应为:,并且,上式中的 为平均数差数标准误,为正态分布下置信度为1 时的u临界值。,例5.15 测得高农选1号甘薯332株的单株平均产量,1550(g),5.350(g),白皮白心甘薯282株,1250(g),3.750(g)。试估计两品种单株平均产量的相差在95%置信度下的置信区间。,由附表3查得置信度为0.95时,u0.05=1.96;
36、并可算得:,因而,95%的置信限为:,L1=(750-600)1.9618=114.7(g)L2=(750-600)+1.9618=185.3(g),故高农选1号甘薯的单株平均产量比白皮白心甘薯多114.7185.7(g),这个估计有95%的把握。,(二)在两总体方差为未知时,有两种情况:,1.假设两总体方差相等,即:的1-置信区间为:,并有,以上的 为平均数差数标准误,是置信度为1,自由度为 v=n1+n22 时 t 分布的临界值。,例5.16 试估计表5.2资料两种密度667m2产量差数在置信度为99%时的置信区间。,在前面已算得:,由附表查得 v=8 时,t0.01=3.355,故有 L
37、1=(428440)(3.35511.136)=49.4,L2=(428440)+(3.35511.136)=25.4(kg)。结果说明,667m2栽30万亩苗的产量可以比667m2栽35万苗的每亩少收49.4kg至每亩多收25.4kg,波动很大。所以这个例子是接受 的.,的。,当 被接受时,意味着两总体平均数相等,即。因此,可用两样本平均数的加权平均数 作为对 的估计:,或,因而对 的置信区间为:,2.两总体方差不相等,即,这时由两样本的 和 作为 和 估计而算得的 t,已不是 v=v1+v2 的 t 分布,而是近似于自由度为 的 t 分布。,可得对的1 的置信区间为:,故根据,并有,为置信
38、度1 时自由度 的 t 分布临界值,其中,例5.17 试求例5.5资料东方红3号小麦的蛋白质含量与农大139号小麦蛋白质含量的相差的95%置信限。,在例5.5已得:,由附表查得,故有L1=(14.311.7)(2.2010.435)=1.6(%),L2=(14.311.7)+(2.2010.435)=3.6(%),因此东方红3号小麦的蛋白质含量可比农大139号高1.63.6%,这种估计的可靠度为95%。,(三)成对数据总体差数 的置信限,由,可得 的1-置信区间:,并有,为置信度为1,v=n1时 t 分布的临界 t 值。,其中,例5.18 试求表5.4资料 的99%置信限。,在例5.6已算得:
39、,并由附表查得 v=6 时 t0.01=3.707,于是有:L1=8.3(3.7071.997)=15.7(个),L2=8.3+(3.7071.997)=0.9(个)。,或写作,以上L1和L2皆为负值,表明A法处理病毒在番茄上产生的病痕数要比B法减小0.915.7个,此估计的置信度为99%。,三、二项总体百分数p的置信限,二项总体百分数p的置信区间,可按二项分布或正态分布来估计。,(1)二项分布所得结果较为精确,可以根据样本容量n和某一属性的个体数f,在已经制好的统计表(附表9)上直接查得对总体的上、下限,甚为方便。(2)但附表9只包括小部分n,在不敷应用时,可由正态分布来估计。由正态分布所得
40、的结果只是一近似值,可在资料符合表5.6条件时应用;在置信度P=1 下,对总体p置信区间的近似估计为:,并有,以上式中,例5.19 调查100株玉米,得到受玉米螟危害的为20株,即=20/100=0.2或=20。试计算95%置信度的玉米螟危害率置信区间。,由附表9在样本容量n=100的列和左边观察次数f=20株的交叉处查得的数为13和29,即真实次数在1329范围内。,如以 表示,则 的置信度为95%。,如按正态近似法计算,则,故 L1=0.2(1.960.04)=0.1216,L2=0.2+(1.960.04)=0.2784,四、两个二项总体百分数差数(p1p2)的置信限,这是要确定某一属性
41、个体的百分数在两个二项总体间的相差范围。这一估计只有在已经明确两个百分数间有显著差异时才有意义。若资料符合表5.6条件,该区间可按正态分布估计。,在1 的置信度下,p1p2 的置信区间为:,并有,其中,例5.20 例5.9已测知低洼地小麦的锈病率=93.92%(n1=378),高坡地小麦的锈病率=87.31%(n2=396),它们有显著差异。试按95%置信度估计两地锈病率相差的置信区间。,由附表查得 u0.05=1.96,而,故有 L1=(0.93920.8731)(1.960.02075)=0.0256,L2=(0.93920.8731)+(1.960.02075)=0.1070,即低洼地的
42、锈病率比高坡地高2.5610.70%,此估计的置信度为95%。,五、区间估计与假设测验,区间估计亦可用于假设测验。对参数所作假设若恰落在该范围内,则这个假设与参数就没有真实的不同,因而接受 H0;反之,如果对参数所作的假设落在置信区间之外,则说明假设与参数不同,所以应否定 H0,接受 HA。,例5.21 例5.1已算得新引入春小麦品种的千粒重,故其95%置信区间的两个置信限为:,L1=35.2(2.3650.58)=33.8(g)L2=35.2+(2.3650.58)=36.6(g),曾经假设,此值落在上述置信区间内,所以不能认为新引入品种与当地原有良种的千粒重有显著差异,即接受。这和例5.1
43、的结论完全相同。,例5.22 在例5.18已求得两种不同处理的病毒,接种在番茄上产生的病痕数的相差,在1 置信度下的区间为(个)。如果假设,则该区间内并不包括0值,所以,两种处理方法是有显著差异的,显著水平是0.05。其结论与例5.6同。,例5.23 在例5.20已求得低洼地小麦锈病率与高坡地小麦锈病率的相差的95%置信区间为:2.56%(p1p2)10.7%。,若假设H0:p1=p2,则该假设在上述置信区间外,故在=0.05水平上否定 H0,接受 HA:p1p2 0。,置信区间不仅提供一定概率保证的总体参数范围,而且可以获得假设测验的信息。其间关系可总结为以下几点:,(1)若在1 的置信度下,两个置信限同为正号或同为负号,则否定无效假设,而接受备择假设。(2)若在1 置信度下,两个置信限为异号(一正一负),即其区间包括零值,则无效假设皆被接受。如例5.16。(3)若两个置信限皆为正号,则有一个参数大于另一个参数的结论成立,如例5.15、5.17、5.20等。(4)若两个置信限皆为负号,则有一个参数小于另一个参数的结论成立。如例5.18.,
链接地址:https://www.31ppt.com/p-5662817.html