总体均数的估计和两均数的假设检验.ppt
《总体均数的估计和两均数的假设检验.ppt》由会员分享,可在线阅读,更多相关《总体均数的估计和两均数的假设检验.ppt(137页珍藏版)》请在三一办公上搜索。
1、数值变量统计分析,集中趋势和离散趋势的描述,统计推断,均数的抽样误差及t分布的特点,总体均数的估计,假设检验,第十六章 总体均数的估计和两均数的假设检验,复习几个概念:计量资料:测定每个观察单位某项指标量的大小得到的数 据(资料)。总体:研究对象(某项变量值)的全体。样本:总体中随机抽取的一部分研究对象的某项变量值。统计量:从样本计算出来的统计指标。参数:总体的统计指标叫总体参数。,统计推断:用样本信息推论总体特征的过程。包括:参数估计:运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出
2、判断。,总体,样本,抽取部分观察单位,统计量,参 数,统计推断 statistical inference,如:总体均数 总体标准差 总体率,如:样本均数 样本标准差S 样本率 P,主要内容,第一节 均数的抽样误差与标准误第二节 t 值与t分布第三节 总体均数的估计第四节 假设检验的一般步骤第五节 样本均数与总体均数的比较,样本,统计量,第一节样本均数的标准误,如:样本均数 样本标准差S 样本率 P,正态(分布)总体:推断!,部分=总体?,第一节 标准误,一、概念抽样误差:由于抽样引起的样本统计量与总体参数之间的差异(举例,抽样误差的产生及含义)。标准误:符号,表示抽样误差大小的指标;样本均数
3、的标准差;,一、抽样研究与抽样误差,抽样研究的目的是要用样本信息推断总体特征,称统计推断。1、抽样研究:从总体中随机抽取一定数量的观察单位组或样本,对其进行研究,以此来推断总体的情况。如从某地8岁的男孩中,随机抽取200人,分别测量其身高,计算样本均数,用来估计该地8岁男孩身高的总体均数就属于抽样研究。2、均数的抽样误差(sampling error):是指由抽样造成的样本均数与总体均数之差。,如要了解某地成年男子红细胞数的总体均数,抽得144个样本,求出样本均数=5.381012/L,估计该地成年男子红细胞数的总体均数,由于抽样误差,-称均数的抽样误差。,二、标准误,概念:均数的标准误,简称
4、标准误(standard error,SE):说明均数抽样误差大小的指标。即由样本均数估计总体均数可靠性大小的指标。,X 1S1X 2 S2 X ISiX nSn,x,标准误示意图,表示样本统计量抽样误差大小的统计指标。均数标准误:说明均数抽样误差的大小,总体计算公式(3-1),2、标准误(standard error,SE),实质:样本均数的标准差,若用样本标准差S 来估计,(3-2)降低抽样误差的途径有:,通过增加样本含量n;通过设计减少S,标准误,标准误,标准误,标准误,标准误,标准误,标准误,4.标准误与标准差的比较,三、(均数)标准误意义:反映抽样误差的大小。标准误越小,抽样误差越小
5、,用样本均数估计总体均数的可靠性越大。与样本量的关系:S 一定,n,标准误,二、(均数)标准误的计算,第二节 t 分布,复习两个概念:正态分布 标准正态分布(u 分布),大样本、小样本概念:30、50、100。量变引起质变:当样本容量较大时,其统计量的抽样分布近似为正态分布。随着N的增大,越来越接近于正态分布(样本均数的分布)。但当样本量小于100时,抽样分布不能再用正态分布来近似,随着N的减小,与正态分布的差别越来越大,需要用小样本理论来解释(样本均数的分布)。,一、t分布,随机变量XN(m,s2),标准正态分布N(0,12),u变换,标准正态分布N(0,12),正态分布,t 分布(与u 分
6、布比较的特点),t 值表(附表2 P367)横坐标:自由度,纵坐标:概率,P,即曲线下阴影部分的面积;表中的数字:相应的|t|界值。,t 值表规律:(1)自由度()一定时,P与 t 成反比;(2)概率(P)一定时,与 t 成反比;,第二节 t 值与 t 分布,一、t值,t值为样本均数与总体均数相差多少个标准误,二、t分布,从同一总体中抽取许多大小相同的样本,可得到许多 及s,代入(163),就可以得到许多的t值,将这些t值绘成直方图,当样本无限多时,就绘成一条光滑的曲线,这就是 t 分布曲线。这种t值的分布就叫 t 分布,二、t分布,特征:t界值表,将不同自由度,不同概率P(从正态总体作随机抽
7、样得样本t值落在该区间的概率)(即检验水准)的t值列成表格称t界值表,t 分布,t分布左右两端尾部面积之和=0.05(即每侧尾部面积为0.025)相应的t值称为5%界,符号为t0.05,,这里是自由度。把左右两端尾部面积之和为0.01相应的t值称为1%界,符号为t0.01,。t的5%界与1%界可查附表5 t值表。例如当自由度为10-1=9时,t0.05,9=2.262,t0.01,9=3.250。,t分布曲线下面积(附表2),双侧t0.05/2,92.262 单侧t0.025,9单侧t0.05,91.833双侧t0.01/2,93.250 单侧t0.005,9单侧t0.01,92.821双侧t
8、0.05/2,1.96 单侧t0.025,单侧t0.05,1.64,u,t,t 分布,举例:,小结,标准正态分布当0,1,使原来的正态分布变换为标准正态分布,亦称u分布,区间的面积分别占总面积的68.271.96 为952.58为 99。,|u|1.96的面积为0.05,正态曲线下面积的分布规律,小结,t 分布:,t分布把t分布左右两端尾部面积之和=0.05(即每侧尾部面积为0.025)相应的t值称为5%界,符号为t0.05,把左右两端尾部面积之和为0.01相应的t值称为1%界,符号为t0.01,三总体均数的参数估计,统计推断,假设检验,参数估计,参数估计就是用样本指标(即统计量)来估计总体指
9、标(即参数),点值估计,区间估计,总体均数的估计,统计推断的任务就是用样本信息推论总体特征。参数估计,用样本均数估计总体均数。1、点(值)估计(近似值)2、区间估计(近似范围),1、点(值)估计:用样本均数直接作为总体均数的估计值,未考虑抽样误差。,总体均数的点值估计,点值估计,就是以某一样本均数来作总体均数的估计,如随机抽查140例成年男子,测得红细胞的均值为4.791012/L,以此值作为某地成年男子的总体均数的估计值,叫“点值估计”。,点值估计比较方便、简单。但由于存在抽样误差,不同的样本可能得到不同的估计值,所以其准确度较低。,2、区间估计,概念:根据样本均数,按一定的可信度计算 出总
10、体均数很可能在的一个数值范围,这个范围称为总体均数的可信区间。方法:(1)u 分布 法(2)t 分布法,(1)u 分布 法,公式,应用条件:,例题,意义:与正常值范围进行比较,(xus x,xu s x)即(xus x),样本量较大,已知或可计算出 x 及 Sx,换句话说,做出该市成人脉搏均数为73.9次/分 75.1次/分的结论,说对的概率是95%,说错的概率是5%;做出该市成人脉搏均数为73.7次/分 75.3次/分的结论,说对的概率是99%,说错的概率是1%。,意义:虽然不能知道某市全体成人脉搏均数的确切数值,但有95%的把握说该市全体成人脉搏均数在73.9次/分 75.1次/分之间,有
11、99%的把握说该市全体成人脉搏均数在 73.7次/分 75.3次/分之间。,换句话说,做出校全体女大学生身高均数为163.0 164.5cm的结论,说对的概率是95%,说错的概率是5%;做出校全体女大学生身高均数为162.7 164.7cm的结论,说对的概率是99%,说错的概率是1%。,意义:虽然不能知道某校全体女大学生身高均数的确切数值,但有95%的把握说校全体女大学生身高均数在163.0 164.5cm之间,有99%的把握说校全体女大学生身高均数在 162.7 164.7cm之间。,(2)t 分布 法,公式,应用条件,例题,意义,(x ts x,xt s x)即(xts x),样本量 较小
12、,已知或可计算出 X 及,s x,二、总体均数的区间估计,区间估计(interval estimation)是按一定的概率来估计总体均数在哪个范围。预先给定的概率称为可信度,符号为1,常取95%或99%;按此确定的可信区间分别称为95%或99%可信区间。意思是说,从被估计的总体中随机抽取若干个含量为 n 的样本,由每个样本计算出一个95%可信区间,理论上,其中有95%的可信区间将包含被估计的总体均数。以样本对95%可信区间作估计时,被估计的总体均数不在该区间的概率是很小的,仅5%。,(一)总体均数可信区间的计算,(一)总体均数可信区间的计算,t0.05,9=2.262,t0.01,9=3.25
13、0,(一)总体均数可信区间的计算,(一)总体均数可信区间的计算,(一)总体均数可信区间的计算,(2)已知(3)未知,但n足够大,n100,例3-3 某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64 mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。,故该地正常成年人血清胆固醇均数的双侧95%可信区间为(3.47,3.81)mmolL。,100,可信区间的解释,95可信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括(估计正确),只有5个可信区间不包括(估计错误)。,95可信
14、区间 99可信区间 公式 区间范围 窄 宽 估计错误的概率 大(0.05)小(0.01),区间估计的准确度:说对的可能性大小,用(1-)来衡量。99%的可信区间好于95%的可信区间(n,S 一定时)。区间估计的精确度:指区间范围的宽窄,范围越宽精确度越差。99%的可信区间差于95%的可信区间(n,S 一定时)。准确度与精确度的关系:(例如预测孩子的身高),(三)可信区间与可信限的关系,正常值范围估计与可信区间估计,第四节 假设检验,显著性检验;科研数据处理的重要工具;某事发生了:是由于碰巧?还是由于必然的原因?统计学家运用显著性检验来处理这类问题。,假设检验:1、原因2、目的3、原理4、过程(
15、步骤)5、结果,1、假设检验的原因,由于个体差异的存在,即使从同一总体中严格的随机抽样,X1、X2、X3、X4、,不同。因此,X1、X2 不同有两种(而且只有两种)可能:(1)分别所代表的总体均数相同,由于抽样误差造成了样本均数的差别。差别无显著性。(2)分别所代表的总体均数不同。差别有显著性。,2、假设检验的目的,3、假设检验的原理/思想,反证法:当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但又不能直接证实A,这时否定另一种可能B,则间接的肯定了A。概率论(小概率):如果一件事情发生的概率很小,那么在进行一次试验时,我们说这个事件是“不会发生的”。从一般的常识可知,这句话在
16、大多数情况下是正确的,但是它一定有犯错误的时候,因为概率再小也是有可能发生的。,判断是由于何种原因造成的不同,以做出决策。,假设检验的基本思想,小概率反证法 在一次研究观察中,如果出现了假设成立情况下的小概率事件,由于推理过程是严密的,就只能认为假设不成立,应予拒绝或否定,并接受它的对立面。,假设,推导,小概率事件,否定,假设检验,例 3.4 据大量调查知,健康成年男子脉搏的均数为72次/分,某医生在山区随机调查了25名健康成年男子,其脉搏均数为74.2次/分,标准差为6.5次/分,能否认为该山区成年男子的脉搏高于一般人群?,两均数不相等的原因有两种可能:由于抽样误差所致;样本来自另一总体(由
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 总体 估计 两均数 假设检验
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6573618.html