抽样分布和参数估计.ppt
第六章 抽样分布与参数估计,主要内容,三、样本平均数()呈正态分布时 总体平均数()的估计,四、样本平均数呈t分布时总体平均数()的估计,二、参数估计概述,一、抽样分布概述,一、随机抽样每一个体被抽中的概率相同;最理想、最科学的抽样方法;能保证样本数据对总体的代表性;能有效控制抽样误差,将其限制在一定范围内。,第一节 抽样分布概述,第一节 抽样分布概述,抽样分布是理论的概率分布,是统计推断的理论依据。,二、抽样分布2.1 定义总体分布:总体内个体数值的频数分布;样本分布:样本内个体数值的频数分布;抽样分布:某一种统计量的概率分布。,抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。,特点,从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体平均数。,从正态总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。,2.2 样本平均数的分布的特点,第一节 抽样分布概述,容量为n的平均数在抽样分布上的标准差(称为标准误SE),等于总体标准差除以n的方根:,(公式6-5),随着样本容量的增大,样本平均数的标准差(标准误)越小。,4.虽然总体不是正态分布,如果样本容量较大,反映总体和的样本平均数的平均数和标准差,也接近正态分布。,(5)样本平均数的分布也可转换为标准正态分布。,例 从一个均值=8,=0.6的总体中随机选取容量为25的样本。假定该总体不是很偏,求:(1)样本均值 小于7.9的近似概率;(2)样本均值 超过7.9的近似概率;(3)样本均值 在总体均值=8附近0.1范围内的概率.,(1),(2),(3),一、定义参数估计:通过样本统计量按统计学标准,对所在总体参数特征进行估计,通过局部推论总体的情况。,第二节 参数估计概述,总体参数的估计分为点估计和区间估计。,二、点估计(1)用来对总体参数进行估计的样本统计量叫做总体参数的估计量;将估计量在一个样本中的取值直接作为总体参数的估计值,叫作点估计。(样本平均数 是总体平均数 的估计量;=60 是的一个估计值)(2)对点估计优劣进行评价时,主要看估计量的选择是否最优,第二节 参数估计概述,无偏性 如果一切可能个样本统计量的值与总体参数值偏差的平均值为0,这种统计量就是总体参数的无偏估计量。例如:样本平均数是总体平均数的无偏估计量,样本方差 不是 的无偏估计量;而 才是 的无偏估计量有效性 当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。,一致性 当样本容量无限增大时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体参数一致性估计量。充分性 一个容量为n的样本统计量,应能充分地反映全部n个数据所反映的总体的信息。,(3)点估计的误差 估计值与参数的差叫误差。当不考虑其它因素的情况下,这个误差仅由抽样所造成,因而称作抽样误差。无偏估计值抽样误差的平均值虽然为零,但任意一次点估计的抽样误差等于零的概率极小,因此有必要规定任意一次点估计时抽样误差的最大允许范围。(所谓最大范围一般指95%或99%次的抽样误差都不超出这个范围)。,例如,由样本平均值估计总体平均值时,-称作抽样误差,1.96 或2.58 即抽样误差的最大范围。即:用 作为 的估计值时,抽样误差不超过1.96。(同时要注意的是,这个结论有95%的把握,仍有5%犯错误的可能性),三、区间估计 区间估计就是用一个区间去估计未知参数,它不具体指出总体参数等于什么,但能指出总体的未知参数落入某一区间的概率有多大。,区间估计的基本原理(以总体均值的估计为例):总体正态分布 样本平均数抽样分布也是正态分布 把样本平均数的抽样分布转换为标准正态分布从总体中随机抽取一个样本,落入区间(,)的概率为-;,一旦落入该区间,则以 为中心的区间 一定把总体均值 包含进来;因此,随机抽取一个样本,区间 会以-的概率将总体均值 包含在内。其中:为犯错误的概率,-为置信水平,该区间称作置信水平为-的置信区间,一、总体均值的区间估计 1.1 总体正态分布、总体方差已知 X服从正态分布,XN(,2),总体均值的置信区间,第三节 总体平均数参数估计,例:某地区10岁全体女童身高历年来标准差为6.25厘米,现从该地区随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该地区10岁全体女童平均身高的95和99置信区间。,解:已知:为6.25cm,N为27,为134.2cm,根据0.95置区间时(),得到0.95置信区间:,同理得到0.99置信区间:,cm,cm,1.2 总体正态分布、总体方差未知 这种条件下,从总体分布样本平均数的抽样分布与总体方差是否已知无关,但这时要用Sn-1来替代,即 这时由于S是变量,对 的转换不再服从正态分布,而服从的是t分布,即,t分布的特点,形状与正态分布曲线相似t分布曲线随自由度不同而有一簇曲线自由度的计算:,自由度是指能够独立变化的数据个数。,查t分布表时,需根据自由度及相应的显著性水平,并要注意是单侧数据还是双侧。,2.12,0.025,df=16,双侧P=0.05,单侧P=0.025,因为 所以,总体平均值的置信区间为:例:从某小学三年级随机抽取12名学生,其阅读能力得分为 28,32,36,22,34,30,33,25,31,33,29,26。试估计该校三年级学生阅读能力总体平均数95和99的置信区间。,解:12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差未知,在此条件下,对样本平均数的标准化转换应服从t分布。于是需用t分布来估计该校三年级学生阅读能力总体平均数95和99的置信区间。,由原始数据计算出样本统计值为,当 0.05时,,因此,该校三年级学生阅读能力得分95的置信区间为:,当 0.01时,,因此,该校三年级学生阅读能力得分99的置信区间为:,1.3 总体非正态分布、大样本(n30)总体不是正态分布,样本平均数的抽样分布只是近似正态分布,这时在大样本的条件下,对样本平均数的标准化转换按近似标准正态分布处理。1.4 总体非正态分布、小样本(n30)这种情况无法对总体平均值进行统计学估计,例:在一项关于某省农村中学教师月收入的调查中,随机抽取的400名教师平均月收入为900元,标准差30元。试对该省农村中学教师月平均收入进行区间估计(该省教师月收入不能认为正态分布。设=0.05),二、总体比例的区间估计某种特征占全部单位的比例p,样本比例为,在大样本下(np5,nq5),可将二项分布变换为正态分布,总体比例p的置信区间:,例:在近期某项广州地区女大学生群体在学习、交往、情感等方面的价值观调查中,992个有效被试的样本中,有近60%愿意嫁给“富二代”,求持这种态度的真正比例的95%的置信区间。,