统计学第五章参数估计ppt课件.ppt
描述统计与推断统计的关系,描述统计统计数据的搜集、整理、显示和分析等,反映客观现象的数据,客观现象的内在的规律性,“What! You have solved it already?”“Well, that would be too much to say. I have discovered a suggestive fact, that is all” Dr. Watson and Sherlock Holmes The Sign of Four,例:某大公司要整理2500个职工的档案。其中一项内容是考察这些职工的平均年薪及参加过公司培训计划的比例。总体:2500名职工(population ),如果上述情况可由每个人的个人档案中得知,可容易地测出这2500名职工的平均年薪及标准差。,已经得到了如下的结果: 总体均值: =51800(元) 总体标准差: =4000(元),参数估计的一般问题(例子),同时,有1500人参加了公司培训,则参加公司培训计划的比例为: =1500/2500=0.60,总体参数,在上例中,假如随机抽取了一个容量为30的样本: 平均年薪 是否参加培训 49094.3 是 53263.9 是 49643.5 否 ,根据该样本求得样本年薪平均数、标准差及参加过培训计划人数的比例分别为:,则解决最初的问题,我们就涉及到总体参数的估计问题。,(元),(元),第5章 参数估计,1.1 参数估计的基本问题和概念1.2 简单随机抽样抽样误差的测定1.3 简单随机抽样的抽样估计,参数估计,按照随机原则 从调查对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法, 1.1 参数估计的基本问题和概念,统计推断,全及总体指标:参数(未知量),样本总体指标:统计量(已知量),参数估计,按随机原则抽取样本单位目的是推断总体的数量特征抽样误差是不可避免的,但可以事先计算并加以控制,抽样估计的特点,确定抽样方法,重复抽样,又被称作重置抽样、有放回抽样,抽出个体,登记特征,放回总体,继续抽取,特点,同一总体单位有可能被重复抽中,而且每次抽取都是独立进行,不重复抽样,又被称作不重置抽样、不放回抽样,抽出个体,登记特征,继续抽取,特点,同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不是独立进行,是最为常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。,确定抽样方法,确定抽样组织方式,是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式,总体N,样本n,等额抽取,等比例抽取,能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标,确定抽样组织方式,随机起点,半距起点,对称起点,(总体单位按某一标志排序),确定抽样组织方式,例:总体群数R=16 样本群数r=4,样本容量,简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差,确定抽样组织方式,例:在某省100多万农户抽取1000户调查农户生产性投资情况。,确定抽样组织方式,调查对象的性质特点对调查对象的了解程度抽样误差的大小人力、财力和物力等条件的限制,在实际工作中,选择适当的抽样组织方式主要应考虑:,确定抽样组织方式,确定样本容量,n30,为大样本;n 30,为小样本, 不重复抽样的可能样本数目:, 重复抽样的可能样本数目:,确定样本容量,一、抽样分布二、抽样误差的概念三、抽样平均误差,1.2 简单随机抽样抽样误差的测定,样本平均数,总体平均数,样本平均数是一个随机变量,,它的概率分布称为样本平均数的抽样分布。,样本平均数的抽样分布,是推断总体平均数的理论基础,样本平均数,主要样本统计量,平均数标准差 比率(成数),样本均值的抽样分布(例题分析),【例】设5个职工的月奖金是研究的总体,分别为120,160,200,280,340,单位:元。如果我们随机抽取其中2个职工作为样本进行研究,试比较样本和总体的差异,并找出样本均值的特征。,总体的平均数和方差,样本均值的抽样分布 (例题分析), 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有52=25个样本。所有样本的结果为,样本均值的抽样分布 (例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 220 = 80,总体分布,抽样分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),中心极限定理(central limit theorem),从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本平均数的抽样分布近似服从均值为、方差为2/n的正态分布,平均数的抽样分布,全部可能样本平均数的均值等于总体均值,即: 从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的,比率的抽样分布,全部可能样本比率的均值等于总体比率,即: 从非正态总体中抽取的样本比率,当n足够大时其分布接近正态分布。从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。样本比率的标准差为总体标准差的,样本抽样分布,原总体分布,一、抽样分布二、抽样误差的概念三、抽样平均误差,1.2 简单随机抽样抽样误差的测定,某个样本容量的抽样分布,更大样本容量的抽样分布,一、抽样分布二、抽样误差的概念三、抽样平均误差,1.2 简单随机抽样的抽样误差的测定,抽样平均误差,指每一个可能样本的估计值与总体指标值之间离差的平均数,即样本估计量的标准差,式中: 为样本平均数的抽样平均误差; 为可能的样本数目; 为第 个可能样本的平均数; 为总体平均数,注意:不要混淆抽样标准差与样本标准差!,抽样平均误差的计算公式, 样本平均数的抽样平均误差,当N500时,有,重复抽样时:,不重复抽样时:, 样本成数的抽样平均误差,重复抽样时:,不重复抽样时:,当N500时,有,抽样平均误差的计算公式,关于总体方差的估计方法,用过去同类问题全面调查或抽样调查的经验数据代替;用样本标准差 代替总体标准差 ,用 代替 。,抽样平均误差的计算公式,影响抽样误差的因素,总体各单位的差异程度(即标准差的大小): 越大,抽样误差越大;样本单位数的多少: 越大,抽样误差越小;抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;抽样组织方式:简单随机抽样的误差最大。,第5章 抽样推断,1.1 抽样方案的设计1.2 简单随机抽样的抽样误差的测定1.3 简单随机抽样的抽样估计,一、点估计二、区间估计三、样本数目的确定,1.3 简单随机抽样的抽样估计,无偏性(unbiasedness),无偏性:估计量抽样分布的数学期望等于被估计的总体参数,有效性(efficiency),有效性:对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效,一致性(consistency),一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数,一、点估计二、区间估计三、样本数目的确定,1.3 简单随机抽样的抽样估计,二、区间估计, 区间估计的定义和原理 总体平均数的区间估计总体成数的区间估计,区间估计 (interval estimate),在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量,区间估计原理,0.6827,被包住的概率为68.27%,区间估计原理,0.9545,被包住的概率为95.45%,样本抽样分布曲线,原总体分布曲线,区间估计原理,0.9973,被包住的概率为99.73%,样本抽样分布曲线,总体分布曲线,抽样极限误差,指在一定的概率保证程度下,抽样误差不允许超过的某一给定范围,也称作允许误差、误差范围、误差置信限等,由于提高可靠程度,会增大允许误差,使估计精度降低;而提高估计的精度,又会降低估计的可靠程度,所以在实际中应根据具体情况,先确定一个合理的可靠程度再求相应的允许误差或先确定一个允许误差范围再求相应的可靠程度。,抽样极限误差的计算公式,(大样本条件下),Z为概率度,是给定概率保证程度下样本均值偏离总体均值的抽样平均误差的倍数。,Z与相应的概率保证程度存在一一对应关系,常用Z值及相应的概率保证程度为:,z值 概率保证程度1.00 0.6827 1.65 0.9000 1.96 0.9500 2.00 0.9545 2.58 0.9900 3.00 0.9973,抽样极限误差的计算公式,(大样本条件下),标准正态分布函数值表,置信区间 (95%的置信区间),重复构造出的20个置信区间,点估计值,总体平均数的区间估计,表达式,其中, 为极限误差,步骤, 计算样本平均数 ;, 搜集总体方差的经验数据 ;或计算样本标准差 ,即,总体平均数的区间估计,步骤, 计算抽样平均误差:,重复抽样时:,不重复抽样时:,总体平均数的区间估计,步骤, 计算抽样极限误差:, 确定总体平均数的置信区间:,总体平均数的区间估计,【例A】某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,要求在95的概率保证程度下,估计该厂全部工人的日平均产量和日总产量。,总体平均数的区间估计,100名工人的日产量分组资料,解:,则该企业工人人均产量 及日总产量 的置信区间为:,即该企业工人人均产量在124.797至127.203件之间,其日总产量在124797至127303件之间,估计的可靠程度为95。,总体成数的区间估计,表达式,其中, 为极限误差,步骤, 计算样本成数 ;, 搜集总体方差的经验数据 ;, 计算抽样平均误差:,重复抽样条件下,不重复抽样条件下,总体成数的区间估计,步骤, 计算抽样极限误差:, 确定总体成数的置信区间:,总体成数的区间估计,【例B】若例A中工人日产量在118件以上者为完成生产定额任务,要求在95的概率保证程度下,估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。,总体成数的区间估计,100名工人的日产量分组资料,完成定额的人数,解:,则该企业全部工人中完成定额的工人比重 及完成定额的工人总数 的置信区间为:,即该企业工人中完成定额的工人比重在0.8432至0.9568之间,完成定额的工人总数在843.2至956.8人之间,估计的可靠程度为95。,总体均值的区间估计 (正态总体、未知、小样本),其他情况:CLT失效,总体均值的区间估计 (小样本),1.假定条件总体服从正态分布,但方差() 未知小样本 (n 30)使用 t 分布统计量,总体均值 在1-置信水平下的置信区间为,t 分布, t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,总体方差的区间估计,总体方差的区间估计,1. 假设总体服从正态分布2. 总体方差 2 的点估计量为s2,且,3. 总体方差在1- 置信水平下的置信区间为,总体方差的区间估计(图示),总体方差的区间估计(例题分析),【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间,总体方差的区间估计(例题分析),解:已知n25,1-95% ,根据样本数据计算得 s2 =93.21 2置信度为95%的置信区间为,该企业生产的食品总体重量标准差的的置信区间为7.54g13.43g,一个总体参数的区间估计(小结),参数区间估计的思路,两个总体参数的区间估计,两个总体均值之差的区间估计(独立,大样本),两个总体均值之差的估计(大样本),1.假定条件两个总体都服从正态分布,1、 2已知若不是正态分布, 可以用正态分布来近似(n130和n230)两个样本是独立的随机样本使用正态分布统计量 z,两个总体均值之差的估计 (大样本),1, 2已知时,两个总体均值之差1-2在1- 置信水平下的置信区间为,1、 2未知时,两个总体均值之差1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(例题分析),【例】某地区教育管理部门想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立抽取两个随机样本,有关数据如右表 。建立两所中学高考英语平均分数之差95%的置信区间,English,两个总体均值之差的估计(例题分析),解: 两个总体均值之差在1-置信水平下的置信区间为,两所中学高考英语平均分数之差的置信区间为5.03分10.97分,两个总体均值之差的区间估计(独立,小样本),两个总体均值之差的估计(小样本: 12= 22 ),1.假定条件两个总体都服从正态分布两个总体方差未知但相等:1=2两个独立的小样本(n130和n230)采用如下统计量 其中,两个总体均值之差的估计(小样本: 12=22 ),两个样本均值之差的标准化,两个总体均值之差1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(例题分析),【例】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12名工人,每个工人组装一件产品所需的时间(单位:min)下如表。假定两种方法组装产品的时间服从正态分布,且方差相等。试以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间,两个总体均值之差的估计(例题分析),解: 根据样本数据计算得 合并估计量为,两种方法组装产品所需平均时间之差的置信区间为0.14min7.26min,两个总体均值之差的估计(小样本: 12 22 ),1.假定条件两个总体都服从正态分布两个总体方差未知且不相等:12两个独立的小样本(n130和n230)使用统计量,两个总体均值之差的估计(小样本: 1222 ),两个总体均值之差1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(例题分析),【例】沿用前例。假定第一种方法随机安排12名工人,第二种方法随机安排8名工人,即n1=12,n2=8 ,所得的有关数据如表。假定两种方法组装产品的时间服从正态分布,且方差不相等。以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间,两个总体均值之差的估计(例题分析),解: 根据样本数据计算得 自由度为,两种方法组装产品所需平均时间之差的置信区间为0.192min9.058min,两个总体均值之差的区间估计(匹配样本),两个总体均值之差的估计(匹配大样本),假定条件两个匹配的大样本(n1 30和n2 30)两个总体各观察值的配对差服从正态分布两个总体均值之差d =1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(匹配小样本),假定条件两个匹配的小样本(n1 30和n2 30)两个总体各观察值的配对差服从正态分布 两个总体均值之差d=1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(例题分析),【例】由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如下表 。试建立两种试卷分数之差d=1-2 95%的置信区间,STATISTICS,两个总体均值之差的估计(例题分析),解: 根据样本数据计算得,两种试卷所产生的分数之差的置信区间为6.33分15.67分,两个总体比例之差区间的估计,1.假定条件两个总体服从二项分布可以用正态分布来近似两个样本是独立的2.两个总体比例之差1- 2在1- 置信水平下的置信区间为,两个总体比例之差的区间估计,两个总体比例之差的估计(例题分析),【例】在某个电视节目的收视率调查中,农村随机调查了400人,有32%的人收看了该节目;城市随机调查了500人,有45%的人收看了该节目。试以95%的置信水平估计城市与农村收视率差别的置信区间,两个总体比例之差的估计 (例题分析),解: 已知 n1=500 ,n2=400, p1=45%, p2=32%, 1- =95%, z/2=1.96 1- 2置信度为95%的置信区间为,城市与农村收视率差值的置信区间为6.68%19.32%,两个总体方差比的区间估计,两个总体方差比的区间估计,1.比较两个总体的方差比用两个样本的方差比来判断如果S12/ S22接近于1,说明两个总体方差很接近如果S12/ S22远离1,说明两个总体方差之间存在差异总体方差比在1-置信水平下的置信区间为,由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为,F分布(F distribution),F分布(图示), 不同自由度的F分布,两个总体方差比的区间估计(图示),两个总体方差比的区间估计(例题分析),【例】为了研究男女学生在生活费支出(单位:元)上的差异,在某大学各随机抽取25名男学生和25名女学生,得到下面的结果 男学生: 女学生: 试以90%置信水平估计男女学生生活费支出方差比的置信区间,两个总体方差比的区间估计 (例题分析),解:根据自由度 n1=25-1=24 ,n2=25-1=24,查得 F/2(24,24)=1.98, F1-/2(24,24)=1/1.98=0.505 12 /22置信度为90%的置信区间为,男女学生生活费支出方差比的置信区间为0.471.84,两个总体参数的区间估计(小结),一、点估计二、区间估计三、样本数目的确定,1.3 简单随机抽样的抽样估计,三、样本容量的确定, 确定样本容量的意义 推断总体平均数所需的样本容量 推断总体成数所需的样本容量 必要样本容量的影响因素,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,确定样本容量的意义,找出在限定费用范围内的最大样本容量,确定方法,推断总体平均数所需的样本容量, 重复抽样条件下:,通常的做法是先确定置信度,然后限定抽样极限误差。, 或 S通常未知。一般按以下方法确定其估计值:过去的经验数据;试验调查样本的S。,计算结果通常向上进位, 不重复抽样条件下:,确定方法,推断总体平均数所需的样本容量,【例A】某食品厂要检验本月生产的10000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在95.45的概率保证程度下,平均每袋重量的误差范围不超过5克,应抽查多少袋产品?,确定方法,推断总体成数所需的样本容量, 重复抽样条件下:, 不重复抽样条件下:,确定方法,推断总体成数所需的样本容量,【例B】某企业对一批总数为5000件的产品进行质量检查,过去几次同类调查所得的产品合格率为93、95、96,为了使合格率的允许误差不超过3,在99.73的概率保证程度下,应抽查多少件产品?,【分析】因为共有三个过去的合格率的资料,为保证推断的把握程度,应选其中方差最大者,即P=93。,必要样本容量的影响因素,总体方差的大小;允许误差范围的大小;概率保证程度;抽样方法;抽样的组织方式。,抽样复查的方法,修正系数为,则:,该企业集团所拥有的固定资产原值应为16.8510.9507=16.020(亿元),