抽样分布与参数估计(修改稿).ppt
《抽样分布与参数估计(修改稿).ppt》由会员分享,可在线阅读,更多相关《抽样分布与参数估计(修改稿).ppt(129页珍藏版)》请在三一办公上搜索。
1、第 五 章 抽样分布与参数估计,第一节抽样调查的基本概念与方法 一、抽样调查的概念和作用,(一)抽样调查-是指从所要研究的总体中,按照随机原则,抽取部分单位进行调查,并将调查整理得出的数量特征,用以推断总体综合数量特征的一种调查组织形式。(二)抽样调查的作用,二、抽样调查中的几个基本概念,1、全及总体2、样本3、总体参数-主要有:总体平均数总体比例 总体比例的期望 总体比例方差总体方差总体标准差,二、抽样调查中的几个基本概念,4、统计量-主要有:样本平均数 样本比例 样本方差 样本标准差 5、样本容量和样本个数 样本容量是指一个样本所包含的单位数,即n。样本个数又称样本可能数目,是从一个总体中
2、可能抽取多少个样本。,三、抽样方法有二种,1、重复抽样-是指从N个总体单位中,抽取一个单位进行观察、纪录后,放回去,然后再抽取下一个单位,这样连续抽取n个单位组成样本的方法叫重复抽样,也叫重置抽样。2、不重复抽样-是指从N个总体单位中,抽取一个单位进行观察、纪录后,不再放回去,再抽取下一个单位,这样连续抽取n个单位组成样本的方法叫不重复抽样,也叫不重置抽样。,样本统计量的概率分布(频率分布)是一种理论概率分布随机变量是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远我们稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,第二节 抽样分布(
3、sampling distribution),抽样分布(sampling distribution),一、样本均值的抽样分布,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较(例题分析),=2.5 2=1.25,总体分布
4、,即:即 比较及结论:1.样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的1/n,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布(数学期望与方差),均值的抽样标准误,所有可能的样本均值的标准差,测度所有样本均值的离散程度小于总体标准差计算公式为,二、样本比例的抽样分布,样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布(数学期望与方差),第三节 正态分布和正态逼近,一、正态分布,f(x)=随机变量 X 的频数=正态随机变量X的均值=正态随机变量X的方差=3.1415926;e=2.71828x=随机变量的取值(-x),密度函数
5、是描述概率分布情况的,正态分布的密度函数为:,正态分布的概率,概率是曲线下的面积,二、标准正态分布(standardize the normal distribution),标准正态分布的概率密度函数,随机变量具有均值为0,标准差为1的正态分布任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布,标准正态分布的分布函数,标准正态分布,标准正态分布表的使用,为了应用上的方便,是将z从05的概率编成正态分布表,直接查表求得概率。对于标准正态分布,即ZN(0,1),有P(a Zb)b aP(|Z|z)对于负的 z,可由(-z)z得到对于一般正态分布,即XN(,),有,常用的概率分布表,在统
6、计推断中,常常要求变量落在(-z,z)区间的概率,即:P(|Z|z)2 z 1常用的概率分布表,标准化的例子 P(5 X 6.2),标准化的例子P(2.9 X 7.1),正态分布(例题分析),【例】定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?,解:设=50,=10,XN(50,102),三、关于正态分布的定理(一)正态分布再生定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,
7、2/n),(二)中心极限定理(central limit theorem),中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,样本比例的抽样分布,总体比例是服从01分布。因此中心极限定理也适用于样本比例的分布。具体说,从任一总体比例为、方差为 的01分布总体中,抽取容量为n的样本,其样本比例p的分布随着样本单位数n的增大而趋近于平均数方差 的正态分布。在实际工作中,总体变量的分布通常是不知道的,样本平均数或比例的分布是否接近于正态,可接近到什么程度,取决于样本容量。样本容量越大,样本平均数或比例的分布
8、也越接近正态。一般认为样本单位数不少于30的是大样本,抽样分布就接近于正态分布。,例6.2,一汽车蓄电池商声称其生产的电池具有均值为 54 个月,标准差为 6 个月的寿命分布。现假设某消费团体决定检验该厂的说法是否准确,为此购买了 50 个该厂生产的电池进行寿命试验。假设厂商声称是正确的,试描述 50 个电池的平均寿命的抽样分布。假设厂商声称正确,则50个电池的平均寿命不超过52 个月的概率为多少?,解:,根据中心极限定理,当厂商假定正确时,50个电池的平均寿命 近似服从正态分布,有,即,四、样本方差的抽样分布,对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n-1)的2分布,
9、即,分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自由度)可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),c2分布(图示),课堂练习,1、某公司决定对职员增发“销售代表”奖,计划根据过去一段时期内的销售状况对月销售额最高的5的职员发放该奖金。已知这段时期每人每个月的平均销售额(单 位:元)服从均值为40000、方差为360 000的正态分布,那么公司应该把“销售代表”奖的最低发放标准
10、定为多少元?,2、今年有一家大保险公司启动了一项为未利用的病休日向推销员们实行补偿的计划。该公司决定对每一个未利用的病休日向每一名推销员支付一份津贴。在以前的若干年中,每名推销员每年的病休日数目具有均值为92和标准差为18的相对频数分布。为了确定这项补偿计划是否有效地减少了被利用的平均病休日数目,该公司随机抽选了81名推销员并在年终时将每个人的病休日数目记录下来。a 假定这项补偿计划对减少被利用的平均病休日数无效,试求81名被随机选出的推销员所产生的样本均值小于876天的概率。提示:如果补偿计划无效,那么这一年被每名推销员利用的病休日数目的相对频数分布就具有与前些年相同的平均值和标准差,即92
11、,18。b,如果被利用的病休日的样本平均数算出是876天,有无充分证据说补偿计划是有效的或这一年每名推销员所用病休日的真正平均数小于前些年的平均数92?,3、假定我们所选的一个随机样本由40份最近颁发的以改进现有住宅结构为目的的建筑许可证组成,已记录下每份许可证的价值x。以往的经验表明,在某个特定的县内,这种建筑许可证价值的相对频数分布具有平均值8 000美元和标准差1 500美元。a 以代表由上述40份许可证组成的样本的平均价值,试描述的抽样分布。b 样本中许可证的平均价值小于7 500美元的概率是多少?c 样本中许可证的平均价值在7 500美元和8 500美元之间的概率是多少?,课堂练习参
12、考答案,1、某公司决定对职员增发“销售代表”奖,计划根据过去一段时期内的销售状况对月销售额最高的5的职员发放该奖金。已知这段时期每人每个月的平均销售额(单 位:元)服从均值为40000、方差为360 000的正态分布,那么公司应该把“销售代表”奖的最低发放标准定为多少元?解:,2、(P261 7.27)今年有一家大保险公司启动了一项为未利用的病休日向推销员们实行补偿的计划。该公司决定对每一个未利用的病休日向每一名推销员支付一份津贴。在以前的若干年中,每名推销员每年的病休日数目具有均值为92和标准差为18的相对频数分布。为了确定这项补偿计划是否有效地减少了被利用的平均病休日数目,该公司随机抽选了
13、81名推销员并在年终时将每个人的病休日数目记录下来。a 假定这项补偿计划对减少被利用的平均病休日数无效,试求81名被随机选出的推销员所产生的样本均值小于876天的概率。提示:如果补偿计划无效,那么这一年被每名推销员利用的病休日数目的相对频数分布就具有与前些年相同的平均值和标准差,即92,18。(0.0139)b,如果被利用的病休日的样本平均数算出是876天,有无充分证据说补偿计划是有效的或这一年每名推销员所用病休日的真正平均数小于前些年的平均数92?(证据充分),3、假定我们所选的一个随机样本由40份最近颁发的以改进现有住宅结构为目的的建筑许可证组成,已记录下每份许可证的价值x。以往的经验表明
14、,在某个特定的县内,这种建筑许可证价值的相对频数分布具有平均值8 000美元和标准差1 500美元。a 以代表由上述40份许可证组成的样本的平均价值,试描述的抽样分布。(8000,237.172)b 样本中许可证的平均价值小于7 500美元的概率是多少?(0.0174)c 样本中许可证的平均价值在7 500美元和8 500美元之间的概率是多少?(0.9652),作业,统计学第四版:P154 5.17 P173 6.1,参数估计在统计方法中的地位,第 四节 总体参数估计,统计推断的过程,一、参数估计概述,科学的抽样估计方法要具备三个基本条件1、要有合适的统计量作为估计量。比如,从一个样本可以计算
15、平均数、中位数、众数等等,用哪个来作为总体平均数的估计量呢?2、要有合理的允许误差范围。允许误差范围又称抽样极限误差,指样本统计量与被估计总体参数离差的绝对值可允许变动的上限或下限。|-|-p|P 由于统计量本身也是随机变量,所以要使估计完全没有误差是难以做到。但是误差太大,这种估计也没有意义;误差太小势必增加人力物力和财力以及时间,这样抽样调查也失去了意义。所以要规定一定的误差范围,只要误差在允许的误差范围内的估计都是有效的。,一、参数估计概述,3、要有一个可接受的置信度。估计置信度又称估计推断的概率保证程度,这是估计的可靠性问题。如果我们愿意冒10%的风险,这表示如果进行多次重复估计,则平
16、均每100次估计将有10次是错误的,90次是正确的。90%就称为置信度或称为概率保证程度。要求估计的置信度达到100%是不可能的,但置信度太低,也没有意义,所以要有一个可接受的置信度。参数估计的基本方法有点估计和区间估计两种。,二、点估计1、概念,点估计就是直接以样本指标代表总体指标。例如从某灯泡厂抽100只灯泡检验,其平均耐用时间为1100小时,产品合格率为90%,就推断该厂生产的灯泡平均耐用时间为1100小时,产品合格率为90%。此法的缺点是既没有说明这种推断的准确程度,也无法说明其可靠程度,只是一种粗略的估计。但是它又不同于拍脑袋的瞎猜,它是有科学根据的,对那些要求不太高的判断和分析,此
17、法还是可以采用的。,二、点估计2、优良估计量的三个标准,估计总体参数,未必只能用一个统计量,也可以用其他统计量。例如估计总体平均数,可以用样本平均数,也可以用样本中位数等等。应该用哪一个呢?就应该有一个标准。优良估计量有三个标准:无偏性 即样本统计量的期望值(平均数)等于被估计的总体参数。前已证明,样本算术平均数作为总体平均数的估计量是符合无偏性要求的。即:,一致性,即当样本的单位数充分大时,样本统计量也充分靠近总体参数。可以证明,以样本平均数估计总体平均数时,也符合一致性的要求,即存在下列关系式:,有效性,即作为优良估计量的方差应该比其他估计量的方差小。例如用样本平均数或用总体任一变量来估计
18、总体平均数都是无偏估计,但是样本平均数的方差比总体方差小,所以,样本平均数是更为有效的估计量。即:类似的有:样本比例是(0,1)分布平均数的表现形式,所以也完全符合优良估计量的标准。不是所有的估计量都符合以上标准。可以说符合以上标准的统计量比不符合或不完全符合以上标准的统计量更为优良。,二战中的点估计 德军有多少辆坦克?,二战期间,盟军非常想知道德军总共制造了多少辆坦。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号则是
19、样本。假设我们是盟军手下负责解决这个问题的统计人员。制造出来的坦克总数肯定大于等于记录的最大编号。为了找到它比最大编号大多少,我们先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本均值乘以2就是总数的一个估计;当然要特别假设缴获的坦克代表了所有坦克的一个随机样本。这种估计N的公式的缺点是:不能保证均值的2倍一定大于记录中的最大编号。,二战中的点估计 德军有多少辆坦克?,N的另一个点估计公式是:用观测到的最大编号乘以因子1+1/n,其中 n 是被俘虏坦克个数。假如你俘虏了10 辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)50=55。此处我们认为坦克的实际
20、数略大于最大编号。从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!,资料来源:GUDMUND R.IVERSEN和MARY GERGRN著,吴喜之等译:统计学基本概念和方法,高等教育出版社,施普林格出版社,2000。,三、区间估计,区间估计-是根据样本统计量,去推断总体参数的可 能范围。例如,估计总体参数在样本统计量加减一个抽样标准差范围内,即:概率为68.27%概率为95.45%可见,区间估计既说清了估计结果的准确性,又同时表明了它的可靠程度,是一种更为科学的估计。,第五
21、节 一个总体参数的区间估计 一、总体均值的区间估计,(一)正态总体、方差已知,或非正态总体、大样本1、理论利用正态分布的有关定理,此时样本平均数服从或趋近于正态分布,即:重复抽样情况下:不重复抽样情况下:,因此可以利用正态分布来近似地估计样本平均数在某个区间的概率。即:,=1时,P(|=)标准化=,区间估计的图示,2、误差范围、概率度,=叫误差范围,也叫估计误差或允许误差。是一个系数,系数越大,样本统计量出现的概率或保证程度越大,反之亦反。其对应概率可查正态分布概率表。可见,样本统计量出现的概率大小,与该系数有关,故被称为概率度。是事先确定的概率值,也称为风险值,是估计出错的概率;1-称为置信
22、水平。,3、区间估计的方法,在这里是以总体平均数为中心来推断样本平均数所在的区间及其出现的概率。在实际中,正好相反,是以样本指标为中心去推断总体平均所在的区间和概率的,也就是要把上面的式子改为:实际上这二个式子是等价的,请大家自己推导。,3、区间估计的方法,如果总体服从正态分布但 未知,或总体并不服从正态分布,只要是在大样本条件下,公式中的总体方差可用样本方差S2代替,这时总体均值 在1-置信水平下的置信区间可以写为:例子见教材P182,总体均值的区间估计(例题分析),【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某
23、天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10克。试估计该批产品平均重量的置信区间,置信水平为95%,总体均值的区间估计(例题分析),解:已知N(,102),n=25,1-=95%,z/2=1.96。根据样本数据计算得:总体均值在1-置信水平下的置信区间为,该食品平均重量的置信区间为101.44克109.28克之间,总体均值的区间估计(例题分析),【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间,总体均值的区间估计(例题分析),解:已知n=36,1-=9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 分布 参数估计 修改稿

链接地址:https://www.31ppt.com/p-6118624.html