华东师范大学茆诗松《概率论与数理统计教程》第5章统计量及其分布ppt课件.ppt
《华东师范大学茆诗松《概率论与数理统计教程》第5章统计量及其分布ppt课件.ppt》由会员分享,可在线阅读,更多相关《华东师范大学茆诗松《概率论与数理统计教程》第5章统计量及其分布ppt课件.ppt(76页珍藏版)》请在三一办公上搜索。
1、第五章 统计量及其分布,5.1 总体与样本5.2 样本数据的整理与显示5.3 统计量及其分布5.4 三大抽样分布5.5 充分统计量,例5.0.1 某公司要采购一批产品,每件产品不 是合格品就是不合格品,但该批产品总有一 个不合格品率 p 。由此,若从该批产品中随 机抽取一件,用 x 表示这一批产品的不合格 数,不难看出 x 服从一个二点分布b(1 , p), 但分布中的参数 p 是不知道的。一些问题:, 的大小如何;, 大概落在什么范围内;,能否认为 p 满足设定要求(如 p 0.05)。,5.1 总体与个体,总体的三层含义:,研究对象的全体;,数据;,分布,例5.1.1 考察某厂的产品质量,
2、以0记合格品,以1记不合格品,则 总体 = 该厂生产的全部合格品与不合格品 = 由0或1组成的一堆数若以 p 表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:,比如:两个生产同类产品的工厂的产品的总体 分布:,例5.1.2 在二十世纪七十年代后期,美国消费 者购买日产SONY彩电的热情高于购买美产 SONY彩电,原因何在?,1979年4月17日日本朝日新闻刊登调查报 告指出N(m, (5/3)2),日产SONY彩电的彩色浓 度服从正态分布,而美产SONY彩电的彩色浓 度服从(m5 , m+5)上的均匀分布。,原因在于总体的差异上!,图5.1.1 SONY彩电彩色浓度分布图,等
3、级 I II III IV美产 33.3 33.3 33.3 0 日产 68.3 27.1 4.3 0.3,表5.1.1 各等级彩电的比例(%),5.1.2 样本,样品、样本、样本量:,样本具有两重性,一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1, X2, , Xn 表示;,另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母 x1, x2, , xn 表示是恰当的。,简单起见,无论是样本还是其观测值,样本一般均用 x1, x2, xn 表示,应能从上下文中加以区别。,例5.1.3 啤酒厂生产的
4、瓶装啤酒规定净含量为640 克。由于随机性,事实上不可能使得所有的啤酒 净含量均为640克。现从某厂生产的啤酒中随机 抽取10瓶测定其净含量,得到如下结果:641, 635, 640, 637, 642, 638, 645, 643, 639, 640,这是一个容量为10的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。,这样的样本称为完全样本。,例5.1.4 考察某厂生产的某种电子元件的 寿命,选了100只进行寿命试验,得到 如下数据:,表5.1.2 100只元件的寿命数据,表5.1.2中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。,寿命范围 元件数 寿命范围 元
5、件数 寿命范围 元件数 ( 0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120 144 4 (312 336 3 (504 528 3 (144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13,独立性: 样本中每一样品的取值不影响其 它样品的取值 - x1, x2,
6、, xn 相互独立。,要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:,随机性: 总体中每一个个体都有同等机会 被选入样本 - xi 与总体X有相同的分布。,样本的要求:简单随机样本,设总体X具有分布函数F(x), x1, x2, , xn 为取自该总体的容量为n的样本,则样本联合分布函数为,用简单随机抽样方法得到的样本称为简单随机样本,也简称样本。,于是,样本 x1, x2, , xn 可以看成是独立同分布( iid ) 的随机变量,其共同分布即为总体分布。,总体分为有限总体与无限总体,实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一
7、种合理的抽象。,对无限总体,随机性与独立性容易实现,困难在于排除有意或无意的人为干扰。,对有限总体,只要总体所含个体数很大,特别是与样本量相比很大,则独立性也可基本得到满足。,例5.1.5 设有一批产品共N个,需要进行抽样检 验以了解其不合格品率p。现从中采取不放回 抽样抽出2个产品,这时,第二次抽到不合格 品的概率依赖于第一次抽到的是否是不合格 品,如果第一次抽到不合格品,则,而若第一次抽到的是合格品,则第二次抽到不合格品的概率为,P(x2 = 1 | x1 = 1) = (Np1)/(N1),P(x2 = 1 | x1 = 0) = (Np)(N1),显然,如此得到的样本不是简单随机样本。
8、但是,当N 很大时,我们可以看到上述两种情形的概率都近似等于p 。所以当N 很大,而n不大(一个经验法则是 n N 0.1)时可以把该样本近似地看成简单随机样本。,思考: 若总体的密度函数为p(x),则其样本的(联 合)密度函数是什么?,5.2.1 经验分布函数,5.2 样本数据的整理与显示,设 x1, x2, , xn 是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为 x(1), x(2), , x(n),则称 x(1), x(2), , x(n) 为有序样本,用有序样本定义如下函数,则Fn(x)是一非减右连续函数,且满足,Fn() = 0 和 Fn() = 1,由此可
9、见,Fn(x)是一个分布函数,并称Fn(x)为经验分布函数。,例5.2.1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克) 351 347 355 344 351,x(1)= 344, x(2)= 347, x(3)= 351, x(4)= 354, x(5)= 355,这是一个容量为5的样本,经排序可得有序样本:,其经验分布函数为,由伯努里大数定律:只要 n 相当大,Fn(x)依概率收敛于F(x) 。,0 , x 344 0.2, 344 x 347Fn(x) = 0.4, 347 x 351 0.8, 344 x 347 1, x 355,更深刻的结果也是存在
10、的,这就是格里纹科定理。,定理5.2.1(格里纹科定理) 设x1,x2,xn是取自 总体分布函数为F(x)的样本, Fn(x) 是其经验分 布函数,当n时,有,PsupFn(x) F(x)0 = 1,格里纹科定理表明:当n 相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。经典的统计学中一切统计推断都以样本为依据,其理由就在于此。,5.2.2 频数-频率分布表,样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。,例5.2.2 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下,(1) 对样本进行分组
11、:作为一般性的原则,组数通 常在520个,对容量较小的样本;,(2) 确定每组组距:近似公式为组距d = (最大观测值 最小观测值)/组数;,(3) 确定每组组限: 各组区间端点为a0, a1=a0+d, a2=a0+2d, , ak=a0+kd, 形成如下的分组区间(a0 , a1 , (a1, a2, , (ak-1 , ak,对这20个数据(样本)进行整理,具体步骤如下:,其中a0 略小于最小观测值, ak 略大于最大观测值.,(4) 统计样本数据落入每个区间的个数频数, 并列出其频数频率分布表。,表5.2.1 例5.2.2 的频数频率分布表,组序 分组区间 组中值 频数 频率 累计频率
12、(%) 1 (147,157 152 4 0.20 20 2 (157,167 162 8 0.40 60 3 (167,177 172 5 0.25 85 4 (177,187 182 2 0.10 95 5 (187,197 192 1 0.05 100合计 20 1,5.2.3 样本数据的图形显示,一、直方图,直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。,把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个
13、位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:,二、茎叶图,数值 分开 茎 和 叶 112 11 | 2 11 和 2,例5.2.3 某公司对应聘人员进行能力测试,测试 成绩总分为 150分。下面是50位应聘人员的测 试成绩(已经过排序):,我们用这批数据给出一个茎叶图,见下页。,图5.2.3 测试成绩的茎叶图,在要比较两组样本时,可画出它们的背靠背的茎叶图。,注意:茎叶图保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时, 茎叶图并不适用。,5.3.1 统计量与抽样分布,5.3 统计量及其分布,当人们需要从样本获得对总体各种参数的认识时,最
14、好的方法是构造样本的函数,不同的函数反映总体的不同特征。,定义5.3.1 设 x1, x2, , xn 为取自某总体的样 本,若样本函数T = T(x1, x2, , xn)中不含有任 何未知参数。则称T为统计量。统计量的分布 称为抽样分布。,按照这一定义:若 x1, x2, , xn 为样本,则 以及经验分布函数Fn(x)都是统计量。而当, 2 未知时,x1, x1/ 等均不是统计量。,尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。,下面介绍一些常见的统计量及其抽样分布。,5.3.2 样本均值及其抽样分布,定义5.3.2 设 x1, x2, , xn为取自某总体的样本,其算
15、术平均值称为样本均值,一般用 表示,即,思考:在分组样本场合,样本均值如何计算? 二者结果相同吗?,x,x= (x1+xn)/n,定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,,样本均值的基本性质:,定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即,最小,其中c为任意给定常数。,样本均值的抽样分布:,定理5.3.3 设x1, x2, , xn 是来自某个总体的样本,,为样本均值。,(1) 若总体分布为N(, 2),则,的精确分布为N(, 2/n) ;,若总体分布未知或不是正态分布, 但 E(x)=, Var(x)=2,
16、则n 较大时 的渐近分 布为N(, 2/n) ,常记为 。,xAN(, 2/n),这里渐近分布是指n 较大时的近似分布.,5.3.3 样本方差与样本标准差,称为样本标准差。,定义5.3.3,称为样本方差,,其算术平方根,在n 不大时,常用 作为样本方差,其算术平方根也称为样本标准差。,在这个定义中,, ( xi x )2,n1称为偏差平方和的自由度。其含义是:,在 确定后, n 个偏差,x1x, x2x, , xnx,能自由取值,因为,只有n1个数据可以自由变动,而第n个则不,(xi x ) = 0 .,称为偏差平方和,,中,样本偏差平方和有三个不同的表达式:,( xix )2 = xi2 (
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率论与数理统计教程 华东师范大学 茆诗松 概率论 数理统计 教程 统计 及其 分布 ppt 课件
链接地址:https://www.31ppt.com/p-1319111.html