《概率论与数理统计教程朱庆峰》第5章统计量及其分布课件.ppt
《《概率论与数理统计教程朱庆峰》第5章统计量及其分布课件.ppt》由会员分享,可在线阅读,更多相关《《概率论与数理统计教程朱庆峰》第5章统计量及其分布课件.ppt(96页珍藏版)》请在三一办公上搜索。
1、数理统计是在概率论的基础上研究怎样以有效的方式收集、整理和分析可获得的有限的,带有随机性的数据资料,对所考察问题的统计规律性尽可能作出精确而可靠的推断或预测,为采取一定的决策和行动提供依据和建议.,数理统计与概率论是两个有密切联系的学科,它们都以随机现象的统计规律为研究对象。,但在研究问题的方法上有很大区别:,数理统计的核心问题由样本推断总体,数理统计的一般步骤:,第5.1节 总体与子样,一、总体与个体,二、随机样本的定义,一、总体与个体,一个统计问题总有它明确的研究对象.,研究对象的全体称为总体(母体),,总体中每个成员称为个体.,研究某批灯泡的质量,总体,总体,然而在统计研究中,人们往往关
2、心每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况.这时,每个个体具有的数量指标的全体就是总体.,相应的数量指标值的出现带有随机性。从而可把此种数量指标看作随机变量,我们用一个随机变量或其分布来描述总体。为此常用随机变量的符号来表示总体,并把随机变量的分布称为总体分布。通常,我们用随机变量,等表示总体。当我们说到总体,就是指一个具有确定概率分布的随机变量。,注:总体的分布一般来说是未知的,统计学的主要任务正是要对总体的未知分布进行推断.,如:研究某批灯泡的寿命时,我们关心的数量指标就是寿命,那么,此总体就可以用随机变量X表示,其分布函数F(x).,总体,某批灯泡的寿命,寿命 可用
3、一概率分布来刻划,总体的三层含义:,研究对象的全体;,数据;,分布,例5.1.1 考察某厂的产品质量,以0记合格品,以1记不合格品,则 总体=该厂生产的全部合格品与不合格品=由0或1组成的一堆数若以 p 表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:,比如:两个生产同类产品的工厂的产品的总体 分布:,5.1.2 样本,样品、样本、样本容量:,样本具有两重性,一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1,X2,Xn 表示;,另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母
4、x1,x2,xn 表示是恰当的。,简单起见,无论是样本还是其观测值,样本一般均用 x1,x2,xn 表示,应能从上下文中加以区别。,例5.1.3 啤酒厂生产的瓶装啤酒规定净含量为640 克。由于随机性,事实上不可能使得所有的啤酒 净含量均为640克。现从某厂生产的啤酒中随机 抽取10瓶测定其净含量,得到如下结果:641,635,640,637,642,638,645,643,639,640,这是一个容量为10的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。,这样的样本称为完全样本。,例5.1.4 考察某厂生产的某种电子元件的 寿命,选了100只进行寿命试验,得到 如下数据:,表5.1.
5、2 100只元件的寿命数据,表5.1.2中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。,寿命范围 元件数 寿命范围 元件数 寿命范围 元件数(0 24 4(192 216 6(384 408 4(24 48 8(216 240 3(408 432 4(48 72 6(240 264 3(432 456 1(72 96 5(264 288 5(456 480 2(96 120 3(288 312 5(480 504 2(120 144 4(312 336 3(504 528 3(144 168 5(336 360 5(528 552 1(168 192 4(360 184
6、1 552 13,独立性:样本中每一样品的取值不影响其 它样品的取值-x1,x2,xn 相互独立。,要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:,随机性:总体中每一个个体都有同等机会 被选入样本-xi 与总体X有相同的分布。,样本的要求:简单随机样本,用简单随机抽样方法得到的样本称为简单随机样本,也简称样本。,于是,样本 x1,x2,xn 可以看成是独立同分布(iid)的随机变量,其共同分布即为总体分布。,获得简单随机样本的抽样方法称为简单随机抽样.,(总体规模很大),总体分为有限总体与无限总体,实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作
7、无限总体是一种合理的抽象。,对无限总体,随机性与独立性容易实现,困难在于排除有意或无意的人为干扰。,对有限总体,只要总体所含个体数很大,特别是与样本量相比很大,则独立性也可基本得到满足。,定理(补充),3.样本的分布,解,例1,解,例2,5.2.1 经验分布函数,5.2 样本数据的整理与显示,设 x1,x2,xn 是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为 x(1),x(2),x(n),则称 x(1),x(2),x(n)为有序样本,用有序样本定义如下函数,则Fn(x)是一非减右连续函数,且满足,Fn()=0 和 Fn()=1,由此可见,Fn(x)是一个分布函数,并称
8、Fn(x)为经验分布函数。,例5.2.1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克)351 347 355 344 351,x(1)=344,x(2)=347,x(3)=351,x(4)=354,x(5)=355,这是一个容量为5的样本,经排序可得有序样本:,其经验分布函数为,由伯努里大数定律:只要 n 相当大,Fn(x)依概率收敛于F(x)。,0,x 344 0.2,344 x 347Fn(x)=0.4,347 x 351 0.8,344 x 347 1,x 355,更深刻的结果也是存在的,这就是格里纹科定理。,定理5.2.1(格里纹科定理)设x1,x2,x
9、n是取自 总体分布函数为F(x)的样本,Fn(x)是其经验分 布函数,当n时,有,PsupFn(x)F(x)0=1,格里纹科定理表明:当n 相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。经典的统计学中一切统计推断都以样本为依据,其理由就在于此。,练习,5.2.2 频数-频率分布表,样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。,例5.2.2 为研究某厂工人生产某种产品的能力,我们随机调查了20位工人某天生产的该种产品 的数量,数据如下,(1)对样本进行分组:作为一般性的原则,组数通 常在520个,对容量较小的样本分5组或6组,(2)确定
10、每组组距:近似公式为组距d=(最大观测值 最小观测值)/组数;,(3)确定每组组限:各组区间端点为a0,a1=a0+d,a2=a0+2d,ak=a0+kd,形成如下的分组区间(a0,a1,(a1,a2,(ak-1,ak,对这20个数据(样本)进行整理,具体步骤如下:,其中a0 略小于最小观测值,ak 略大于最大观测值.,(4)统计样本数据落入每个区间的个数频数,并列出其频数频率分布表。,表5.2.1 例5.2.2 的频数频率分布表,组序 分组区间 组中值 频数 频率 累计频率(%)1(147,157 152 4 0.20 20 2(157,167 162 8 0.40 60 3(167,177
11、 172 5 0.25 85 4(177,187 182 2 0.10 95 5(187,197 192 1 0.05 100合计 20 1,5.2.3 样本数据的图形显示,一、直方图,直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。,把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:,二、茎叶图,数值 分开 茎 和 叶 112 11|
12、2 11 和 2,例5.2.3 某公司对应聘人员进行能力测试,测试 成绩总分为 150分。下面是50位应聘人员的测 试成绩(已经过排序):,我们用这批数据给出一个茎叶图,见下页。,图5.2.3 测试成绩的茎叶图,在要比较两组样本时,可画出它们的背靠背的茎叶图。,注意:茎叶图保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。,5.3.1 统计量与抽样分布,5.3 统计量及其分布,当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。,定义5.3.1 设 x1,x2,xn 为取自某总体的样 本,若样本函数T=T(x
13、1,x2,xn)中不含有任 何未知参数。则称T为统计量。统计量的分布 称为抽样分布。,按照这一定义:若 x1,x2,xn 为样本,则 以及经验分布函数Fn(x)都是统计量。而当,2 未知时,x1,x1/等均不是统计量。,尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。,下面介绍一些常见的统计量及其抽样分布。,5.3.2 样本均值及其抽样分布,定义5.3.2 设 x1,x2,xn为取自某总体的样本,其算术平均值称为样本均值,一般用 表示,即,思考:在分组样本场合,样本均值如何计算?二者结果相同吗?,x,例5.3.1,定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如(x
14、ic)2 的函数中,,样本均值的基本性质:,定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即,最小,其中c为任意给定常数。,样本均值的抽样分布:,定理5.3.3 设x1,x2,xn 是来自某个总体的样本,,为样本均值。,(1)若总体分布为N(,2),则,的精确分布为N(,2/n);,若总体分布未知或不是正态分布,但 E(x)=,Var(x)=2,则n 较大时 的渐近分 布为N(,2/n),常记为。,xAN(,2/n),这里渐近分布是指n 较大时的近似分布.,5.3.3 样本方差与样本标准差,称为样本标准差。,定义5.3.3,称为样本方差,,其算术平方根,在n
15、 不大时,常用 作为样本方差,其算术平方根也称为样本标准差。,在这个定义中,,(xi x)2,n1称为偏差平方和的自由度。其含义是:,在 确定后,n 个偏差,x1x,x2x,xnx,能自由取值,因为,只有n1个数据可以自由变动,而第n个则不,(xi x)=0.,称为偏差平方和,,中,样本偏差平方和有三个不同的表达式:,(xix)2=xi2(xi)2/n=xi2 nx,它们都可用来计算样本方差。,思考:分组样本如何计算样本方差?,例5.3.4,样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。,定理5.3.4 设总体 X 具有二阶矩,即 E(x)=,Var(x)=2,x1



- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率论与数理统计教程朱庆峰 概率论 数理统计 教程 朱庆峰 统计 及其 分布 课件

链接地址:https://www.31ppt.com/p-4007769.html