四章节抽样分布与参数估计.ppt
《四章节抽样分布与参数估计.ppt》由会员分享,可在线阅读,更多相关《四章节抽样分布与参数估计.ppt(98页珍藏版)》请在三一办公上搜索。
1、4-1,第四章 抽样分布与参数估计,第一节 频率、概率与概率分布第二节 抽样分布第三节 总体参数估计第四节 抽样设计,4-2,第一节 频率、概率与概率分布,一、随机事件与概率(一)随机试验与事件随机现象的特点是:在条件不变的情况下,一系列的试验或观测会得到不同的结果,并且在试验或观测前不能预见何种结果将出现。对随机现象的试验或观测称为随机试验,它必须满足以下的性质:(1)每次试验的可能结果不是唯一的;(2)每次试验之前不能确定何种结果会出现;(3)试验可在相同条件下重复进行。,4-3,在随机试验中,可能出现也可能不出现的结果,称之为随机事件,简称事件。试验的结果可能是一个简单事件,也可能是一个
2、复杂事件。简单事件就是不可以再分解的事件,又称为基本事件。复杂事件是由简单事件组合而成的事件。基本事件还可称为样本点,设试验有n个基本事件,分别记为(i=1,2,,n)。集合=1,2,n称为样本空间,中的元素就是样本点。,4-4,例:投掷一粒均匀的六面体骰子,出现的点数有可能是1、2、3、4、5、6共六种。这六种结果是基本结果,不可以再分解成更简单的结果了,所以=1,2,3,4,5,6为该试验的样本空间。“出现点数是奇数”这一事件就不是简单事件,它是由基本事件1,3和5组合而成的。我们通常用大写字母A,B,C,来表示随机事件,例如,设A表示“出现点数是奇数”,则A=1,3,5;设B表示“出现点
3、数是偶数”,则B=2,4,6。,4-5,(二)概率1.概率的定义概率就是指随机事件发生的可能性,或称为机率,是对随机事件发生可能性的度量。进行n次重复试验,随机事件A发生的次数是m次,发生的频率是m/n,当试验的次数n很大时,如果频率在某一数值p附近摆动,而且随着试验次数n的不断增加,频率的摆动幅度越来越小,则称p为事件A发生的概率,记为:P(A)=p。在古典概型场合,即基本事件发生的概率都一样的场合:,4-6,例:设一个袋子中装有白球2个,黑球3个。(1)从中随机摸出1只球,问刚好是白球的概率有多大?(2)从中随机摸出2只球,一问2只球都是白球的概率有多大?二问2只球一白一黑的概率有多大?三
4、问2只球都是黑球的概率有多大?解:(1)由于摸出的任何1只球都形成一个基本事件,所以样本点总数为n=5。用A表示摸出的是白球事件,则A由两个基本点组成,即A=白球,白球,有利场合数m=2。因此,刚好摸出白球的概率为P(A)=m/n=2/5=0.4,4-7,(2)由于摸出2只球才成一个基本事件,所以样本点总数为 故P(A)=P(2只球都是白球)=1/=1/10P(B)=P(2只球一白一黑)=23/10=6/10P(C)=P(2只球都是黑球)=3/10NOTE:P(A+B+C)=1,4-8,2.概率的基本性质性质1 1P(A)0。性质2 P()=1。性质3 若事件A与事件B互不相容,即AB=,则P
5、(AB)=P(A)+P(B)。推论1 不可能事件的概率为0,即:P()=0。推论2 P()=1-P(A),表示A的对立事件,即它们二者必有一事件发生但又不能同时发生。,4-9,例:袋中装有4只黑球和1只白球,每次从袋中随机地摸出1只球,并换入1只黑球。连续进行,问第三次摸到黑球的概率是多少?解:记A为“第三次摸到黑球”,则 为“第三次摸到白球”。先计算P()。由于袋中只有1只白球,如果某一次摸到了白球,换入了黑球,则袋中只有黑球了。所以相当于第一、第二次都是摸到黑球,第三次摸到白球。注意这是一种有放回的摸球,样本点总数为53,有利场合数是421。故:P()=,所以,4-10,3.事件的独立性定
6、义 对事件A与B,若p(AB)=p(B)p(A),则称它们是统计独立的,简称相互独立。例:已知袋中有6只红球,4只白球。从袋中有放回地取两次球,每次都取1球。设 表示第i次取到红球。那么,因此,也就是说,B1,B2相互独立。从题目条件看,这一结论是显然的。,4-11,二、随机变量,随机变量X是定义在样本空间=1,2,n上的一个函数,这个函数的取值随试验的结果不同而变化。这个函数还要求满足条件:对任意的实数x,Xx是随机事件。如果随机变量所有可能的取值是有限的,或可排成一列的,这种随机变量称为离散型随机变量;另一种情况是随机变量的取值范围是一个区间或整个数轴,这种随机变量称为连续型随机变量。1.
7、离散型随机变量的概率分布 设离散型随机变量X的所有可能取值为x1,x2,,xn,,相应的概率为p(x1),p(x2),p(xn),。用表格统一表示出来是:,4-12,X x1 x2 xn P p(x1)p(x2)p(xn)这称为离散型随机变量X的概率分布。性质:(1)0p(xi)1(i=1,2,);(2)定义:离散型随机变量X的期望值为 性质:其中X1,X2都是随机变量,是任意常数。,4-13,定义:离散型随机变量X的方差为方差的平方根称为标准差。方差2或标准差反映随机变量X相对其期望值的离散程度,2或越小,说明期望值的代表性越好;2或越大,说明期望值的代表性越差。性质:对于任意的,D(X)=
8、2 D(X)成立,4-14,贝努里试验 与二项分布有时我们只对试验中某事件A是否出现感兴趣,如果A发生,我们称“成功”,否则称“失败”。像这样只有两种结果的试验称为贝努里试验。设A出现的概率为p,我们独立地重复进行n次贝努里试验,称为n重贝努里试验.以Bk表示n重贝努里试验中事件A正好出现k次这一事件,则(k=0,1,2,,n)该分布称为二项分布(q=1-p).NOTE:,4-15,2.连续型随机变量的概率分布 设X是R.V.,x 是一实数.记F(x)=P(Xx)。该函数就是随机变量X的分布函数。分布函数的导数称为密度函数,记作p(x)。性质(1)p(x)0(2)(3),4-16,定义:连续型
9、随机变量X的期望值为 方差为 性质:D(X)=2 D(X),4-17,正态分布 如果连续型随机变量X的密度函数为 则称随机变量X服从均值为,方差为2的正态分布,记为XN(,2)。如果一个正态分布的=0,=1,则称该正态布为标准正态分布,相应的随机变量称为标准正态随机变量,用Z表示,即ZN(0,1),相应的分布密度函数为,4-18,一般正态分布 与标准正态分布 的关系:若随机变量X服从正态分布N(,2),则随机变量 Z=服从标准正态分布,即ZN(0,1)。,4-19,例:某大学英语考试成绩服从正态分布,已知平均成绩为70分,标准差为10分。求该大学英语成绩在6075分的概率。,4-20,第二节
10、抽样分布,一、抽样的基本概念二、抽样分布(一)重复抽样分布(二)不重复抽样分布三、大数定理与中心极限定理,4-21,一、抽样的基本概念,抽样涉及的基本概念有:总体与样本(见第一章)样本容量与样本个数总体参数与样本统计量重复抽样与不重复抽样这些概念是统计学特有的,体现了统计学的基本思想与方法。,4-22,总体和样本(参见第1章),1.总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用 N 表示。2.样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用 n 表示。3.总体是唯一的、确定的,而样本是不确定的
11、、可变的、随机的。,4-23,样本容量与样本个数,样本容量:一个样本中所包含的单位数,用n表示。样本个数:又称样本可能数目,指从一个总体中所可能抽取的样本的个数。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。(这个概念只是对有限总体有意义,对无限总体没有意义!),4-24,总体参数和样本统计量,总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。样本统计量:根据样本分布计算的指标。是随机变量。,4-25,重复(置)抽样与不重复(置)抽样,重置抽样与不重置抽样(各有3个特点P90)重复抽样:例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2考虑顺序时
12、:样本个数=Nn=52=25不考虑顺序时:样本个数=,4-26,重复(置)抽样与不重复(置)抽样,不重复抽样:例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2考虑顺序时:样本个数不考虑顺序时:样本个数,4-27,二、抽样分布,抽样分布的概念:由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。(主要求出样本平均数的期望与方差)包括以下内容重置抽样分布样本平均数的分布样本成数的分布不重置抽样分布样本平均数的分布样本成数的分布,4-28,重置抽样分布-样本平均数的分布,某班组5个工人的日工资为34、38、42、46、50元。=422=32现用重置抽样的方法从5人
13、中随机抽2个构成样本。共有52=25个样本。如右图。,4-29,验证了以下两个结论:抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用 表示。,重置抽样分布-样本平均数的分布,4-30,重置抽样分布-样本平均数的分布,由概率论知,如果总体是正态分布的,则样本平均数的抽样分布是如下正态分布这是一个非常重要的结论,有广泛的应用。(请参见中心极限定理。),4-31,重置抽样分布-样本成数的分布,总体成数p是指具有某种特征的单位在总体中的比重。成数是一个特殊平均数,设总体单位总数目是N,总体中有该特征的单位数是N1。设x是0、1变量(总体单位有该特征,则x取1,否则取0
14、),则有:现从总体中抽出n个单位,如果其中有相应特征的单位数是n1,则样本成数是:P也是一个随机变量,利用样本平均数的分布性质结论,即有:,4-32,不重置抽样分布,样本均值的分布性质:样本成数的分布性质,4-33,抽样分布总结,4-34,三、大数定理与中心极限定理,大数定理,当样本容量n 充分大时,可以用样本平均估计总体平均。,当试验次数n充分大时,可以用频率代替概率。,大数定理的意义:个别现象受偶然因素影响,但是,对总体的大量观察后进行平均,就能使偶然因素的影响相互抵消,从而使总体平均数稳定下来,反映出事物变化的一般规律,这就是大数定理的意义。,4-35,中心极限定理,正态分布的再生定理:
15、相互独立的两个正态随机变量相加之和仍服从正态分布。中心极限定理:大样本的平均数近似服从正态分布。,4-36,例1:求样本平均数的概率分布,设某公司1000名职工的人均年奖金为2000元,标准差500元,随机抽取36人作为样本进行调查,问样本的人均年奖金在19002200元之间的概率有多大?,4-37,例2,某地区职工家庭的人均年收入平均为12000元,标准差为2000元。若知该地区家庭的人均年收入服从正态分布,现采用重复抽样从总体中随机抽取25户进行调查,问出现样本平均数等于或超过12500元的可能性有多大?,4-38,例3,某商场推销一种洗发水。据统计,本年度购买此种洗发水的有10万人,其中
16、6万是女性。如果按不重复随机抽样方法,从购买者中抽出100人进行调查,问样本中女性比例超过50%的可能性有多大?,4-39,第三节 总体参数估计,本节主要内容:总体参数估计概述总体参数的点估计参数区间估计样本容量的确定,4-40,一、总体参数估计概述,设待估计的总体参数是,用以估计该参数的统计量是,抽样估计的极限误差是,即:极限误差是根据研究对象的变异程度和分析任务的性质来确定的在一定概率下的允许误差范围。参数估计的两个要求:精度:估计误差的最大范围,通过极限误差来反映。显然,越小,估计的精度要求越高,越大,估计的精度要求越低。极限误差的确定要以实际需要为基本标准。可靠性:估计正确性的一个概率
17、保证,通常称为估计的置信度。,4-41,二、总体参数的点估计,点估计的含义:直接以样本统计量作为相应总体参数的估计量。,4-42,优良估计量标准,优良估计标准:无偏性:要求样本统计量的平均数等于被估计的总体参数本身。一致性:当样本容量充分大时,样本统计量充分靠近总体参数本身。有效性:,总体方差的无偏估计量为样本方差,点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计。,4-43,三、参数区间估计,参数区间估计的含义:估计总体参数的区间范围,并给出区间估计成立的概率值。其中:1-(01)称为置信度;是区间估计的显著性水平,其取值大小由实际问题确定,经常
18、取1%、5%和10%。,注间对上式的理解:例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。,4-44,我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。正确的理解:
19、如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:该班同学平均成绩的置信区间是60-80分,置信度为95%。,4-45,区间估计的基本要素,包括:样本点估计值、抽样极限误差、估计的可靠程度样本点估计值抽样极限误差:可允许的误差范围。抽样估计的可靠程度(置信度、概率保证程度)及概率度注意:本教材所进行的区间估计仅指对总体平均数或成数的区间估计,并且在际计算过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 章节 抽样 分布 参数估计
链接地址:https://www.31ppt.com/p-5388137.html