统计学基础PPT课件.ppt
《统计学基础PPT课件.ppt》由会员分享,可在线阅读,更多相关《统计学基础PPT课件.ppt(110页珍藏版)》请在三一办公上搜索。
1、数据分析(方法与案例),作者 贾俊平,统计学基础,Fundamental Statistics,第 4 章 抽样与参数估计,4.1 抽样与抽样分布4.2 参数估计的基本方法 4.3 总体均值的区间估计4.4 总体比例的的区间估计4.5 样本容量的确定,parameter estimation,2010年,学习目标,抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法,2010年,统计应用一次失败的民意调查,在1936年的美国总统选举前,一份名为Literary Digest 杂志进行了一次民意调查。调查的焦点是谁将成为下一届
2、总统是挑战者,堪萨斯州州长Alf Landon,还是现任总统 Franklin Delano Roosevelt为了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表(电话和汽车在1936年并不像现在那样普及,但是这些名单比较容易得到)。尽管发出的调查表大约有一千万张,但收回的比例并不高。在收回的调查表中,Alf Landon非常受欢迎。于是该杂志预测 Landon 将赢得选举。但事实上是Franklin Roosevelt赢得了这次选举调查失败的主要原因是抽样框出现了问题。在经济大萧条时期由于电话和汽车并不普及,只是富裕阶层才会拥有,调查有电话和汽车的人们,并
3、不能够反映全体选民的观点,2010年,参数估计在统计方法中的地位,4.1 抽样与抽样分布 4.1.1 概率抽样方法 4.1.2 抽样分布,第 4 章 抽样与参数估计,4.1.1 概率抽样方法,4.1 抽样与抽样分布,2010年,有关抽样的几个基本概念,1、全及总体 全及总体又称总体或母体,是指研究对象的全体,它是由许多个性质相同的调查单位组成的,总体单位数通常用N表示。,例如:全部职工、全部学生、全部产品,2010年,有关抽样的几个基本概念,2、抽样框 目标总体规定了理论上的抽样范围,但是进行抽样的总体单位与目标总体有时是不一致的,因而,在抽样之前,还必须明确实际进行抽样的总体范围和抽样单位。
4、抽样框是指用以代表总体,并从中抽选样本的一个框架。,目标总体与抽样框有时是一致的;多数情况下,目标总体的范围要率大于抽样框。,2010年,2、抽样框抽样框的主要形式有三种:名单抽样框:指可供抽取的所有抽样单位的名录一览表例如:某地区企业名录,某校在籍学生花名册等。区域抽样框:即按地理位置将实际进行抽样的总体范围划分为若干小区域,以每个小区域为抽样单位。例如:调查不同地区的人均收入水平等。,有关抽样的几个基本概念,2010年,时间表抽样框:把总体的时间过程划分为若干个小的时间单位做为抽样单位。例如:对流水线上24小时内生产的产品进行质量抽 查时,以10分钟为一个抽样单位。,有关抽样的几个基本概念
5、,对于抽样调查来说,样本的代表性如何,抽样调查最终推算的估计值真实性如何,首先取决于抽样框的质量。抽样框在抽样调查中处于基础地位,是抽样调查必不可少的部分,其对于推断总体具有相当大的影响。,区域抽样框,在商场的大门口,在微波炉柜台前,在市区街道旁边,在某个住宅小区,中山路桥西区桥东区华北地区东北地区居民一组居民二组,某外国公司在大连进行微波炉市场调查:,时间表抽样框,连续出产的产品总体可以编制抽样框:均匀的出产时间、可以预见到的产品总量。,连续到加油站加油的汽车总体无法编制抽样框:时间不定、总量也无法确定。,2010年,3、样本总体 样本总体,又叫子样,简称样本。它是从全及总体中随机抽取出来,
6、用来代表全及总体的那部分单位构成的总体。样本总体的单位数用小写字母n表示,称为样本容量。,从某个城市职工家庭中随机抽取1000户进行调查,则这1000户组成的小总体即为样本,样本容量 n=1000。,例如:,有关抽样的几个基本概念,2010年,对于给定的研究对象,全及总体是唯一确定的,而样本总体不是唯一的,它是随机的。,4、抽样比 抽样比是指在抽选样本时,所抽取的样本单位数n与总体单位数N之比。一般地讲,n30为大样本,n30为小样本。研究社会经济现象时,通常采用大样本进行抽样调查。,有关抽样的几个基本概念,2010年,概率抽样(probability sampling),也称随机抽样特点按一
7、定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,2010年,简单随机抽样(simple random sampling),从总体N个单位中随机地抽取n个单位作为样本,每个单位进入样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率,2010年,1、重复抽样 重复抽样也叫
8、重置抽样,是指每次抽取一个元素后又放回,重新参加下一次的抽选,直到抽取n个元素为止。全及总体单位数始终保持不变,每个总体单位都有被重复抽中的可能。,重复抽样通常要考虑单位排列顺序,如电话号码中的“8651”和“1568”不同。其样本可能数目为,抽样方法和样本可能数目,2010年,2、不重复抽样 不重复抽样也叫不重置抽样,是指每次从总体中抽取一个元素后不再放回,从剩余的元素中抽取下一个元素,直到抽取n个元素为止。总体单位数在不断减少,每个总体单位不可能被重复抽中。,不重复抽样通常不考虑样本单位排列顺序,如篮球队的5个队员按其号码“1,2,3,4,5”排队和“5,4,3,2,1”排队是同一个队。其
9、样本可能数目为,抽样方法和样本可能数目,2010年,分层抽样(stratified sampling),将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本例如:在企业职工收入抽样调查中,可按经济类型将职工分为全民企业职工、集体企业职工、中外合资企业职工等若干类,然后在各类型企业职工中分别抽取一定数目的职工构成样本。,2010年,优点保证样本的结构与总体的结构比较相近,从而提高估计的精度可以按自然区域或行政区域进行分层,组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计适用于总体情况复杂、各单位之间差异较大、单位较多的情况。,分层抽样(stra
10、tified sampling),等比例分层抽样 不考虑各组单位变异程度,从各组当中按同一比例抽取样本单位不等比例分层抽样 按各组单位变异程度大小来确定抽样单位数的多少,变异度大的类型组多抽一些,变异度小的少抽一些,不规定统一的抽样比,分层抽样的分类,实际工作中,由于事先很难了解各组单位变异程度,因此多采用等比例分层抽样方法,在分层抽样方式下,因为是每组都抽取样本单位,所以对于各组来说,可以看成全面调查,没有抽样误差。因此分层抽样方式下,组间方差不影响抽样误差,只有各组组内方差影响抽样误差。,对于给定的总体,方差(即总方差)是一定的,划分层时应尽量增大层间差异,缩小层内差异。这是分层抽样法成功
11、的关键。,2010年,系统抽样(systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位,也叫等距抽样或机械抽样。先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,样本分布均匀,可提高估计的精度缺点:对估计量方差的估计比较困难,2010年,系统抽样按照排队时所依据的标志不同,可分为按无关标志排队和按有关标志排队。,系统抽样(systematic sampling),按无关标志排队,是指用来排队的标志与调查研究的标志无关例如:研究工人
12、的平均收入水平时,将工人按照姓氏笔画顺序排列;在产品连续生产过程中进行质量检查,每隔一定时间抽取一次样品等,2010年,按有关标志排队,是指用来排队的标志与调查研究的数量有直接关系例如:研究职工工资收入时按职工的职别排队;农产品调查以往年的平均亩产作为排队标志,系统抽样(systematic sampling),系统抽样一定是不重复抽样。按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于分层抽样,其样本的代表性优于无关标志排队的系统抽样。,2010年,系统抽样(systematic sampling),系统抽样的实施步骤,按照某种顺序给总体中个体排列编号,然后从某个
13、随机位置开始每隔一定号数抽取一个个体,直至抽够。,抽样间隔=总体单位数/样本单位数,例如:要从500件产品中抽取10件,则间隔为50,2010年,系统抽样(systematic sampling),注意:系统抽样的第一个样本单位位置确定以后,其余样本单位的位置也就随之确定了。因此,要避免由抽样间隔和现象本身的周期性节奏相重合而引起的系统性影响。例如,农产品调查时,农作物的抽样间隔不宜和垅的长度相等;工业产品质量检查时,产品的抽样间隔不要和上下班的时间相一致,以防止发生系统性误差。,2010年,整群抽样(cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后
14、对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。,例如:对农民的人均收入进行调查,可以先将总体分群,如农村的乡、村、组等,然后进行整群抽样;对某工厂生产线生产的产品进行质量调查,在规定时间内,每隔24小时抽取1小时的全部产品加以检查。,整群抽样是用抽中群的统计量来估计总体参数,如果所有各群的结构都相同或相近,则被抽中的群就能较好地代表总体的所有群,抽样误差就会很小。所以整群抽样的误差主要取决于群间方差的大小,而与群内方差无关。这一特点刚
15、好与分层抽样相反。,4.1.2 抽样分布,4.1 抽样与抽样分布,2010年,抽样的数理基础,抽样调查数理基础,抽样分布,大数定律,正态分布,中心极限定理,2010年,抽样分布的形成过程,样本统计量的概率分布,2010年,在重复选取容量为n的样本时,由每一个样本算出的该统计量数值的相对频数分布或概率分布 是一种理论分布样本统计量是随机变量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本样本统计量为我们提供了长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布(sampling distribution),2010年,容量相同的所有可能样本的样本均值的概率分布
16、一种理论概率分布进行推断总体总体均值的理论基础,样本均值的抽样分布,2010年,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下,均值和方差,2010年,样本均值的抽样分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,2010年,样本均值的抽样分布(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,X,样本均值的抽样分布,1.0,0,0.1,0.2,0.3,P(X),1.5,3.0,4.0,3.
17、5,2.0,2.5,2010年,样本均值的分布与总体分布的比较(例题分析),=2.5 2=1.25,总体分布,样本均值分布,2010年,大数定律,在对某一现象观察过程中,由大量相互独立的随机变量构成的总体,由于受偶然因素的影响,每次所得到的结果不同,但经过大量观察并加以综合平均后,消除了偶然因素引起的差异,而接近于总体的平均值,使现象总体某一方面的规律在数量上、质量上显示出来。,例如:抛硬币实验,通常以平均数或比例的形式表现,1.独立同分布大数定律(说明平均数具有稳定性),独立同分布的随机变量:,设它们的平均数为,方差为,则对任意小的正数,有:,2.贝努力大数定律(说明比例具有稳定性),设m是
18、n次独立随机试验中事件A发生的次数,p是事件A发生的概率,则对于任意小的正数,有,2010年,大数定理从理论上揭示了样本和总体之间的内在联系,即随着抽样单位数n的增大,样本平均数有接近总体平均数的趋势,样本成数有接近总体成数的趋势。,注意:,第一、抽样必须遵循随机原则。第二、抽样必须遵循大量原则。,大数定律,2010年,正态分布,正态分布在抽样理论中占有非常重要的地位:大千世界中许多常见的随机现象服从或近似服从正态分布,如测量误差,同龄男性的身高、体重、智商和肺活量,设备使用寿命,一定条件下某种农作物的产量等。它们的共同特点是中间多两端小,即离均值越近的数值越常见;反之,离均值越远的数值越少见
19、。由于正态分布特有的数学性质,使之成为许多概率分布的极限分布,其他一些分布的概率可由正态分布来近似计算,如当试验次数n很大时,二项分布可用正态分布来近似。,2010年,例如:人类的身高、产品的寿命、加工零件的尺寸等。,正态分布基本指这样的分布:在总体平均数及其附近,总体单位数最多;相反地,越远离总体平均数,总体单位数越少。也就是说,越接近总体平均数的变量值出现的次数越多,概率也就越大;反之,越远离总体平均数的变量值出现的次数就越少,概率也就越小。,正态分布,2010年,1、正态分布是钟型对称分布,对称线为总体平均数,整个曲线下的面积等于1。总体平均数将分布曲线截为两段互为镜像的曲线,两段曲线下
20、的面积相等,各为1/2。,正态分布的特征,2010年,2、在总体平均数处,正态分布的概率密度最大,当远离总体平均数时,概率密度的值随着距离的增加而递减。,X,f(x),正态分布的特征,2010年,3、在距离总体平均数一个标准差的位置上,即 时,曲线有两个拐点。,正态分布的特征,2010年,4、正态分布的位置及形状由总体平均数和总体标准差决定,总体平均数决定正态分布中心的位置;,正态分布的特征,2010年,4、总体标准差决定正态分布的宽窄的形状。,0,正态分布的特征,标准正态分布,2010年,当被抽样总体服从正态分布时,样本平均数的抽样分布具有下列重要性质:,样本平均数的分布仍然是正态分布;样本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 基础 PPT 课件

链接地址:https://www.31ppt.com/p-6193890.html