《统计学第六章抽样与抽样估计.ppt》由会员分享,可在线阅读,更多相关《统计学第六章抽样与抽样估计.ppt(65页珍藏版)》请在三一办公上搜索。
1、2023/10/4,1,第六章 抽样推断教学目的:掌握抽样调查的概念特点、应用范围;理解、掌握抽样平均误差和抽样极限误差的计算及误差范围和置信区间;熟练掌握简单随机抽样组织方式下如何利用样本指标估计总体的平均指标和成数指标。掌握假设检验的一般问题教学重点:抽样调查的特点、抽样平均误差和抽样极限误差的计算及误差范围和置信区间教学难点:抽样调查的特点、抽样平均误差和抽样极限误差的计算及误差范围和置信区间 教学学时:8学时,2023/10/4,2,统计推断的过程,2023/10/4,3,第一节 抽样调查一、抽样调查的概念及特点 1.概念(1)抽样调查:从所研究的总体中抽出一部分单位,作为样本进行观察
2、研究,以认识总体的数量特征一种统计方法。(2)抽样估计:根据样本分布的原理、利用样本资料提供的信息对总体的某些数量特征进行科学的估计或推断。,2023/10/4,4,2.特点(1)根据部分实际资料对全部总体的数量特征作出估计;(2)按随机原则从全部总体中抽取样本单位;(3)抽样误差可以事先计算并加以控制;二、抽样调查的作用1.对不可能进行全面调查现象进行抽样估计;2.抽样调查可以节省人力物力,提高调查的经济效益,又能够节省时间,提高调查的实效性。,2023/10/4,5,三、抽样调查的几个基本概念 1.总体和样本(1)总体 总体单位的总数称为总体容量(用N表示)。(2)样本 从总体中抽取来代表
3、总体的部分总体单位所构成的整体。样本单位的总数称为样本容量(用n表示)。种类:大样本 小样本,2023/10/4,6,2.总体参数和样本指标(1)总体参数(总体指标)如(或记为)、P、等。(2)样本指标(估计量或样本统计量)如、p、s 等。3.重复抽样和不重复抽样(1)重复抽样(回置抽样)(2)不重复抽样(不回置抽样),2023/10/4,7,4.概率抽样与非概率抽样(1)概率抽样 基本的组织方式有:整群抽样、分层抽样、等距抽样、简单随机抽样。(2)非概率抽样 根据调查者的经验或判断,从总体中有意识的抽取若干单位构成样本。如典型调查、重点调查等。,2023/10/4,8,5.抽样筐(1)定义:
4、包括全体抽样单位的名单框架。(2)形式:名单抽样筐列出全部总体单位的名录一览表。如企业名单、居民名单、学生名单;区域抽样筐按地理位置将总体范围划分为若干小区域,以小区域为抽样单位;时间表抽样筐将总体全部单位按照时间顺序排列,把总体的时间过程分为若干小的时间单位,以时间单位为抽样单位。如检测流水线上的产品质量时以1分钟为一个抽样单位。,2023/10/4,9,第二节 抽样误差一、抽样误差的概念(一)抽样误差的性质 1.抽样误差 由于随机抽样的偶然因素使各单位的结构不足以代表总体的结构而引起抽样指标与总体指标间的绝对离差。2.抽样调查中误差的来源(1)登记性误差:可避免(2)代表性误差 系统误差:
5、非随机、可避免 随机性误差:可计算、控制 抽样估计中所指的误差主要指随机误差。,2023/10/4,10,(二)抽误误差的影响因素 1.样本容量:即样本单位数2.总体差异程度3.抽样方法4.抽样组织形式,2023/10/4,11,二、抽样平均误差(一)抽样平均误差的概念 所有可能样本的估计值与相应总体参数的标准差,反映样本估计值与其中心的平均离散程度。(二)抽样平均误差的计算公式,2023/10/4,12,样本均值的抽样分布(一个例子),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下:,均值和方差,
6、2023/10/4,13,现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表,2023/10/4,14,计算出各样本的均值,如下表。并给出样本均值的抽样分布,2023/10/4,15,所有样本均值的均值和方差,式中:M为样本数目比较及结论:1.样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的1/n,2023/10/4,16,1.抽样平均数的平均误差(1)重复抽样,(2)不重复抽样,2023/10/4,17,2.抽样成数的平均误差(1)重复抽样,(2)不重复抽样,例:从40000件产品中随机抽取200件进行检查,结果有10件不合
7、格。求合格率的抽样平均误差?,2023/10/4,18,三、抽样极限误差(一)概念 又称允许误差。指样本指标与总体指标之间产生抽样误差被允许的最大可能范围。(二)抽样极限误差的计算,2023/10/4,19,(三)抽样误差的概率度 基于概率估计的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量。极限误差除以抽样平均误差得到的相对数称为概率度。用Z表示。(四)抽样估计的置信度 指样本指标与总体指标误差不超过一定范围的概率保证程度。抽样误差的概率就是概率度Z的涵数,即:,2023/10/4,20,2023/10/4,21,第三节 简单随机抽样估计的方法 一、抽样估计的优良标准 同一个总体参
8、数有多个样本估计量,究竟哪一个才是最优估计量呢,常用以下三个标准衡量:1.无偏性:估计量的数学期望等于被估计的总体参数,2023/10/4,22,2.有效性:一个方差较小的无偏估计量称为一个更有效的估计量。如,与其他估计量相比,样本均值是一个更有效的估计量。,2023/10/4,23,3.一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数。,2023/10/4,24,二、总体参数的点估计 1.概念 从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。例如:用样本均值作为总体未知均值的估计值就是一个点估计。2.点估计的方法:有矩估计法、顺序统计量法、最大似然法
9、、最小二乘法等。优点:简单明确 缺点:不能说明估计结果的抽样误差和把握程度。,2023/10/4,25,几个总体参数的无偏、有效、一致点估计(1)样本平均数估计量是总体平均数的无偏、有效、一致估计,即(2)样本比例是总体比例的无偏、有效、一致估计,即,2023/10/4,26,(3)总体方差的无偏估计是:,2023/10/4,27,三、总体参数的区间估计(一)区间估计的概念要点,1.根据一个样本的观察值给出总体参数的估计范围 2.给出总体参数落在这一区间的概率 3.例如:总体均值在5070之间,置信度为 95%,2023/10/4,28,(二)区间估计的内容,2023/10/4,29,落在总体
10、均值某一区间内的样本,2023/10/4,30,(三)置信水平,总体未知参数落在区间内的概率表示为(1-为显著性水平,是总体参数未在区间内的概率常用(1-)%有 99%,95%,90%99.73%,95.45%,68.27%相应的 为0.01,0.05,0.10;0.0027,0.0455,0.3173,2023/10/4,31,(四)总体均值的区间估计(已知),1.假定条件总体服从正态分布,且总体方差()已知如果不是正态分布,可以由正态分布来近似(n 30)使用正态分布统计量,总体均值 在1-置信水平下的置信区间为,以上是重复抽样,如果是不重复抽样又怎样呢!,2023/10/4,32,总体均
11、值的区间估计(正态总体:实例),【例1】某种零件长度服从正态分布,从该批产品中随机抽取件,测得其平均长度为21.4 mm。已知总体标准差=0.15mm,试估计该种零件平均长度的置信区间,给定置信水平为0.95。,解:已知N(,0.152),x2.14,n=9,1-=0.95,/2=1.96 总体均值的置信区间为,我们可以95的概率保证该种零件的平均长度在21.30221.498 mm之间。,2023/10/4,33,总体均值的区间估计(非正态总体:实例),【例2】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95的置信水平估计该大学全体学生平均每天参加
12、体育锻炼的时间(已知总体方差为36分钟)。,解:已知 x26,=6,n=100,1-=0.95,/2=1.96,我们可以95的概率保证平均每天参加锻炼的时间在24.82427.176 分钟之间。,2023/10/4,34,总体均值的置信区间(未知,小样本),1.假定条件总体方差()未知总体必须服从正态分布使用 t 分布统计量,3.总体均值 在1-置信水平下的置信区间为,以上是重复抽样,如果是不重复抽样又怎样呢!,2023/10/4,35,总体均值的区间估计(未知实例),【例3】从一个正态总体中抽取一个随机样本,n=25,其均值x=50,标准差 s=8。建立总体均值m 的95%的置信区间。,解:
13、已知N(,2),x=50,s=8,n=25,1-=0.95,t/2=2.0639。,我们可以95的概率保证总体均值在46.6953.30 之间,2023/10/4,36,(五)总体比例的置信区间,1.假定条件两类结果总体服从二项分布可以由正态分布来近似使用正态分布统计量,3.总体比例 的置信区间为,以上是重复抽样,如果是不重复抽样又怎样呢!,2023/10/4,37,例4:某城市想要估计下岗职工中女性所占的比例,随机抽取了100名下岗职工,其中65人为女性职工。试以99.73%的置信水平估计该城市下岗职工中女性比例的置信区间?,2023/10/4,38,影响区间宽度的因素,1.数据的离散程度,
14、用 来测度样本容量3.置信水平(1-),影响 Z 的大小,2023/10/4,39,区间估计步骤(以估计 为例):,计算样本统计量,计算抽样平均误差,计算抽样极限误差,确定置信区间,2023/10/4,40,四、样本容量的确定思考:1.影响样本容量的因素?2.比例条件下n的确定?,2023/10/4,41,课堂练习:用简单随机抽样方法,从一批电子产品中按重复抽样抽取100个对其使用寿命进行测试,结果如下:(1)以95.45的概率保证 程度估计该产品的平均使用 寿命区间?(2)若 3000小时以下为不 合格品,试以同样的概率估 计该产品合格率的区间?,2023/10/4,42,第四节 其他抽样组
15、织方式及其抽样估计一、分层抽样及其抽样估计1.分层抽样的概念2.等比分层抽样,2023/10/4,43,【例1】某地区对居民在一年内用于某类消费的支出进行了等比例分层抽样,结果如下,单位:(元)要求以95.45%的置信度估计该地区平均每户支出的区间?,解:以95.45%的置信度估计该地区平均每户支出的区间为288.55至299.45元之间。,2023/10/4,44,3.不等比分层抽样,【例2】某企业生产的1万件某种产品,有6千件由3年前购进的新机器生产,现在两类中各抽100件。由旧机器生产的产品样本合格率是94%,新机器生产的产品样本合格率是98%,要求以68.27%的置信度估计全部产品合格
16、率的区间?,2023/10/4,45,解:N=10000,N1=4000,N2=6000,n1=n2=100,p1=94%,p2=98%,z=1,置信上限=96%+1.3%=97.3%上限=96%-1.3%=94.7%以68.27%的置信度估计全部产品合格率的区间为94.7%至97.3%,2023/10/4,46,二、等距抽样及其抽样估计 1.等距抽样的概念 2.无关标志排队等距抽样 其抽样误差按简单随机抽样的抽样误差公式近似计算。3.有关标志排队等距抽样 其抽样误差按分层抽样的抽样误差公式近似计算。(1)半距起点等距抽样(2)对称起点等距抽样,2023/10/4,47,三、整群抽样及其抽样估
17、计1.整群抽样的概念2.整群抽样估计,例3 某商场有某种饮料500箱,每箱6瓶,现随机抽取10箱检查每瓶的含菌量数,测得这10箱的平均每瓶含菌数分别为:90、80、65、85、75、70、60、65个。要求以95%的置信度推断这批饮料的平均含菌数的区间?(教材P108),2023/10/4,48,第五节 假设检验一、假设检验的概念 事先对总体参数或总体分布形式(特征)作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著性差异,从而决定应接受或否定原假设。所以,假设检验也称为显著性检验。二、假设检验的步骤第一步,提出假设,包括原假设和备择假设,2023/10/4,
18、49,原假设又称零假设,是正待检验的假设,记为H0;备择假设是拒绝原假设后可供选择的假设,记为H1。原假设与备择假设是相互对立的,检验结果两者必取其一一般地,假设有三种形式(1)H0:uu0;H1:uu0 双侧检验(2)H0:uu0;H1:uu0(或H0:uu0;H1:uu0)左侧检验(3)H0:uu0;H1:uu0(或H0:uu0;H1:uu0)右侧检验,2023/10/4,50,第二步,构造相应的检验统计量,并确定其 分布形式不同的假设检验问题需要选择不同的统计量作为检验统计量。第三步,确定显著性水平和临界值(单双侧)。表示H0为真时拒绝H0的概率(小概率),通常取0.1、0.05、0.0
19、1、0.05、0.001。第四步,根据样本数据计算统计量的值或P值。第五步,作出结论。根据所计算的统计量的值与临界值比较(或用P值与 对比),确定是否拒绝原假设统计值落在拒绝区域内(或者落在接受区域内的概率P 1)。,2023/10/4,51,三、假设检验中的两类错误 在作出接受或者拒绝原假设的结论时,是基于样本信息来判断的。由于样本的随机性,使假设检验有可能出现两类错误。1、第一类错误拒真错误 当原假设H0为真,但由于样本的随机性使样本统计量落在了拒绝区域,从而导致作出的判断是拒绝原假设,概率 P拒绝H0|H0为真 2、第二类错误取伪错误 当原假设H0不真时接受原假设,取伪概率为,2023/
20、10/4,52,四、总体均值、比例的假设检验 1.总体方差已知时对正态总体均值的检验 Z检验法(1)双侧检验:H0:uu0;H1:uu0,则临界值为Za/2和Za/2,当|Z|Za/2时拒绝原假设,否则接受原假设;(2)左侧检验:H0:uu0(或H0:uu0);H1:uu0,则临界值为 Za,当ZZa时拒绝原假设,否则接受原假设;,2023/10/4,53,【例】某品牌精炼油标明每桶净重量不低于 3 公斤。现随机抽验了 36 桶油,计算其平均净重为2.92公斤,并且已知总体标准差为0.18公斤。试在0.05的显著性水平下检验每桶油净重不低于 3 公斤的说法是否成立。,第一步:确定假设H0:3;
21、H1:3 第二步:确定检验统计量第三步:求临界值第四步:比较统计量与临界值大小由于ZZ 接受H0即每桶油净重低于 3 公斤。,2023/10/4,54,2.总体方差未知时对正态总体均值的检验 t检验法(1)双侧检验:当|t|ta/2时拒绝H0,否则接受H0(2)左侧检验:当 t ta时拒绝H0,否则接受H0【例4.7】1998年全国人均年消费支出为1590元,同期在新疆一个25户家庭组成的样本表明,其年人均消费支出为1450元,样本标准差为220元。试以0.1的显著性水平判断,新疆的人均年消费支出是否明显地低于全国平均水平?,2023/10/4,55,解:设 H0:1590 H1:1590 由
22、=0.1 有:-t(25-1)=-1.3178 由于 t 值小于-t,落在拒绝域中,故拒绝原假设,接受备择假设。,2023/10/4,56,3.总体比例的假设检验 大样本下近似采用Z检验法提出假设:H0:Pp0;H1:P p0确定检验统计量:确定临界值Za/2(Za)比较临界值与检验统计量的大小,作出判断例(P119例6-4),2023/10/4,57,关键点:原假设与备择假设的选择定义:原假设通常是研究者想收集证据予以反对的假设备择假设是是研究者想收集证据予以支持的假设原则:1、两者相互对立,是完备事件组2、一般先确定备择假设,然后再确定原假设3、在假设检验中“=”总是放在原假设上。4、两者
23、有一定的主观色彩,取决于研究目的。5、假设检验目的主要是收集证据来拒绝原假设。不拒绝原假设,不意味着接受原假设。,2023/10/4,58,五、假设检验中的其它问题,1.区间估计与假设检验的关系(1)两者的区别区间估计是根据样本资料估计总体参数的真值,而假设检验是根据样本资料来检验对总体参数的先验假设是否成立区间估计通常求得的是以样本估计值为中心的双侧置信区间,而假设检验不仅有双侧检验也常常有单侧检验,2023/10/4,59,区间估计立足于大概率,以较大的概率(1a)去估计总体参数的置信区间,而假设检验立足于小概率,通常给定很小的显著性水平a去检验对总体参数的先验性假设是否成立(2)相同点都
24、是根据样本信息对总体参数进行推断都是以抽样分布理论为依据,建立在概率基础上推断推断的结果都有一定的可信程度或者风险,2023/10/4,60,【例4.8】高尔夫球生产企业规定,合格球的射程为280 码。某日随机抽取36 个球组成一个样本,测得其平均射程为 278.5码,标准差为12码。试在显著性水平为0.05条件下,检验该批球的射程是否不为280码。,不能拒绝原假设,即不能否定0=280 码。,280码处于置信区间之中,不能拒绝原假设。,2023/10/4,61,本章作业教材P242练习6;7;8;10;11,2023/10/4,62,本章练习一、填空1.抽样推断最基本的组织形式是,在这种形式
25、下,若成数及其允许误差不超过50,概率为95.45,则必要抽样数目为。2.抽样估计的方法有两种,即 和。3.抽样估计的目的在于由 指标来估计总体指标。,2023/10/4,63,二、选择1.用简单随机抽样(重复抽样)方法抽取样本单位,如果要使用抽样平均误差降低50,则样本容量需扩大到原来的().倍.倍.倍.倍2.某机械厂生产的铸件合格率为90,则其标准差为().0.9.0.81.0.09.0.303.在抽样推断中,样本的容量()越小越好 越大越好 取决于统一的抽样比例 取决于对抽样推断可靠性的要求,2023/10/4,64,4.造成抽样误差的因素,主要有()全及总体本身的标志变异程度大小 抽样的调查目的和要求 样本单位数目的多少 登记性差错的多少5.在抽样推断中样本单位数的多少取决于().总体标准差的大小.允许误差的大小.抽样估计的把握程度 总体参数的大小,2023/10/4,65,6.连续生产的电子管厂,产品质量检验是这样安排的,在一天中,每隔一小时抽取分钟的产品进行检验,这是().简单随机抽样.类型抽样.等距抽样.整群抽样7.事先将总体各单位按某一标志排列,然后依排列顺序和按相同的间隔来抽*选调查单位的抽样称为().简单随机抽样.类型抽样.等距抽样.整群抽样,
链接地址:https://www.31ppt.com/p-6193920.html