《抽样与抽样分布ppt课件.ppt》由会员分享,可在线阅读,更多相关《抽样与抽样分布ppt课件.ppt(104页珍藏版)》请在三一办公上搜索。
1、抽样与抽样分布,1 抽样基本知识2 抽样分布3 样本统计量的抽样分布 (一个总体参数推断时)4 样本统计量的抽样分布 (两个总体参数推断时),学习目标,了解概率抽样方法区分总体分布、样本分布、抽样分布理解抽样分布与总体分布的关系掌握单总体参数推断时样本统计量的分布,抽样基本知识,总体与样本 抽样方法 抽样框抽样误差,总体和参数,总体(Population),是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用N表示。参数(parameter)。用来反映总体数量特征的指标称。研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定
2、的,但又是未知的,需要用样本资料去估计。,总体和参数(续),通常所要估计的总体指标有,样本和统计量,样本(Sample),它是从总体中抽取的部分总体单位的集合体 。样本容量。样本中所包含的个体的数量,一般用n表示。在实际工作中,人们通常把n30的样本称为大样本,而把n30的样本称为小样本。对于某一既定的总体,由于抽样的方式方法不同,样本容量也可大可小,因而,样本是不确定的、可变的。抽样的目的就是为要用样本的特征去估计总体特征,但样本只是总体的一部分,而且样本的抽取又具有随机性,因此,样本的内部构成与总体的内部构成总是具有一定的差异,样本不能完全代表总体,抽样估计总是存在一定的代表性误差。,样本
3、和统计量(续),统计量(statistic)。在抽样估计中,用来反映样本总体数量特征的指标称为样本指标,也称为样本统计量或估计量,是根据样本资料计算的、用以估计或推断相应总体指标的综合指标。常见的样本统计量有: 样本统计量不含未知参数,它是随样本不同而不同的随机变量。,抽样方法,概率抽样(probability sampling),概率抽样也叫随机抽样,是指按随机原则抽取样本。随机原则,就是排除主观意识的干扰,使总体每一个单位都有一定的概率被抽选为样本单位,每个单位能否入选是随机的。 特点能有效地避免主观选样带来的倾向性误差(系统偏差),使样本资料能够用于估计和推断总体的数量特征,而且这种估计
4、和推断得以建立在概率论和数理统计的科学理论之上可以计算和控制抽样误差,说明估计的可靠程度。作用:在不可能或不必要进行全面调查时,利用概率抽样来推断总体;利用概率抽样修正或补充全面调查的不足。,概率抽样 (probability sampling) (续),统计上所指的抽样一般都是指概率抽样概率抽样最基本的组织形式有:简单随机抽样、分层抽样、等距抽样和整群抽样。,简单随机抽样(simple random sampling),从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,
5、可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率,简单随机样本(simple random sample),由简单随机抽样形成的样本从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中 参数估计和假设检验所依据的主要是简单随机样本,简单随机抽样(用Excel对分类数据随机抽样),【例】某班级共有30名学生,他们的名单如右表。用Excel抽出一个由5个学生构成的随机样本,简单随机抽样(用Excel对分类数据随机抽样),第1步:将30个学生的名单
6、录入到Excel工作表中的一列第2步:给每个学生一个数字代码,分别为1,2,30,并按顺序排列,将代码录入到Excel工作表中的一列,与学生名单相对应第3步:选择【工具】下拉菜单,并选择【数据分析】选项, 然后在【数据分析】选项中选择【抽样】第4步:在【抽样】对话框中的【输入区域】中输入学生代码区域,在【抽样方法】中单击【随机】 。在【样本数】中输入需要抽样的学生个数。在【输出区域】中选择抽样结果放置的区域。【确定】后即得到要抽取的样本, 用Excel对分类数据抽样,简单随机抽样(用Excel对数值型数据随机抽样),第1步:将原始数据录入到Excel工作表中的一列第2步:选择【工具】下拉菜单,
7、并选择【数据分析 】选项 , 然后在【数据分析】选项中选择【抽样】第3步:在【抽样】对话框中的【输入区域】中输入原始数据 区域,在【抽样方法】中单击【随机】。在【样本数】中输入需要抽样的数据个数。在【输出区域】中选择抽样结果放置的区域。【确定】后即得到要抽取的样本数据, 用Excel对数值型数据抽样,分层抽样(stratified sampling),又称类型抽样或分类抽样。先对总体各单位按主要标志加以分组(层),然后再从各组(层)中按随机原则独立抽选一定单位构成样本。分层抽样通过分类(组),把总体中标志值比较接近的单位归为一组,减少各组内的差异程度,这样再从各组抽取样本单位就更具有代表性,因
8、而抽样误差也就相对缩小。特别是在标志值相差悬殊时,由于划分了类型,一方面缩小了组内方差,另一方面也保证各组都能抽取一定的样本单位,所以,分层抽样较之纯随机抽样可以提高样本的代表性,能获得更为满意的效果,分层抽样(stratified sampling)续,优点:除了可以对总体进行估计外,还可以对各层的子总体进行估计可以按自然区域或行政区域进行分层,使抽样的组织和实施都比较方便分层抽样的样本分布在各个层内,从而使样本在总体中的分布比较均匀如果分层抽样做得好,便可以提高估计的精度,系统抽样(systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地
9、抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:简便易行。可提高估计的精度缺点:对估计量方差的估计比较困难,等距抽样(续),间隔相等,样本数n,整群抽样(cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差,多阶段抽样(multi-stage sampling),先抽取群,但并不是调查群内的所有单位,而是再进行一步抽
10、样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法,概率抽样(小结),非概率抽样,也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。重点调查、典型调查、配额抽样(是按照一定标准或一定条件分配样本单位数量,然后由调查者在规定的数额内主观地抽取样本)、方便抽样(指调查者按其方便任意选取样本。如
11、商场柜台售货员拿着厂家的调查表对顾客的调查)等就属于非随机抽样。优点:及时了解总体大致情况,总结经验教训,在进行大规模抽样调查之前的试点。缺点:非随机抽样容易产生倾向性误差,并且误差不能计算和控制 ,也就无法说明调查结果的可靠程度。,概率抽样与非概率抽样,重复抽样与非重复抽样,重复抽样,又称回置抽样,是指从总体的N个单位中,每次抽取一个单位后,再将其放回总体中参加下一次抽选,连续抽n次,即得到一个样本。特点:样本是由n次相互独立的连续试验构成的,每次试验是在完全相同的条件下进行,每个单位中选的机会在各次都完全相等。“重抽”(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用M表示)为:N
12、n个。,重复抽样与非重复抽样,不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。特点:样本由n次连续抽取的结果构成,实际上等于一次同时从总体中抽取n个样本单位。 n次抽取结果不是独立的 可能的样本数目(考虑顺序): N(N-1)(N-2)(N-n+1)个。,重复抽样与非重复抽样,设有4名学生的月消费支出分别为:240,280,360,400元。我们分别用A、B、C、D替代。若从中抽取两个单位构成样本,则全部可能的样本数目为:重复:42=16个。它们是 AA AB AC AD; BA BB BC BD CA CB CC CD; DA DB DC
13、DD不重复:43=12。它们是 AB AC AD; BA BC BD CA CB CD; DA DB DC,抽样框,调查目的确定之后,抽样总体(目标总体)也就随之确定。 但实际进行抽样的总体范围与目标总体有时是不一致的。所以,有了目标总体,还必须明确实际进行抽样的总体范围和抽样单位,这就需要编制一个抽样框。抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响到抽样调查的随机性和调查效果。,抽样框,名单抽样框。列出全部总体单位的名录一览表。区域抽样框。按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。时间表抽样框。将总体全部单位按时间顺序排列,把总体
14、的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。理想的抽样框:不重复、不遗漏。,抽样误差,统计调查误差,是指调查所得结果与总体真实数值之间的差异。 登记性误差。是任何一种统计调查都可能产生。 代表性误差系统性误差:是由于非随机因素引起的 样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差;随机误差:又称偶然性误差,是指遵循随机原则抽样,但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误差。这就是抽样估计中所谓的抽样误差 。,三个误差概念,实际抽样误差 某一具体样本的样本估计值与总体参数真实值之间的离差。总体参数未知,每次抽样
15、的实际抽样误差是无法计算的。样本是随机抽取,样本估计量是随样本不同而不同的随机变量,随机抽样误差也是随机变量,但样本估计量的所有可能取值总有一定的分布规律,抽样误差也就有一定的规律可循。抽样误差可以计算和控制,并不是指某次具体抽样的实际误差,而是从所有可能样本来考察的抽样平均误差和抽样极限误差。,三个误差概念,抽样平均误差(抽样标准误)是反映抽样误差一般水平的指标(因为抽样误差是一个随机变量,它的数值随着可能抽取的样本不同而或大或小,为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平)。通常用样本估计量的标准差来反映所有可能样本估计值与其中心值的平均离散程度。可以证明,对于既定的总体和
16、样本容量,样本估计量是以相应总体参数为分布中心的。统计上把样本估计量的标准差定义为抽样平均误差,三个误差概念,抽样平均误差(抽样标准误)抽样平均误差可衡量样本对总体的代表性大小。抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大。,三个误差概念,实际中,抽样平均误差不可能按定义式来计算,只能根据概率论和数理统计的有关理论来推导其计算公式。在总体方差已知,总体单位总数为N,样本容量为n,简单随机抽样条件下,抽样平均误的计算公式为:,三个误差概念,抽样极限误差一定概率下抽样误差的可能范围,也称为允许误差。用表示,由定
17、义知其表达式:在一定概率下, 上式表示,在一定概率下可认为样本估计量与相应的总体参数的误差的绝对值不超过 。用 、分别表示平均数和比例(成数)的抽样极限误差,则在一定概率下有:,三个误差概念,抽样极限误差估计均值的置信区间:估计成数(比例)的置信区间:,三个误差概念,抽样极限误差是抽样误差的可能范围,而不是完全肯定的范围。所以,这一可能范围的大小是与其估计的可靠程度的大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用1-表示。显然在其他条件不变的情况下,抽样极限误差越大,相应的置信度也就越大。与抽样极限误差相关的两个概念是: 抽样误差率
18、和抽样估计精度。抽样误差率=(抽样极限误差/估计量)100%抽样估计精度=100%-抽样误差率,三个误差概念,估计精度与估计的可靠程度是矛盾的。也就是说,如果精度很高,则会由于估计区间太窄而使错误估计的可能性大增,从而大大降低估计的可靠程度,使估计结果没有多大的作用;如果置信度很高,则意味着允许误差范围较大,而使估计精度太低 ,这时尽管估计的可靠程度接近或等于100%,但抽样估计本身也会失去意义。实际中,只能依据具体情况,先满足一方面,然后确定另一方面 。抽样极限误差与抽样平均误差的关系?,三种不同性质的分布,1 总体分布2 样本分布3 抽样分布,总体中各元素的观察值所形成的分布 分布通常是未
19、知的可以假定它服从某种分布,总体分布(population distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution),样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值及出现的概率分布 样本统计量(样本均值, 样本比例,样本方差等)是随机变量,它有若干可能取值,每个可能取值都有一定的可能性(即概率),从而形成它的概率分布,即统计上所谓的抽样分布。样本统计量是由n个随机变量构成的函数,故抽样分布属于随机变量函数的分布。结果来自容量相同的所有可能样
20、本,抽样分布 (sampling distribution),抽样分布 (sampling distribution),抽样分布反映了样本指标的分布特征,是抽样推断的重要依据。根据样本分布的规律,可揭示样本指标与总体指标之间的关系,估计抽样误差,并说明抽样推断的可靠程度。寻求抽样分布的方法:精确分布,小样本方法渐进分布,大样本方法,抽样分布的形成过程 (sampling distribution),抽样分布(例证),四名学生的月消费支出(240,280,360,400 元)。现按重复取样的方法,随机抽取两位构成一个样本,则全部可能的样本及其各样本的均值如下表所示:,抽样分布(例证),样本统计量
21、的抽样分布 (一个总体参数推断时),样本均值的抽样分布样本比例的抽样分布 样本方差的抽样分布,样本均值的抽样分布,在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,样本均值的抽样分布,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布 (例题分析), 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布 (例题分析),
22、计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 2.5 2 =1.25,总体分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),中心极限定理(central limit theorem),中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,中心极限定理 (central limit theorem),x 的分布趋于正态分布
23、的过程,正态总体方差未知,小样本,设总体XN(,),(x1,x2,xn)是其简单随机样本,则统计量,抽样分布与总体分布的关系,总体分布,正态分布,未知,大样本,小样本,样本均值正态分布,样本均值正态分布,样本均值t分布,方差已知,方差未知,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布(数学期望与方差),样本均值的抽样分布(数学期望与方差),比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n,统计量的标准误 (standard error),样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差标准误衡量的是统
24、计量的离散程度,它测度了用样本统计量估计总体参数的精确程度以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为,估计的标准误 (standard error of estimation),当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为,样本比例的抽样分布,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品) 与全部产品总数之比总体比例可表示为样本比例可表示为,比例(proportion),在重复
25、选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例P的理论基础,样本比例的抽样分布,样本比例的抽样分布,当从总体中抽取一个样本容量为n的样本时,样本中具有某种特征的单位数X服从二项分布,即有XB(n,)E(X)=nVar(X)=n(1-),样本比例p=x/n也服从二项分布样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布(数学期望与方差),样本比例的抽样分布,根据中心极限定理,当n时,二项分布趋近于正态分布。所以,在大样本下,若nP和n(1-P)皆大于5,样本比例近似服从正态分布
26、,样本方差的抽样分布,样本方差的分布,在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为 (n -1) 的2分布,即,由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来设 ,则令 ,则 Y 服从自由度为1的2分布,即 当总体 ,从中抽取容量为n的样本,则,2分布(2 distribution),分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为E(2)=n
27、,方差为D(2)=2n(n为自由度) 可加性:若U和V为两个独立的服从2分布的随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),c2分布(图示),c2分布(例题的图示),c2分布(用Excel计算c2分布的概率),利用Excel提供的CHIDIST统计函数,计算c2分布右单尾的概率值语法为CHIDIST(x,df),其中df为自由度,x是随机变量的取值给定自由度和统计量取值的右尾概率,也可以利用“插入函数”命令来实现计算自由度为8,统计量的取值大于10的概率, 用Excel计算c2 分布的概率,c2分布(用Excel计算c2分布的临
28、界值),利用Excel提供的CHIINV统计函数,计算分布右单尾的概率值为的临界值语法为CHIINV(,df),其中df为自由度给定自由度和分布右尾概率为的临界值也可以利用“插入函数”命令来实现计算自由度为10,右尾概率为0.1的临界值, 用Excel计算c2 分布的临界值,c2分布(用Excel生成c2分布的临界值表),第一步:将c2分布自由度df的值输入到工作表的 A列,将右尾概率的取值输入到第1行第二步:在B2单元格输入公式 “=CHIINV(B$1,$A2)” 然后将其向下、向右复制即可得到分布 的临界值表, 用Excel生成c2 分布的临界值表,c2分布 (用Excel绘制c2分布图
29、),第1步:在工作表的第1列A2:A62输入应一个等差数列,初始 值为“0”,步长为“1”,终值为“60”第2步:在单元格B1输入c2分布自由度(如“15”) 第3步:在单元格B2输入公式“=CHIDIST(A2,$B$1)”,并将其 复制到B3:B62区域第4步:在单元格C2输入公“=B2-B3”,并将其复制到C3:C62 区域第5步:将A2:A62作为横坐标、C2:C62作为纵坐标,根据“ 图表向导”绘制折线图, 用Excel绘制c2分布图,c2分布 (用Excel绘制c2分布图),样本均值,样本比例,样本方差,分布未知大样本,正态总体方差已知,正态总体方差未知小样本,大样本,正态分布,t
30、分布,2分布,样本统计量,样本统计量的抽样分布 (两个总体参数推断时),两个样本均值之差的抽样分布 两个样本比例之差的抽样分布 两个样本方差比的抽样分布,两个样本均值之差的抽样分布,两个总体都为正态分布,即 , 两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差 方差为各自的方差之和,两个样本均值之差的抽样分布,两个样本均值之差的抽样分布,两个样本比例之差的抽样分布,两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为 方差为各自的方差之和,两个样本比例之差的抽样分布
31、,两个样本方差比的抽样分布,两个样本方差比的抽样分布,两个总体都为正态分布,即X1N(1 ,12),X2N(2 ,22 )从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1) 的F分布,即,由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为,F分布(F distribution),F分布(图示), 不同自由度的F分布,F 分布(用Excel
32、计算F分布的概率),利用Excel提供的FDIST统计函数,计算分布右单尾的概率值其语法为FDIST(x,df1,df2),其中x是随机变量的取值,df1为分子自由度,df2为分母自由度给定分子自由度df1、分母自由度df2和统计量取值的右尾概率,也可以利用“粘贴函数”命令来实现计算分子自由度为4,分母自由度为6,统计量的取值大于2.5的概率, 用Excel计算F分布的概率,F 分布(用Excel计算F分布的临界值),利用Excel提供的FINV统计函数,计算分布右单尾的概率值为的临界值其语法为FINV(,df1,df2),其中df1为分子自由度,df2为分母自由度给定分子自由度、分母自由度d
33、f2和分布右尾概率为的临界值也可以利用“粘贴函数”命令来实现计算分子自由度为4,分母自由度为6,F分布右尾概率为0.05的临界值, 用Excel计算F分布的临界值,F 分布(用Excel生成F分布的临界值表),第一步:在B1单元格输入分布右尾概率的取值(如 =0.05),在第2行输入分子自由度df1的 值,在第1列输入分母自由度df2的值第二步:在B2单元格输入公式 “=CHIINV(B$1,$A2)” 然后将其向下、向右复制即可, 用Excel生成F分布的临界值表,F 分布 (用Excel绘制F分布图),第1步:在工作表的第1列A2:A62输入一个等差数列,初始 值为“0”,步长为“0.1”,终值为“6”第2步:在单元格B1输入分子自由度(如“10”) ,在单元格D1输 入分母自由度(如“15”) 第3步:在单元格B2输入公式“=FDIST(A2,$B$1,$D$1)”,并 将其复制到B3:B62区域第4步:在单元格C2输入公式“=(B2-B3)*10”,并将其复制到 C3:C62区域第5步:将A2:A62作为横坐标、C2:C62作为纵坐标,根据 “图表向导”绘制折线图, 用Excel绘制F分布图,F 分布 (用Excel绘制F分布图),小结,概率抽样方法总体分布、样本分布、抽样分布单总体参数推断时样本统计量的分布双总体参数推断时样本统计量的分布,结 束,THANKS,
链接地址:https://www.31ppt.com/p-1333766.html