教育统计学ppt课件 7 抽样理论与参数估计.ppt
心理与教育统计学,第六章抽样理论与参数估计,本章要点:1. 抽样方法;2. 抽样分布;3. 参数估计;,概率与概率分布,1. 抽样的基本概念与方法,Population Population is a complete set of individuals, objects, or measurements having some common observable characteristic.,总体(Population)是具有某些共同的可被观察的特征的人和物的总集合。或者,根据研究目的确定的同质研究对象的全体(集合),分有限总体与无限总体。总体中接受统计观测的每一个对象叫做个体(case),个体是统计的基本单位。,Definition of terms,Population Sample is a subset of a population that shares the same characteristics as the population.,样本(Sample)总体的一个子集,拥有与总体同样的特征。也就是说,按统计的原则和方法从总体中随机抽取一部分个体。样本所含的个体数叫做样本含量(sample size) 。,Definition of terms,参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为、。固定的常数。,推断inference,统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量 。,简单随机抽样,概念:从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中。 抽取元素的具体方法:a、抽签法;b、随机数字,等距抽样,将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。方法:将总体元素连续编号确定样本间的间距(N/n=K)随机确定一个起点A(1AK)后,每隔K个单位抽取一个。,分层抽样,将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本原则:层间差异大于层内差异(层内样本差异要小;层与曾间的差异尽可能大)方法:按各层比例分配样本元素个数。各个层次按简单随机抽样的方法抽样,产生自己的样本,最后合成整个整体。,概率与概率分布,2. 抽样分布,总体中各元素的观察值所形成的分布 分布通常是未知的可以假定它服从某种分布,总体分布(population distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution),从总体X中,随机抽取n个样本元素:“x1 、x2 xn ”, 则f(x1 、x2 xn ) 即统计量的概率分布即抽样分布。例: 是样本“x1 、x2 xn ”的函数;当“x1 、x2 xn ”是随机变量时, 也是随机变量;当“x1 、x2 xn ”有确定的值时, 就是个统计量;样本均值, 样本比例,样本方差等均可以形成抽样分布。其结果来自容量相同的所有可能样本,抽样分布(sampling distribution),抽样分布的形成过程(sampling distribution),在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,样本均值的抽样分布,例:设一个总体,含有4个个体 ,即总体单位数N=4。4 个个体的取值分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布,现从总体中抽取n2的简单随机样本;采用重复抽样条件(C41 * C41 )所有样本的结果为:,样本均值的抽样分布, 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的抽样分布,样本均值的分布与总体分布的比较, = 2.5 2 =1.25,总体分布,样本均值的数学期望样本均值的方差,样本均值的抽样分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),中心极限定理,中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。,x 的分布趋于正态分布的过程,中心极限定理,平均数的抽样分布与总体分布的关系,卡方分布,卡方分布,卡方分布,卡方分布,卡方分布,卡方分布,+,+,+,+,+,+,+,+,+,+,卡方分布,卡方分布,卡方分布,卡方分布,卡方分布,t分布,标准正态分布不管n的大小,曲线只有一条,而t分布是一蔟曲线。随着n增大,t分布就越来越接近标准正态分布曲线,而当n接近无穷时,t分布就与标准化整态分布完全重合。,t分布,双侧临界值表,单侧临界值表,t分布,t分布,t分布,t分布,t分布,t分布,t分布,t分布,F分布,F分布,F分布,F分布,F分布,F分布,概率与概率分布,3. 参数估计,参数估计在统计方法中的地位,统计推断的过程,估计量:用于估计总体参数的随机变量,如样本均值,样本比例、样本方差等;参数用 表示,估计量用 表示例如: 样本均值就是总体均值的一个估计量估计值:估计参数时计算出来的统计量的具体值。如果样本均值x =80,则80就是总体平均数的估计值。,估计量与估计值 (estimator & estimated value),良好估计量的标准,无偏性:估计量抽样分布的数学期望等于被 估计的总体参数,P( ),B,A,无偏,有偏,有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数,参数估计的方法,计算出样本的一个统计量,以这个统计量作为参数的估计值。,计算出样本的两个统计量,以两个统计量之间的区间作为参数的取值范围。,点估计(point estimate),用样本的估计量直接作为总体参数的估计值不足:没有给出估计值接近总体参数程度的信息.,区间估计(interval estimate),在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在7585之间,置信水平是95%,置信区间与置信水平(置信度),统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。,课堂测验,1. 对10名体院学生进行智力测验,结果得出以下分数:112,127,118,109,113,121,104,105,117,119,试着求出该测验分数总体均值和方差的点估计量。,2. 评判估计值好坏的标准有:_、_、_。无偏性、有效性和一致性。,3. 何谓无偏性?估计量抽样分布的平均数等于被估计的总体参数 。,课堂测验,4. 何谓有效性?对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效。,5. 何谓一致性?随着样本容量的增大,估计量的值越来越接近被估计的总体参数。,总体均值的区间估计,估计总体平均数的步骤:1. 根据实得样本的数据,计算样本的平均数与标准差;2. 计算标准误;3. 确定置信水平或显著性水平;4. 根据样本平均数的抽样分布,确定查何种统计表;5. 计算置信区间;6. 解释总体平均数的置信区间;,如果:1. 总体服从正态分布,且方差() 已知2. 如果非正态分布, 未知的大样本(n 30)使用正态分布统计量 z,总体均值 在1- 置信水平下的置信区间为,总体均值的区间估计,例. 一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95% 。,解:已知N(,102),n=25, 1- = 95%,z/2=1.96。根据样本数据计算得: 总体均值在1-置信水平下的置信区间为,该食品平均重量的置信区间为101.44,109.28,未知的大样本(n 30),例:从某年高考随机抽102份作文试卷,算得平均分为26,标准差为1.5,试估计总体平均数95%的置信区间。,总体均值的区间估计,解:已知 n=102, 1- = 95%,z/2=1.96。根据样本数据计算:,总体均值在0.95置信水平下的置信区间为: 25.707,26.293,假定条件总体服从正态分布,且方差() 未知小样本 (n 30)使用 t 分布统计量,总体均值 在1-置信水平下的置信区间为,总体均值的区间估计,例. 已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间,总体均值的区间估计,解:已知N(,2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得: , 总体均值在1-置信水平下的置信区间为,该种灯泡平均使用寿命的置信区间为1476.8小时1503.2小时,目的:估计一个总体的方差或标准差假设条件:假设总体服从正态分布总体方差 2 的点估计量为S2,且,4. 总体方差在1- 置信水平下的置信区间为,总体方差的区间估计,总体方差的区间估计,估计总体均值时样本容量n为样本容量n与总体方差 2、最大允许误差d、可靠性系数Z或t之间关系为:与总体方差成正比与最大允许误差成反比与可靠性系数成正比,其中:,估计总体均值时样本容量的确定,例. 拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望最大允许误差为400元,应抽取多大的样本容量?,估计总体均值时样本容量的确定,解: 已知 =2000,d=400, 1-=95%, z/2=1.96置信度为95%的置信区间所需要的样本数为,即应抽取97人作为样本,估计总体均值时样本容量的确定,1. 某地区语文统考,成绩服从正态分布,从这批考生中随机抽取25人,测得结果的平均分为78.71,标准差为13.72。试估计总体平均数在置信水平0.95的置信区间。2. 一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间 。,