第7章统计学参数估计ppt课件.ppt
第7章 参数估计,统计方法,描述统计,推断统计,假设检验,7.1 参数估计,1. 用样本统计量去估计总体参数。2. 估计量用来估计总体参数的统计量 估计值一个具体样本计算出的统计量的数值,参数估计的方法,点估计,区间估计,二战中的点估计 德军有多少辆坦克?,二战期间,盟军非常想知道德军总共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号则是样本。,假设我们是盟军手下负责解决这个问题的统计人员。制造出来的坦克总数肯定大于等于记录的最大编号。为了找到它比最大编号大多少,我们先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本均值乘以2就是总数的一个估计;当然要特别假设缴获的坦克代表了所有坦克的一个随机样本。,N的另一个点估计公式是: N=m(1+1/k)-1,其中m是缴获到的最大的坦克编号,k是被俘虏坦克个数。假如你俘虏了10 辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)50-1=54。此处我们认为坦克的实际数略大于最大编号。 从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!,点估计,含义:从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。1. 点估计的可靠性用标准误差来衡量。2. 一个具体的点估计值无法给出估计的可靠性度量,区间估计,含义:在点估计的基础上,给出总体参数估计取值的一个区间范围。,区间估计的图示,1. 置信区间 由样本统计量对总体参数进行估计时的估计区间。,在某种程度上确信置信区间中包含总体参数的真值,2. 置信水平(置信度、置信系数) 包含总体参数真值的置信区间占所有置信区间的比例。常用1-表示置信水平。,a. 总体参数的真值是未知的、固定的,构造出的置信区间可能包含真值,也可能不包含真值; b. 设置信水平为95%,则说明有95%的置信区间包含总体真值,有5%的置信区间不包含总体真值。,练习题,1. 一个95%的置信区间是指( ) A 总体参数有95%的概率落在这一区间内 B 总体参数有5%的概率落在这一区间内 C 在用同样方法构造的总体参数的多个区间 中,有95%的区间包含该总体参数 D 在用同样方法构造的总体参数的多个区间 中,有95%的区间不包含该总体参数,2. 根据一个具体的样本求出的总体均值的95%的置信区间( ) A 以95%的概率包含总体均值 B 有5%的可能性包含总体均值 C 一定包含总体均值 D 要么包含总体均值,要么不包含总体均值,常用置信水平的临界值(Z/2值),评价估计量的标准,1. 无偏性2. 有效性 对同一总体参数的两个无偏估计量,标准差越小的估计量估计效果越好,称估计量越有效。3. 一致性 随着样本量的增大,点估计量的值越来越接近被估总体的参数。,E(),=,7.2 一个总体参数的区间估计,7.2.1 总体均值的区间估计,总体均值的置信区间=样本均值边际误差总体是否为正态分布总体方差是否已知样本是大样本还是小样本,1.正态总体,方差已知或非正态总体、大样本2.分布未知,方差未知,大样本3.正态总体,方差未知,小样本,1.正态总体,方差已知或非正态总体、大样本 样本均值 XN(,2/n),总体均值在1-的置信水平下的置信区间为,【例】某厂成批生产某种金属棒,其长度服从 正态分布,标准差为0.06厘米,对一个由25 根棒组成的随机样本进行了测量,平均长度为 7.48厘米,求这批金属棒平均长度的置信度 为95%的置信区间。,解:总体服从正态分布,方差已知,置信度为95% 则z0.025=1.96,,在置信度为95%水平下,金属棒的平均长度在7.4567.504厘米之间。,【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36分钟)。,解:虽然总体分布未知,但总体方差已知,样本量充分大, x26, =6,n=100, /2=1.96,在95的置信水平下估计大学生平均每天参加锻炼的时间在24.82427.176 分钟之间。,2. 方差未知,大样本(n30),总体均值在1-的置信水平下的置信区间为,【例】一家保险公司收集到由36位投保人组成的随机样本,他们的平均年龄为40岁,标准差为5岁,求这家保险公司的所有投保人的平均年龄在90%的置信水平下的置信区间。,解:总体的分布未知,总体方差也未知,但所抽 样本容量36为大样本,因此,求总体均值的 置信区间可用样本标准差代替总体标准差置信区间为:,则投保人平均年龄在90%的置信度下的置信区间为38.63岁-41.37岁。,3. 正态总体、方差未知、小样本 用样本方差s2代替总体方差2 样本均值经标准化处理后服从自由度为(n-1)的t分布,总体均值在1-的置信水平下的置信区间为,【例】某时装店的管理人员想估计其顾客的平均 年龄,随机抽取了16位顾客进行了调查,得到 样本均值为32岁,样本标准差为8岁,假定顾客 的年龄近似服从正态分布,求该店全部顾客平均 年龄在置信度为95%的置信区间。,解:因为总体近似服从正态分布,方差未知, 所抽样本为小样本,则总体均值的置信区间为,因此,有95%的把握估计全部顾客平均年龄在27.738至36.262之间。,不同情况下总体均值的区间估计,7.2.2 总体比例的区间估计,当样本为大样本时,样本比例p近似服从正态分布,,当总体比例已知时,总体比例在1-置信水平下的置信区间为:,实际情况中,值是未知的,要被估计的,所以需要用样本比例p来代替,则总体比例的置信区间为:,【例】某所大学想要了解应届毕业生在大四找到工作的学生中女生所占的比例,随机抽取了100名找到工作的应届毕业生,其中42人为女生。试以95%的置信水平估计该校找到工作的应届毕业生中女同学的比例的置信区间。,解:已知n=100,z/2 =1.96, p=42/100=0.42,因此,该校找到工作的应届毕业生中女同学的比例为0.323-0.517,【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。,我们可以95的概率保证该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%76.4%之间,总体方差的区间估计,1.估计一个总体的方差或标准差2.假设总体服从正态分布总体方差 2 的点估计量为s2,且,4. 总体方差在1- 置信水平下的置信区间为,总体方差的区间估计,总体方差的区间估计,【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间,解:已知n25,1-95% ,根据样本数据计算得 s2 =93.21 2置信度为95%的置信区间为,该企业生产的食品总体重量标准差的的置信区间为7.54g13.43g,一个总体参数的区间估计,7.3 样本量的确定,样本量、置信水平、置信区间三者的关系,估计总体均值时样本量的确定,边际误差,总体均值的置信区间为,样本量,圆整法则,样本量与置信水平、总体方差、边际误差的关系 样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本量越大; 样本量与总体方差成正比,在其他条件不变的情况下,总体的差异越大,所需的样本量越大; 样本量与边际误差的平方成反比,在其他条件不变的情况下,可以接受的边际误差的平方越大,所需的样本量越小;,【例】某超市想要估计每个顾客平均每次购物 花费的金额。根据过去的经验,标准差大约 为120元,现要以95%的置信水平去估计每 个顾客平均购物金额的置信区间,并要求边 际误差不超过20元,应抽取多少个顾客作 为样本?,解:已知=120(元),Z/2=1.96,E=20(元),应抽取的样本容量为,结论:应抽取139个顾客作为样本。,【例】一家广告公司想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?,解:已知2=1800000,=0.05, Z/2=1.96,E=500,应抽取的样本容量为,估计总体比例时样本量的确定,总体比例在1-置信水平下的置信区间为:,边际误差,样本量,【例】一家市场调研公司想估计某地区有某品牌彩色电视机的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本?,应抽取的样本容量为,