欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    抽样误差均数估计于.ppt

    • 资源ID:6164182       资源大小:2.46MB        全文页数:90页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    抽样误差均数估计于.ppt

    第四章 统计推断基础抽样误差、参数估计Sampling error and Parameter estimation,主要内容,抽样误差中心极限定理标准误抽样分布(分布2 分布F分布)参数估计,1.抽样误差 Sampling error,抽样误差中心极限定理标准误抽样分布参数估计,了解抽样误差的重要性,总体同质、个体变异,总体参数未知,样本代表性、抽样误差,随机抽样,样本统计量已知,统计推断,风 险,抽样误差,sampling error,sampling variability 由抽样引起的样本统计量与总体参数间的差别。原因:个体变异抽样 表现:样本统计量与总体参数间的差别不同样本统计量间的差别 抽样误差是不可避免的!抽样误差是有规律的!,假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数、方差等),观察样本统计量的分布规律抽样分布规律。正态分布总体偏三角分布总体均匀分布总体指数分布总体双峰分布总体,均数的模拟试验,均数的模拟试验,考察:样本均数的均数与总体均数有何关系?样本均数的标准差与总体标准差有何关系?样本均数的分布形状如何?不同的样本含量对上述性质的影响如何?,抽样分布规律,样本含量n=10抽样次数m=100,红细胞计数,图 正态分布N(5.00,0.502)总体分布,表4、1 N(5.00,0.502)总体中11个随机样本的数据(n=10),结论 1,各样本均数未必等于总体均数;样本均数间存在差异;,由抽样实验所得的100个样本作出其均数 分布直方图如图4.1。曲线是对抽样得到的100个 数据拟合的分布曲线。,图 从正态分布N(5.00,0.502)总体中抽样样本均数的分布,图 从正态分布N(5.00,0.502)总体中抽样样本均数的分布,结论2,的分布很有规律,围绕着,中间多,两边少,左右基本对称;样本均数的变异范围较之原变量的变异范围大大缩小;,2.中心极限定理 central limit theorem,抽样误差中心极限定理标准误抽样分布参数估计,中心极限定理(central limit theorem)(一)从均数为、标准差为 的正态总体中,独立随机抽取例数为n的样本,样本均数 的分布服从正态分布;样本均数的均数为;样本均数的标准差为。,中心极限定理,(二)从非正态(nonnormal)分布总体(均数为,方差为)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n50),样本均数也近似服从正态分布。样本均数的均数为;样本均数的标准差为。,3.标准误 standard error,抽样误差中心极限定理标准误抽样分布参数估计,标准误(standard error),样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度。当总体标准差未知时,用样本标准差代替,前者称为理论标准误,后者称为样本标准误。,与样本含量的关系,n 越大,均数的均数就越接近总体均数;n 越大,变异越小,分布越窄;对称分布接近正态分布的速度,大于非对称分布。分布越偏,接近正态分布所需样本含量就越大。,与标准差的关系,1、意义上标准差描述个体值之间的变异,即观察值间的离散程度;而标准误是描述统计量的抽样误差,即样本统计量和总体参数的接近程度;2、用途上标准差常用于表现观察值的波动范围;标准误常表示抽样误差的大小,估计总体参数可信区间。3、与样本含量标准差是随着样本含量的增多,逐渐趋于稳定。标准误是随着样本含量的增多,逐渐减少。,区别,与标准差的关系,首先,标准差和标准误都是变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用标准误。其次,当样本含量不变时,标准差大,标准误亦越大,均数的标准误与标准差成正比。,联系,4.抽样分布(1)t-distribution,抽样误差中心极限定理标准误抽样分布参数估计,正态分布的标准化变化,若 X N(,),则。,因,则。,从正态分布总体中1000次抽样的 u 值的分布(n=4),Fraction,u,-4,-3,-2,-1,0,1,2,3,4,0,.05,.1,.15,.2,均数为 0.007559标准差为 1.006294,t 分布的概念,实际工作中,总体方差未知。所以,用样本方差代替总体方差,此时 的分布如何?,从正态分布总体中1000次抽样的 值的分布(n=4),Fraction,t,-8,-6,-4,-2,0,2,4,6,8,0,.05,.1,.15,.2,.25,.3,.35,均数为 0.05696标准差为 1.55827,t 分布的概念,用样本方差代替总体方差,此时不服从正态分布。,1908年,(1876-1937)以笔名Student发表了著名的t分布,证明了:设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设:,则t值服从自由度为n-1的t分布(t-distribution)。,t 分布的概念,记为:,图 自由度分别为1、5、时的t分布,t分布图形,t分布的特征,t分布是一簇曲线,当不同时,曲线形状不同;单峰分布,以0为中心,左右对称;当逼近时,t分布逼近u分布,故标准正态分布是t分布的特例;t分布曲线下面积是有规律的。,请看演示,t 分布,t界值表,表上阴影部分,表示t,以外的尾部面积占总面积百分数,即概率P。表中数据表示与确定时相应的t界值(critical value),常记为t,。,抽样,总体,样本,统计量,分布,t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近0的可能性较大,远离0的可能性较小。,例如,当=10,单尾概率=0.05时,查表得单尾t0.05,10=1.812,则:P(t-1.812)=0.05或P(t1.812)=0.05,表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于1.812的概率为0.05,或者小于等于-1.812的概率亦为0.05。,-1.812,0,0.05,0.05,1.812,例如,当=10,双尾概率=0.05时,查表得双尾t0.05,102.228,则:P(t-2.228)+P(t2.228)0.05或:P(-2.228t2.228)=1-0.05=0.95。,表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。,-2.228,0,0.025,0.025,2.228,单尾:P(t-t,)=,或P(tt,)=双尾:P(t-t/2,)+P(tt/2,)=,即P(-t/2,t t/2,)=1-,-t,0,t,t分布曲线下面积规律,4.抽样分布(2)chi-distribution,抽样误差中心极限定理标准误抽样分布参数估计,2 分布,设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设:2值服从自由度为n-1的2分布(2-distribution),2 分布,请看演示,c2 分布,2分布的特征,(1)2分布为一簇单峰正偏态分布曲线;随的逐渐加大,分布趋于对称。(2)自由度为的2分布,其均数为,方差为2。(3)自由度为的2分布实际上是个标准正态分布变量之平方和。2=u12+u22+uv2,0.05,0.025,0.025,1.96,-1.96,2分布与正态分布的关系,(4)每一自由度下的2分布曲线都有其自身分布规律。,自由度为1的2分布界值,0.0,0.1,0.2,0.3,0.4,0.5,2分布是方差的抽样分布。2分布说明,从正态分布的总体中随机抽样,所得样本的方差s2接近于总体方差2的可能性大,远离总体方差的可能性小。即2值接近其均数n-1的可能性大,远离n-1的可能性小。,2分布的特征,自由度10时,20.025,1020.48,20.975,103.25。从正态分布的总体中随机抽样,得到的样本其2值大于等于20.48的概率为0.025,小于等于3.25的概率亦为0.025。P(23.25)+P(220.48)0.05,2分布的特征,2分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差,4.抽样分布(3)F-distribution,抽样误差中心极限定理标准误抽样分布参数估计,F分布,设从两个方差相等的正态分布N(1,2)和N(2,2)总体中随机抽取含量分别为n1和n2的样本,样本均数和标准差分别为、s1和 和s2。设:则F值服从自由度为(n1-1,n2-1)的F分布(F-distribution)。,F分布的特征,(1)F分布为一簇单峰正偏态分布曲线,与两个自由度有关。(2)若F服从自由度为(1,2)的F分布,则其倒数1/F服从自由度为(2,1)的F分布。(3)自由度为(1,2)的F分布,其均数为2/(2-2),与第一自由度无关。(4)第一自由度11时,F分布实际上是t分布之平方;第二自由度2时,F分布实际上等于2分布。,请看演示,F分布,(5)每一对自由度下的F分布曲线下的面积分布规律。,F分布的特征,F分布表明,从两个方差相等的正态分布总体中随机抽取含量分别为n1和n2的样本,计算所得F值,应接近v2/(v2-2)。F(0.05;20,20)=2.12表示,从方差相等的正态分布总体中随机抽取n1=n2=21的样本,则由两样本计算的F值大于等于2.12的可能性为0.025,而小于1/2.12=0.4717的可能性亦为0.025。,F分布的特征,F分布的特征,样本统计量的抽样分布,任何一个样本统计量均有其分布规律。从正态分布总体中抽样:均数的抽样分布为正态分布;样本方差的分布服从2分布;样本方差之比服从F分布;t 值服从 t 分布;,5.参数估计 Parameter estimation,抽样误差中心极限定理标准误分布参数估计,1)统计推断的思路,2)统计推断(statistical inference),总体参数的估计(parameter estimation)假设检验(hypothesis test),3)参数的估计,点估计(point estimation)区间估计(interval estimation),按一定的概率或可信度(1-)用一个区间估计总体参数所在范围。这个范围称作可信度为1-的可信区间(confidence interval,CI),又称置信区间。,【例4.1】随机抽取12名口腔癌患者,检测其发锌含量,得=253.05g/g=27.18g/g 求发锌含量总体均数95的可信区间。,4)例题:发锌含量,t 值的分布,理论基础:t值的抽样分布,-2.201 0 2.201,v11,0.025,0.025,区间估计:,可信区间(confidence interval):,区间193.23321.87(g/g)包含了总体均数,其可信度(confidence level)为95%。结论:口腔癌患者发锌含量总体均数为193.23321.87(g/g)(可信度为95%)。或:口腔癌患者发锌含量总体均数的95可信区间为:193.23321.87(g/g)。,5)均数的(1-)100%可信区间构建方法,1-,5)均数的(1-)100%可信区间构建方法,5)均数的(1-)100%可信区间构建方法,均数的(1-)100%的可信区间:可信限(confidence limit):,样本含量较大时,u 值的分布:,样本含量较大时,均数(1-)100%的可信区间:,此时,均数的(1-)100%的可信区间:,6)均数之差的(1-)100%可信区间,例4.3 转铁蛋白含量正常人:n1=12,病人:n2=15,问题:两组平均相差多少?,问题:,正常组 病人组,1-2?,与均数之差有关的抽样分布,“均数之差”与“均数之差的标准误”之比,服从自由度=n1+n2-2的 t 分布。样本含量较大时,服从标准正态分布。,合并方差与均数之差的标准误,合并方差(方差的加权平均)均数之差的标准误,根据,可得1-2的可信区间:,计算:,则合并方差为:,自由度为=n1+n2-2=12+15-2=25、0.05的t界值为:t0.05,25=2.060,则两组均数之差的95可信区间为:(271.89235.21)2.060 4.95=26.48 46.88,结论:,病毒性肝炎患者的血清转铁蛋白含量较正常人平均低36.68(g/dl),其95可信区间为26.4846.88(g/dl)。,可信区间,均数率事件数方差,7)可信区间的两个要素,可信度(1-),可靠性一般取90%,95%。可人为控制。精确性是指区间的大小(或长短)兼顾可靠性、精确性,影响可信区间大小的因素,可信度可信度越大,区间越宽个体变异变异越大,区间越宽样本含量样本含量越大,区间越窄,8)正确理解可信区间:,可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间!在可信区间被估计之前,概率是存在的;在可信区间被估计之后,就没有概率了。,从N(0,1)中随机抽取100个n=10的样本所估计的100个95%可信区间,按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。,置信区间演示,为了对置信区间概念有更好的理解,并对样本容量、置信水平对置信区间的影响建立直观印象,请看演示:,下列说法正确吗?,算得某95%的可信区间,则:总体参数有95%的可能落在该区间。有95%的总体参数在该区间内。该区间包含95%的总体参数。该区间有95%的可能包含总体参数。该区间包含总体参数,可信度为95%。,例如,临床上观察120例使用某生物制剂的患者,其皮疹发生率2/120=1.67%,则该生物制剂的皮疹发生率的95可信上限为:,即该生物制剂的皮疹发生率最大为5.2%。,9)单侧可信区间,10)注意区别:,标准差标准误个体变异 抽样误差参考值范围 可信区间变量分布 抽样分布,11)可信区间与容许区间的区别,(1)可信区间 用于估计总体参数,总体参数只有一个;容许区间 用于估计变量值的分布范围,变量值可能很多甚至无限,95容许区间的涵义是指有95的变量值在该范围内。,(2)可信区间 所基于的t分布是统计量的抽样分布,一般均可通用;容许区间 所基于的正态分布是变量值的分布,只有当分布接近正态分布时方适用。,11)可信区间与容许区间的区别,总结,抽样误差中心极限定理标准误抽样分布参数估计,

    注意事项

    本文(抽样误差均数估计于.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开