第九章 数值变量的统计分析下课件.ppt
《第九章 数值变量的统计分析下课件.ppt》由会员分享,可在线阅读,更多相关《第九章 数值变量的统计分析下课件.ppt(150页珍藏版)》请在三一办公上搜索。
1、第二节 正态分布参考值范围的估计 一、 正态分布的概念和特征,(一)概念:正态曲线呈对称钟形,均数所在处最高,两侧逐渐下降,两端在无穷处与横轴无限接近。,二、标准正态分布(u 变换)将每个 x 值转变成 u 值使均数为 0( =0 ),标准差为 1( =1 ),则 正态分布 N ( , ) 标准正态分布 N( 0 ,1 ) (u分布),(二)正态分布的特征 1、正态曲线在横轴上方,且均数所在处最高; 2、正态分布以均数为中心,左右对称; 3、正态分布有两个参数 N( ), 4、正态分布的面积分布有一定的规律性.,正态分布的图形由两个参数决定: 位置参数 (总体均数) 变异度参数 (总体标准差)
2、,1、 越大,曲线沿横轴向右移动;反之 越小,则向左移动。 2、 越大,数据越分散,曲线越“ 矮胖” ; 越小,表示数据越集中,曲线越“ 瘦高”。,(4) 正态曲线下面积分布规律 a.正态曲线与横轴间的面积为 1 或 100%b.以均数为中心,正态曲线下对区间面积相等。c.在 范围内的面积占 68.27% 在 范围内的面积占 95% 在 范围内的面积占 99%,在 范围内的面积占 68.27%在 范围内的面积占 95%在 范围内的面积占 99%,在正态曲线下面积分布有一定规律,其分布可通过其密度函数积分求得:为了免去计算的麻烦,统计学家已编制出标准正态分布曲线下的面积(表9-8,P299),应
3、用时应注意:(1)如u已知,可直接查表。(2)如u未知,先按 求出u值,再查表。(3)表中只列出负值,如果u为正值,可按负值查表。,练习1:标准正态曲线下(-1.76,0)的面积占总面积的百分数。练习2:标准正态曲线下(0,1.20)的面积占总面积的百分数。练习3:标准正态曲线下(-1.76,1.20)的面积占总面积的百分数。练习4:试估计成年男子尿酸浓度在300 以下的比例。,练习4:试估计成年男子尿酸浓度在300 以下的比例。(1)先求出u值:(2)查表得: (-1.50)=0.0668,三、参考值范围的估计医学参考值范围:大部分正常人的形态、功能、代谢产物的生理、生化、指标常数。,制定参
4、考值范围的基本步骤: 1、从正常人的总体中抽样,且样本量要足够(通常n100),抽样遵循随机化原则; 2、控制测量误差 3、判定是否需要分组确定参考值范围。,4、决定取单侧还是双侧。该指标过大过小均为异常 双侧该指标仅过大或过小为异常 单侧5、选定合适的百分界限(常用95%),5、选定合适的百分界限(常用95%),6、根据资料的分布类型选定适当的方法进行参考值范围的估计。 正态分布资料 正态分布法 对数正态分布资料 对数正态分布法 偏态分布资料 百分位数法,为可信度:如制定95%参考值范围:则=0.05 制定99%参考值范围:则=0.01U可通过查表求得如:双侧的U0.05=1.960 , U
5、0.01=2.576 单侧的U0.05=1.645 , U0.01=2.326,例9-11 利用表9-1的资料求95%的参考值范围,例9-12 利用表9-7的资料计算7岁男童血铅95%的参考值范围,练习:公共汽车的车门高度是根据正常成年男子的身高来制定的,如正常成年男子的身高均数为170cm,标准差为10cm,今欲要求有99%的成年男子上车时不会碰到头,车门高度应为多高。,第三节数值变量资料的统计推断,学习要点:,1.掌握均数的抽样误差与标准误的概念;2.了解t分布的概念与特征;3.熟悉总体均数的区间估计;4.熟悉假设检验的基本原理和步骤;5.掌握t检验和u检验的方法;6.了解两类错误和假设检
6、验的注意事项。,一、均数的抽样误差与标准误,一、均数的抽样误差统计推断(statistical inference) 用样本的信息推论总体的特征。 参数估计统计推断 假设检验,14岁女生 (身高),120人,均数的抽样误差-由于抽样造成的样本均数与总体均数、样本均数之间的差异。,样本1,样本2,样本k,总体均数,根据中心极限定理:,1 .从正态总体中抽样,抽取样本含量为n的样本,样本均数 服从正态分布。即使是从偏态总体中抽样,在样本含量足够(n50)大时, 也近似正态分布。2.从均数为 ,标准差为 的正态或偏态总体中抽样样本例数为n的样本,新样本组成的数据中,样本均数为 ,标准差,标准误:样本
7、均数的标准差。,反映各均数间的离散程度。,标准误 的意义: 描述抽样误差的大小, 越小, 说明抽样误差越小,样本均数越接近总体均数,用 代表 的可靠性越高。,标准误的计算(P300)均数的标准误,以某地14岁健康女生身高的标准差5.30cm及每个样本包含的例数10代入公式9-18,求得,应用时,用样本标准差 来代替总体标准差 ,则标准误的估计值为:?减少抽样误差的有效途径,均数标准误的用途:可用来衡量样本均数的可靠性。与样本均数结合,可用于估计总体均数的置信区间;可用于进行均数的假设检验。,S 与 的区别与联系:1、区别2、联系标准误和标准差成正比,和样本含量的开方成反比。,二、 t 分布u
8、变换(将正态分布转化为标准正态分布) t 变换,全国14岁女生(身高),(t 分布),(u 分布),t 分布特征: (1) 单峰分布,以0为中心左右对称。 (2) t 分布是一簇曲线,其形状受的影响。,t 分布与标准正态分布(u 分布)区别: * t 分布曲线峰部较矮,尾部稍翘。 * n(自由度 )越大,t 分布与u 分布 越接近;当 时, t 分布=u 分布。,t界值表:(表9-9 P302),t界值表的特征: 自由度相同时 越大,概率P越小; 双侧概率P为单侧概率P的两倍。,自由度为 ,概率为 (检验水准)时, t 的界值记为 。,t 界值表的查法: =? 通常取0.05或0.01,( t
9、 越大,概率 P 越小),2.262,3.250,1.96,2.58,当n50,为大样本( t 分布= u 分布),可用 来代替,三、 总体均数的置信区间估计 统计描述统计分析 参数估计-用样本指标估 统计推断 计总体指标 假设检验,点估计-用 估计参数估计 区间估计-按一定的概率估计总体均 数落在某个范围,这个范围称之为: 总体均数的置信区间 CI ,为开区间用()表示。如(140.2,144.3),说明总体均数在140.2144.3之间,但不包含上限(144.3)及下限(140.2)两个值。,总体均数置信区间(可信区间)的计算2)小样本或 未知-按 t 分布,总体均数置信区间(可信区间)的
10、计算2)小样本或 未知-按 t 分布 95%置信区间 99%置信区间,总体均数置信区间(可信区间)的计算1) 已知 95%置信区间 99%置信区间,总体均数置信区间(可信区间)的计算3)大样本-按u 分布 95%置信区间 99%置信区间,例9-13 随机抽取某地健康男子20人,测得该样本的收缩压均数为118.4mmHg,标准差S为10.8mmHg,试估计该地男子收缩压总体均数的95%置信区间。,此为小样本,应按 t 分布。收缩压过高过低均为异常,故取双侧。95%置信区间: 代入数据 () 即(113.3,123.5),置信区间的两个要素:,1.准确度:反映在的大小上。2.精确度:反映在区间的长
11、度上。在样本含量一定的情况下二者是矛盾的。常用的95%置信区间。,均数置信区间与参考值范围的区别 95%置信区间: 从 至 范围有95%的可能性包含了总体均数。95%正常值范围: 一组观察值中,有95%个体(频数)的观察值在 至 范围内。,四、假设检验的基本思想和步骤,(一)假设检验的基本思想利用反证法的思想,例9-14 某地抽样调查了280名健康成年男性的血红蛋白含量,其均数为136.0g/L,标准差为6.0g/L。已知正常成年男性血红蛋白的均数为140.0g/L。试问能否认为该地抽样调查的280名成年男性的血红蛋白含量与正常成年男性的血红蛋白含量的均数不同?,差异的原因: (2)由于抽样误
12、差造成的.(实际上 ,但由于抽样误差 不能很好代表 )(1)该地成年男性的血红蛋白含量与正常成年男性的血红蛋白含量的均数不同( ),0 =140.0g/L,n=280,=136.0g/L S=6.0g/L,已知总体,未知总体,(二)假设检验的基本步骤,1、建立假设,确定检验水准 H0:(无效假设),= 0,H1:(备择假设)0检验水准的意义及确定,2、选定检验方法,计算检验统计量3、确定P值,作出推断结论P值:在H0成立的情况下,获得比现有统计量更极端的概率。,(推断的结论统计结论专业结论),P0.05,按 检验水准,不拒绝H0,差异无统计学 意义(差异无显著性),还不能认为不同或不等。 P0
13、.05 ,按 检验水准,拒绝H0,接受H1, 差异有统计学意义(差异有显著性) ,可以认为不同或不等,谁高谁低。 P0.01,按 检验水准,拒绝H0,接受H1, 差异有高度统计学意义(差异有高度显著性) ,可以认为不同或不等,谁高谁低。,140g/L,假设检验的目的就是判断差异的原因: 求出由抽样误差造成此差异的可能性(概率P)有多大 !若 P 较大(P0.05),认为是由于抽样误差造成的。 原因(1),实际上 若 P 较小(P0.05),认为不是由于抽样误差造成的。 原因(2),实际上 ,单、双侧检验的选择: 1、根据专业知识 事先不知道会出现什么结果 双侧 事先知道只能出现某种结果 单侧
14、2、问题的提法 P289例9-14 双侧 P382第8题 单侧*通常用双侧(除非有充足的理由选用单侧之外, 一般选用保守的双侧较稳妥),确定P 值: (用求出的t 值与查表查出的t 值比较) 查t 值表:,( t 越大,P 越小),(1) 求出t=1.833,P0.05,(2) 求出t=4.18,P0.01,(3) 求出t=2.96,0.01P0.05 (简写为P0.05),(4) 求出t=3.25,P=0.01,0.05,0.01,3.250,2.262,P0.05,P0.01,P0.05,假设检验的思路是:首先对未知或不完全知道的总体提出一个假设,然后借助一定的分布,观察实测样本情况是否属
15、于小概率事件。一般把概率P0.05的事件称为小概率事件,小概率事件在一次观察中可以认为是不会发生的,如实测样本情况属于小概率事件,则认为原先的假设是错的,拒绝这个假设;如实测样本情况不属于小概率事件,则不拒绝 原来的假设。当然,小概率事件在一次观察中还是可能发生的,若我们恰好碰上,则假设检验的结论就是错误的,不过因为小概率事件发生的概率小,所以犯这种错误的概率也小。,第四节 t 检验和 u 检验,t 检验应用条件: 当n100时,要求样本取自正态分布的总体,总体标准差未知; 两小样本均数比较时,要求两样本总体方差相等( 12= 22)。,一、样本均数与总体均数比较的t检验,(即:样本均数代表的
16、未知总体均数和 已知总体均数0的比较),例9-15 已知某小样本中含CaCO3的真值是20.7mg/L。现用某法重复测定该小样本15次,CaCO3含量(mg/L)分别为:20.99,20.41,20.62, 20.75,20.10,20.00,20.80,20.91,22.60,22.30,20.99,20.41,20.50, 23.00,22.60。问该法测得的均数与真值有无差别?,(1)建立假设、确定检验水准,H0:= 0 即该法测得的均数与真值无差别H1: 0 即该法测得的均数与真值有差别,(2)选定检验方法,计算检验统计量,n=25100,故选用t检验。已知 =21.13,(3)确定P
17、值,作出推断结论 查 t 界值表 为单侧检验,P,t,0.05,0.01,2.977,2.145,P0.05,1.70,P0.05,按 检验水准,不拒绝H0,无统计学意义。尚不能认为该法测得的均数与真值不同。,二、配对设计的均数比较,常见的配对设计主要有以下情形:自身比较:同一受试对象处理前后。同一受试对象分别接受两种不同的处理。 将条件近似的观察对象两两配成对子,对子 中的两个个体分别给予不同的处理。,配对t检验的基本原理: 假设两种处理的效应相同,即1= 2 ,则1-2=0,即可看成是差值的样本均数 所代表的未知总体均数d 与已知总体均数0=0的比较,此时,我们可套用前述t检验的公式。,例
18、9-16 应用某药治疗8例高血压患者,观察患者治疗前后舒张压变化情况,如表9-10,问该药是否对高血压患者治疗前后舒张压变化有影响?,表9-10 用某药治疗高血压患者前后舒张压变化情况,H0: 该药对舒张压无影响。 H1: 该药对舒张压有影响。,P,t,0.05,0.01,2.365,P0.01,4.02,3.499,确定P值,判断结果 自由度n-18-17,查表9-9t界值表,t0.05,72.365,今4.022.365,故P0.05,故按0.05水准,拒绝H0,接受H1,认为差异有高度显著性,可以认为该药有降低舒张压的作用。,三、两个样本均数比较,大样本(n50)-u检验小样本-正态分布
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九章 数值变量的统计分析下课件 第九 数值 变量 统计分析 下课
链接地址:https://www.31ppt.com/p-1876568.html