欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数据统计的常见问题解析.ppt

    • 资源ID:6166901       资源大小:326KB        全文页数:85页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据统计的常见问题解析.ppt

    数据统计的常见问题解析,马海燕,1 基本概念,总体个体、个体变异,总体参数未知,样本代表性、抽样误差,随机抽样,样本统计量已知,统计推断,I型误差、II型误差可信度,统计学中的几个基本概念(一)总体与样本1、总体(population):根据研究目的确定的同质的所有观察单位某种变量值的集合,称为总体。(1)无限总体(2)有限总体,统计学中的几个基本概念2、样本(sample):从总体中随机抽取的一部分观察单位,称为样本,它是总体中有代表性的一部分。举例:调查某地1995年成年男子的红细胞数。该地1995年全部正常男子的红细胞数构成一个总体。从该地区随机抽取144名正常成年男子,这144名正常成年男子的红细胞数就是样本。抽样误差,统计学中的几个基本概念(二)参数与统计量1、参数(parameter):总体指标。、。2、统计量(statistic):样本指标。p、s、x,(四)概率:某随机事件发生可能性的大小,用P表示,必然事件概率为1,不可能发生事件的概率为0,一般事件概率为01。对总体而言。习惯上常将P0.05或P0.01称为小概率事件。,定量资料:亦称数量变量,其变量值是定量的,表现为数值的大小,一般有度量衡单位,如调查某地区10岁儿童的Hb值。,资料类型:定量资料(quantitative data),分类资料:亦称定性资料,其观察值是定性的,表现为互不相容的类别或属性,有两种情况:二项分类无序分类 多项分类有序分类 病情严重程度 药物剂量,资料类型:分类资料(categorical data),误将定量资料判为定性资料从而误用2检验,原文题目:小儿皮肤血管瘤雌、孕激素受体的研究,原作者意在探讨雌激素受体(ER)、孕激素受体(PR)在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤及正常皮肤组织的ER、PR受体进行检测。全部标本经10%福尔马林固定,常规石蜡包埋。每例选一典型蜡块,46m切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数ER、PR阳性细胞百分率.,统计方法用卡方检验?,分析:问题的关键在于,原作者的观察单位并不是细胞本身,而是每一个病例标本,原作者关心的是四种疾病病例标本和一组正常人标本的ER、PR阳性细胞率之均值是否相同,从每一个病例标本中得到的是ER和PR阳性细胞率,是一具体的数值,因而应属于定量资料。如果仅从资料的表面现象(有“率”)进行判断,而不考虑每一个数值的实际含义,没有从资料的本质上进行判断,很容易判断错误。,统计分析:统计描述+统计推断,对称分布、s表达和描述定量资料 偏态分布 M、Q表达和描述分类资料:相对数或率,统计分析:统计描述+统计推断,参数估计:置信区间统计推断 假设检验:检验统计量,定量资料的统计分析,t 正态分布,满足方差齐性,优先选用参数检验法 U F数据的分布 分布类型不明确,不满足参数检验条件,用非参数检验 符号检验 秩和检验等,定量资料的统计分析,整理资料,频数表,统计描述,统计推断,集中趋势,离散趋势,平均数,变异指标,估计分布类型,参数估计,假设检验,统计分析,点值估计,区间估计,t检验,u检验,正态分布,方差齐,大样本,正态分布,偏态分布,变量变换(x-lgx),方差分析,2 检验统计量的含义,差异!,2 检验统计量的含义(续),3 统计推断的理论依据,参数估计;假设检验。,如何利用抽样误差规律进行统计推断,以均数的推断为例。已知,X-N(,),X-N(,X),固定n抽样,x-U=,x-U=x,U-N(O,1),0,标准正态分布示意图,x,=1,-4-3-2-1 0 1 2 3 4,=1,=5,=(u分布),t分布示意图,t=(X-)/sx,例4.1 25例 1 岁婴儿的血红蛋白,均数为123.7(g/L),标准差为11.9(g/L)。估计1岁婴儿的血红蛋白的均数。该地1岁婴儿的血红蛋白均数是否为140?,t 值在(-2.064,2.064)之内的可能性为95。,如果该地1岁婴儿的血红蛋白均数140即H0成立,则该1岁婴儿的血红蛋白来自均数为132(g/L)的总体,故:且有95的可能,t 值在(-2.064,2.064)之间。t 值大于2.064或小于-2.064的可能性很小,只有0.05。现 t=6.8487,小概率事件居然出现。问题在哪里?,由此可见,可信区间与假设检验的原理相通,结论互补。,3 医学统计学思维,生物体的变异是普遍存在的,这种变异是有规律的;抽样误差是不可避免的,抽样误差是有规律的;统计推断是有风险的,这种风险是可以控制的。,3.1 如何理解生物体的变异是有规律的,任何观察指标都有其特定的分布规律;任何观察指标都以平均数为中心,以一定的离散程度分布在平均数两侧;样本含量越多,样本的分布就越稳定,越接近总体分布;均数、标准差、变异系数等统计指标越稳定。,3.2 变异规律有哪些用途,制定指标的容许区间、参考值范围;估计观察指标某一范围内个体的比例;评价观察结果的稳定性;估计抽样误差。,3.3 如何理解抽样误差是不可避免的,由于个体变异的存在,抽样误差(在抽样研究中)是不可避免的;样本统计量与总体参数的差别;不同样本的统计量之间的差别。,3.4 如何理解抽样误差是有规律的,抽样误差与个体变异有关,个体变异越大,抽样误差越大,反之,越小;抽样误差与样本含量有关,样本含量越大,抽样误差越小,反之,越大;样本含量接近总体数时,抽样误差逐渐消失。不同的统计指标有其特定的抽样分布。,3.5 如何理解统计推断是有风险的,参数估计中,可信区间的可信度不是100%;假设检验中,存在I型误差和II型误差。因此,任何推断结论都不是绝对正确的。统计推断的结论不能说“证明”,”肯定”。只能说“可以认为”,“推断为”,“尚不能认为“。,3.6 如何理解统计推断的风险是可以控制的,抽样误差可以通过增加样本含量加以控制;参数估计中,可信度可以人为控制;假设检验中,I型误差可以人为控制;II型误差可以通过增加样本含量或通过控制I型误差来加以控制。控制不等于消除!,一个例子,某药治疗高血压100例,治疗前后差值均数为8mmHg,s=20mmHg.该药是否有降血压的作用。结论?,4 统计学结论与专业结论,统计学结论 专业结论 结论 增加样本含量 改进实验,5 基本方法,参数估计率、均数、Poisson平均计数相关系数(pearson,秩相关)OR,RR生存率,样本与总体 两样本 多样本率u检验,2,确切概率u,2,确切概率似然比2,确切概率构成比(分布)22均数 u检验,t检验 u检验,t检验 方差分析,两两比较等级Wilcoxon,u Wilcoxon,uKruskal-Wallis,2方差FFBartlet方差齐性 设计类型、大样本小样本,相关分析直线回归分析、曲线回归分析等级相关多元线性回归、logistic回归、Cox回归,t检验,t检验是目前医学研究中使用频率最高,医学论文中最常见到的处理定量资料的假设检验方法。t检验得到如此广泛的应用,究其原因现有的医学期刊多在统计学方面作出了要求,研究结论需要统计学支持传统的医学统计教学都把t检验作为假设检验的入门方法进行介绍t检验方法简单,其结果便于解释。简单、熟悉加上外界的要求,促成了t检验的流行。,t检验与F检验区别,单因素两水平:可用t检验;样本含量很大时,可用U检验代替单因素多水平(3),可选用F检验多因素单水平或多水平,用F检验,由于有些人对该方法理解不全面,导致在应用过程中出现不少问题,有些甚至是非常严重的错误,直接影响到结论的可靠性。可大致概括为以下两种情况:不考虑t检验的应用前提,对两组的比较一律用t检验;将各种实验设计类型一律视为多个单因素两水平设计,多次用t检验进行均值之间的两两比较。以上两种情况,均不同程度地增加了得出错误结论的风险。而且,在实验因素的个数大于等于2时,无法研究实验因素之间的交互作用的大小。,不能用t检验取代方差分析的理由,实例 研究单味中药对小鼠细胞免疫机能的影响,把40只小鼠随机均分为4组,每组10只,雌雄各半,用药15d后测定E-玫瑰结形成率(%),结果如下,试比较各组总体均值之间的差别有无显著性意义?处理本例资料,通常人们错误的做法是,重复运用成组设计资料的t检验对4个组的均值进行6次两两比较。,而正确的做法是,先进行单因素4水平设计资料的方差分析,若4个总体均值之间的差别有显著性意义,再用q检验等方法进行多个均值之间的两两比较。,表7 用t 检验与方差分析处理(实例)资料区别 注:自由度大,所对应的统计量的可靠性就高,它相当于“权重”,也类似于产生“代表”的基数,基数越大,所选出的“代表”就越具有权威性。,t检验注意的问题,条件:正态分布,方差齐性设计:单组、配对、成组设计,单组设计的t检验条件,必须给出一个标准值或总体均值。应用t检验的前提条件就是该组资料必须服从正态分布;=n-1,配对设计,每对数据的差值必须服从正态分布;=n-1,n为对子数,成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。=n1+n2-2,F检验的条件,方差分析与成组设计t检验的前提条件是相同的,即正态性和方差齐性。,忽视t检验的前提条件,实例 为确定老年人围手术期头孢唑啉钠的合理用法和用量,某研究小组对老年人与60岁以下者的头孢唑啉钠药物动力学特征分别进行了测量,并进行了比较,部分结果见表9。,表9 两组患者头孢唑啉钠药物动力学参数比较研究者依据P值认为两组在,k10两项指标上差异无显著性意义。,忽视t检验的前提条件和可疑值的影响,表10 8例恶性滋养细胞肿瘤患者灌注治疗前后hcG值(pmol/L),定性资料的统计分析,明确每次拟分析定性变量的个数 两个、三个及以上弄清定性变量的属性 名义变量、有序变量列联表中频数的多少 总频数、网格频数、理论频数资料的收集形式 配对,成组设计,两个定性变量资料的统计分析,双向无序RC表资料 2检验单向有序RC表资料 有序性有联系的秩和检验、Ridit分析双向有序且属性不同 有序性有联系的等级相关分析、典型相关分析、线性趋势检验双相有序且属性相同 Kappa检验,表12 某地6094人按两种血型系统划分的结果,双向无序RC表资料:2检验,表13 三种药物疗效的观察结果,单向有序RC表资料:有序性有联系的秩和检验、Ridit分析,表14 眼晶状体混浊度与年龄之关系,双向有序且属性不同:有序性有联系的等级相关分析、典型相关分析、线性趋势检验,表15 两法检查室壁收缩运动的符合情况,双相有序且属性相同:Kappa检验,一般22表资料分析方法的选用标准,一般的2检验;连续性校正的2检验;Fisher的精确检验。,国内统计教科书一般是这样规定的:当总样本含量n40,且理论频数T均大于5时,选用方法;当总样本含量n40,但有理论频数满足1T5时,选用方法;当总样本含量n40或有理论频数小于1时,选用方法。,误将“部分合计频数”当作22表的原始频数,表16 螺纹管消毒处理前后采样结果 用一般2检验,2=7.48,P0.05,结论为螺蚊管消毒前后的合格率有显著性的差别,消毒后的合格率明显高于消毒前。,原表改为表17式。表 17 高 压氧舱的螺纹管消毒前后的观测结果,表18 不同分娩方式与重症肝炎孕妇的结局,误用一般2检验取代Fisher精确检验,误用一般2检验取代校正的2检验和配对的2检验,研究者分别用两种方法检验120份标本,PCR法检测得到28份标本为阳性结果,ELISA法检测得到23份标本为阳性结果。如以PCR法的阳性检出率为100%,则ELISA法的阳性率为17.9%。阳性检出率比较:2=5.490,0.01P0.05,两方法间有显著性差异。表19 PCR法与ELISA法检测结果,差错分析 用两种检测方法对同一标本进行检测,其目的是要分析两种方法的阳性检出率间的判别有无显著性意义。由于此实验设计属于配对设计,而原作者却用了一般的2检验处理资料。释疑:应分两种情况来考虑1.要看是否有评判检测结果正确与否的“金标准”两种培养基对某种细菌的培养结果,培养出来了就是阳性,没培养出来就是阴性,不会出现假阳性或假阴性的结果。此时,可选用配对设计22表资料的2检验,本例中两种检测方法都可能有假阳性或假阴性的结果出现,故不适合。2.要看能否以其中一种检测方法为基准 计算另一种方法的阳性检出率,并进行比较。这正是原文作者所采取的办法。,原假定PCR法检测的阳性结果是“金标准”,发现由此法检测的28份阳性标本中,用ELISA法检测出23份为阳性,推算出如下的4个数作为原始频数,见表19(b)。表19(b)以PCR法为“金标准”推算ELISA法测定结果 运用一般的2检验公式计算,得2=5.49,P0.05。结论应当是:两种方法的阳性检测结果之间的差别无显著性意义。这个结论与原作者的相反。,原作者未作任何统计处理,只是从其痊愈率上看治疗组大于对照组(73%55%),从而得出“治疗组的痊愈率明显高于对照组”的结论来。表20 针灸偏历治疗网球肘116例与对照组比较,2k表中“0”频数过多,结果可靠性差,原先的设计、资料、统计分析方法、结果与结论 A组20例经末梢静脉输注榄香稀乳均出现程度不同的局部刺激症状及静脉炎,而B组20例经锁骨下静脉穿刺置管输注均未出现任何局部刺激症状及静脉炎。见表21。表21 两种处理下不同程度的局部刺激症状的频数分布情况,对差错的分析:本文末梢静脉组全部为0以上,而锁骨静脉组均为00,从原始资料的表达上看存在着下列问题:括号中有些百分比计算有误;若用上面25表描述资料,表中零频数过多,计算结果的可靠性较差。释疑 将上表整理为表21(a)表21(a)表18资料重新整理的结果 检查四格表所具备的条件:此例n=40,且Tij5,故可用一般2检验。得:2=40.000,表22 产次与新生儿低体重率原作者采用一般的2检验方法,得2=6.99,P0.05,结论为“不同产次的低体重发生率差异有显著意义,第二产低体重率最低,大于等于第三产低体重率及相对危险度上升”,差错分析 该资料的2值仅仅说明总体上不同的产次间低体重发生率至少有两组间的差别有显著性意义,并不意味每两组间的差异都有显著性意义,要比较任何两种产次间的差别,应进行两两比较。解决方法 需降低每次检验的显著性水平数值,若=0.05,可令=0.05/C,其中C等于比较的次数,本例C=3采用 2分割法(要求分表的自由度等于总表的自由度、分表的2值之和等于总表的2值)进一步分析。,释疑:一、二产次间的对比:结果见表22(a)表22(a)表22的部分结果 表22(b)表19的前两行合并后的结果 结论 2=0.478;P0.05。1、2产次低体重率间的差别无显著性意义。将1、2产次合并与3产次比较:结果见表22(b)。结论 2=6.515,P0.01小于3产次与大于等于3产次的低体重率间的差别有显著性意义,即“3产次”组低体重儿发生率高于1产次、2产次组,而第一、二产次组间的差别无显著性意义,不应作出第二产次组低体重发生率最低的结论。,分析RXC表存在的问题,各组间重要的非实验因素有差异,不具备可比性,三组慢性麻疹患者疗效的观测结果,原文中说明病人性别、病程长短有差异排除性别、病程等非实验因素影响,用秩和检验、Ridit分析,分析RXC表存在的问题,未作统计处理就作出统计推断,眼针治疗中风后遗症临床观察的疗效与病程之间的关系,结论:病程与疗效密切相关,病程越短疗效越好双向有序且属性不同,可选Spearman等级相关典型相关、线性趋势检验,分析RXC表存在的问题,统计分析不够全面,51例皮肤鳞癌分化程度与P53表达之间的关系,原结论:2检验、秩和检验。P53表达在三中分化程度间无差异(T=195.5,P0.05)双向有序且属性不同,不同分化程度下P53各等级的频数分布之间有无差别,可选定性资料的秩和检验。希望研究“分化程度”与“P53取值的等级”之间是否存在相关,可选用Spearman等级相关、典型相关分析。,统计结果的解释与表达,误认为P0.05所对应的实验因素一定是无用因素“P0.05”等价于“某因素是无用因素”吗?某研究者在研究多个实验因素对某产物的影响时,运用正交设计安排了全部实验因素。运用方差分析处理资料后发现“温度”这个实验因素所对应的P值是“P0.05”,便认为“温度”这个实验因素对产物的影响无显著性意义,于是,得出结论:“温度这个实验因素在本实验中是无关紧要的,可忽略不予考虑”。,对差错的分析,假定在上述问题中没犯型错误的前提下,来讨论所提出的问题。此时,“P0.05”与“某因素是无用因素”之间并非等价关系!即使某个实验因素在实验中是不可缺少的,如果该因素在实验中所取的水平过于接近,它们对实验结果的影响自然也就相差无几了。此时的不显著,仅表明该因素的各水平对观测结果的影响几乎相同,而不代表该因素对观测结果无影响。,统计“显著性”与医学/临床/生物学“显著性”,统计“显著性”对应于统计结论,医学/临床/生物学“显著性”对应于专业结论。假设检验是为各专业服务的,统计的结论必须和专业结论有机的相结合,才能得出恰如其分、符合客观实际的最终结论。,误解了“P0.01”与“P0.05”的真正含义,解释“P0.01”与“P0.05”含义时常犯的错误有些人在解释具有显著性意义的统计结果时,常根据P值是“0.05”还是“0.01”作出肯定程度不同的专业结论。例如,当比较甲、乙两种药物的疗效时(假定甲药优于乙药),若得到“P0.001”,则认为甲药极显著地优于乙药;若得到“P0.01”,则认为甲药非常显著地优于乙药;若得到“P0.05”,则认为甲药显著地优于乙药,差错分析 统计学上根据假设检验原理推算出来的P 值,表示拒绝特定的零假设可能犯假阳性错误的概率的理论值,它的大小不反映对比的两者之间差别的程度大小。,统计检验结果不完善的表达方式,多种多样表达统计检验结果的方式:资料未经过任何统计处理,仅根据实际数据的大小,凭经验作出某组与另一组之间的差别有显著性的结论;作了统计处理,但未交代选用的是何种统计分析方法,仅给出P值;作了统计处理,也交代了所选用的统计分析方法,并给出了P值,但未给出统计量的具体值。释疑:所选用的统计分析方法;统计量的具体取值及其自由度;假设检验的具体P值;有关总体参数的95%可信区间;,传染病数据具有不独立的性质。一个人是否生病与他周围的人是否生病有一定关系。放射线计数和液体中的细菌呈Poisson分布,非传染性数据则呈二项分布。不同性质的数据与所用统计方法有关,logistic回归是根据二项分布或多项分布原理推导出来的,而二项分布则要求事件独立。传染性疾病不符合二项分布,因而也不能用logistic回归分析。所以logistic回归分析大多用于恶性肿瘤、心血管疾病等的研究。个别作者把它用于传染病流行病学研究,这是不正确的。更有作者在杂志上呼吁把logistic回归用于传染性疾病的流行病学研究更是错误。,分析的目的 资料的类型 资料的分布 设计方案 样本含量大小,6 应注意的几个重要问题,资料的整理与描述从几个方面入手?标准差与标准误的区别与联系?可信区间与参考值范围的区别是什么?可信区间的估计与哪些因素有关?参考值范围的确定与哪些因素有关?假设检验与可信区间的联系?不同类型资料的方法选择?,6 应注意的几个重要问题(续),如何正确应用不同设计时的检验?两组比较与多组比较的关系?P与的区别?单侧检验与双侧检验?I型误差与II型误差?各种检验方法的应用条件?两指标间关系的分析?研究设计的基本原则?,Thank you!,

    注意事项

    本文(数据统计的常见问题解析.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开