数据统计的常见问题解析.ppt
《数据统计的常见问题解析.ppt》由会员分享,可在线阅读,更多相关《数据统计的常见问题解析.ppt(85页珍藏版)》请在三一办公上搜索。
1、数据统计的常见问题解析,马海燕,1 基本概念,总体个体、个体变异,总体参数未知,样本代表性、抽样误差,随机抽样,样本统计量已知,统计推断,I型误差、II型误差可信度,统计学中的几个基本概念(一)总体与样本1、总体(population):根据研究目的确定的同质的所有观察单位某种变量值的集合,称为总体。(1)无限总体(2)有限总体,统计学中的几个基本概念2、样本(sample):从总体中随机抽取的一部分观察单位,称为样本,它是总体中有代表性的一部分。举例:调查某地1995年成年男子的红细胞数。该地1995年全部正常男子的红细胞数构成一个总体。从该地区随机抽取144名正常成年男子,这144名正常成
2、年男子的红细胞数就是样本。抽样误差,统计学中的几个基本概念(二)参数与统计量1、参数(parameter):总体指标。、。2、统计量(statistic):样本指标。p、s、x,(四)概率:某随机事件发生可能性的大小,用P表示,必然事件概率为1,不可能发生事件的概率为0,一般事件概率为01。对总体而言。习惯上常将P0.05或P0.01称为小概率事件。,定量资料:亦称数量变量,其变量值是定量的,表现为数值的大小,一般有度量衡单位,如调查某地区10岁儿童的Hb值。,资料类型:定量资料(quantitative data),分类资料:亦称定性资料,其观察值是定性的,表现为互不相容的类别或属性,有两种
3、情况:二项分类无序分类 多项分类有序分类 病情严重程度 药物剂量,资料类型:分类资料(categorical data),误将定量资料判为定性资料从而误用2检验,原文题目:小儿皮肤血管瘤雌、孕激素受体的研究,原作者意在探讨雌激素受体(ER)、孕激素受体(PR)在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤及正常皮肤组织的ER、PR受体进行检测。全部标本经10%福尔马林固定,常规石蜡包埋。每例选一典型蜡块,46m切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数ER、PR阳性细胞百分率.,统计方法用卡方检验?,分析:问题的关键在于,
4、原作者的观察单位并不是细胞本身,而是每一个病例标本,原作者关心的是四种疾病病例标本和一组正常人标本的ER、PR阳性细胞率之均值是否相同,从每一个病例标本中得到的是ER和PR阳性细胞率,是一具体的数值,因而应属于定量资料。如果仅从资料的表面现象(有“率”)进行判断,而不考虑每一个数值的实际含义,没有从资料的本质上进行判断,很容易判断错误。,统计分析:统计描述+统计推断,对称分布、s表达和描述定量资料 偏态分布 M、Q表达和描述分类资料:相对数或率,统计分析:统计描述+统计推断,参数估计:置信区间统计推断 假设检验:检验统计量,定量资料的统计分析,t 正态分布,满足方差齐性,优先选用参数检验法 U
5、 F数据的分布 分布类型不明确,不满足参数检验条件,用非参数检验 符号检验 秩和检验等,定量资料的统计分析,整理资料,频数表,统计描述,统计推断,集中趋势,离散趋势,平均数,变异指标,估计分布类型,参数估计,假设检验,统计分析,点值估计,区间估计,t检验,u检验,正态分布,方差齐,大样本,正态分布,偏态分布,变量变换(x-lgx),方差分析,2 检验统计量的含义,差异!,2 检验统计量的含义(续),3 统计推断的理论依据,参数估计;假设检验。,如何利用抽样误差规律进行统计推断,以均数的推断为例。已知,X-N(,),X-N(,X),固定n抽样,x-U=,x-U=x,U-N(O,1),0,标准正态
6、分布示意图,x,=1,-4-3-2-1 0 1 2 3 4,=1,=5,=(u分布),t分布示意图,t=(X-)/sx,例4.1 25例 1 岁婴儿的血红蛋白,均数为123.7(g/L),标准差为11.9(g/L)。估计1岁婴儿的血红蛋白的均数。该地1岁婴儿的血红蛋白均数是否为140?,t 值在(-2.064,2.064)之内的可能性为95。,如果该地1岁婴儿的血红蛋白均数140即H0成立,则该1岁婴儿的血红蛋白来自均数为132(g/L)的总体,故:且有95的可能,t 值在(-2.064,2.064)之间。t 值大于2.064或小于-2.064的可能性很小,只有0.05。现 t=6.8487,
7、小概率事件居然出现。问题在哪里?,由此可见,可信区间与假设检验的原理相通,结论互补。,3 医学统计学思维,生物体的变异是普遍存在的,这种变异是有规律的;抽样误差是不可避免的,抽样误差是有规律的;统计推断是有风险的,这种风险是可以控制的。,3.1 如何理解生物体的变异是有规律的,任何观察指标都有其特定的分布规律;任何观察指标都以平均数为中心,以一定的离散程度分布在平均数两侧;样本含量越多,样本的分布就越稳定,越接近总体分布;均数、标准差、变异系数等统计指标越稳定。,3.2 变异规律有哪些用途,制定指标的容许区间、参考值范围;估计观察指标某一范围内个体的比例;评价观察结果的稳定性;估计抽样误差。,
8、3.3 如何理解抽样误差是不可避免的,由于个体变异的存在,抽样误差(在抽样研究中)是不可避免的;样本统计量与总体参数的差别;不同样本的统计量之间的差别。,3.4 如何理解抽样误差是有规律的,抽样误差与个体变异有关,个体变异越大,抽样误差越大,反之,越小;抽样误差与样本含量有关,样本含量越大,抽样误差越小,反之,越大;样本含量接近总体数时,抽样误差逐渐消失。不同的统计指标有其特定的抽样分布。,3.5 如何理解统计推断是有风险的,参数估计中,可信区间的可信度不是100%;假设检验中,存在I型误差和II型误差。因此,任何推断结论都不是绝对正确的。统计推断的结论不能说“证明”,”肯定”。只能说“可以认
9、为”,“推断为”,“尚不能认为“。,3.6 如何理解统计推断的风险是可以控制的,抽样误差可以通过增加样本含量加以控制;参数估计中,可信度可以人为控制;假设检验中,I型误差可以人为控制;II型误差可以通过增加样本含量或通过控制I型误差来加以控制。控制不等于消除!,一个例子,某药治疗高血压100例,治疗前后差值均数为8mmHg,s=20mmHg.该药是否有降血压的作用。结论?,4 统计学结论与专业结论,统计学结论 专业结论 结论 增加样本含量 改进实验,5 基本方法,参数估计率、均数、Poisson平均计数相关系数(pearson,秩相关)OR,RR生存率,样本与总体 两样本 多样本率u检验,2,
10、确切概率u,2,确切概率似然比2,确切概率构成比(分布)22均数 u检验,t检验 u检验,t检验 方差分析,两两比较等级Wilcoxon,u Wilcoxon,uKruskal-Wallis,2方差FFBartlet方差齐性 设计类型、大样本小样本,相关分析直线回归分析、曲线回归分析等级相关多元线性回归、logistic回归、Cox回归,t检验,t检验是目前医学研究中使用频率最高,医学论文中最常见到的处理定量资料的假设检验方法。t检验得到如此广泛的应用,究其原因现有的医学期刊多在统计学方面作出了要求,研究结论需要统计学支持传统的医学统计教学都把t检验作为假设检验的入门方法进行介绍t检验方法简单
11、,其结果便于解释。简单、熟悉加上外界的要求,促成了t检验的流行。,t检验与F检验区别,单因素两水平:可用t检验;样本含量很大时,可用U检验代替单因素多水平(3),可选用F检验多因素单水平或多水平,用F检验,由于有些人对该方法理解不全面,导致在应用过程中出现不少问题,有些甚至是非常严重的错误,直接影响到结论的可靠性。可大致概括为以下两种情况:不考虑t检验的应用前提,对两组的比较一律用t检验;将各种实验设计类型一律视为多个单因素两水平设计,多次用t检验进行均值之间的两两比较。以上两种情况,均不同程度地增加了得出错误结论的风险。而且,在实验因素的个数大于等于2时,无法研究实验因素之间的交互作用的大小
12、。,不能用t检验取代方差分析的理由,实例 研究单味中药对小鼠细胞免疫机能的影响,把40只小鼠随机均分为4组,每组10只,雌雄各半,用药15d后测定E-玫瑰结形成率(%),结果如下,试比较各组总体均值之间的差别有无显著性意义?处理本例资料,通常人们错误的做法是,重复运用成组设计资料的t检验对4个组的均值进行6次两两比较。,而正确的做法是,先进行单因素4水平设计资料的方差分析,若4个总体均值之间的差别有显著性意义,再用q检验等方法进行多个均值之间的两两比较。,表7 用t 检验与方差分析处理(实例)资料区别 注:自由度大,所对应的统计量的可靠性就高,它相当于“权重”,也类似于产生“代表”的基数,基数
13、越大,所选出的“代表”就越具有权威性。,t检验注意的问题,条件:正态分布,方差齐性设计:单组、配对、成组设计,单组设计的t检验条件,必须给出一个标准值或总体均值。应用t检验的前提条件就是该组资料必须服从正态分布;=n-1,配对设计,每对数据的差值必须服从正态分布;=n-1,n为对子数,成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。=n1+n2-2,F检验的条件,方差分析与成组设计t检验的前提条件是相同的,即正态性和方差齐性。,忽视t检验的前提
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计 常见问题 解析
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6166901.html