统计学数据预处理.ppt
《统计学数据预处理.ppt》由会员分享,可在线阅读,更多相关《统计学数据预处理.ppt(46页珍藏版)》请在三一办公上搜索。
1、统计数据的预处理,数据预处理,把混在原始数据中的“异常数据”排除、把真正有用的“信息”提取出来,有助于推断统计得出正确分析结论。1:异常数据取舍 2:未检出值和/或缺失值估算 采用异常数据进行推断统计得到的结论误导带给科研与统计控制判断出错的隐患不可小视。,异常数据,单个异常值:是指单个样本观测数据组内隐含的个别异常数据。同义词有:可疑值、异常值、极端值、端值、离群值、逸出值、奇异值、超限值、粗值异常均数:三个以上(k3)样本多均数要作统计分析比较时,无疑也要检查其中是否隐含可疑均数。,研究者对7例糖尿病患者给某种药物后,测量其血中胰岛素(/ml,X1)和血糖(mg%,X2)作者采用直线相关分
2、析结论:血液中胰岛素与血糖两者含量之间无直线相关,剔出第6对数据前后的Pearson 相关系数,前者是0.314,后者是-0.936,显示有相关性!,异常数据的判别法,物理判别法:根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除统计判别法:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除能用物理判别法判定异常数据有时不易做到,此时只能用统计判别法,统计判别法,拉依达准则肖维勒准则格拉布斯准则狄克逊准则t检验(罗马诺夫斯基准则)极差法,统计判断对异常数据的区分,异常数据有两
3、种情况:1.异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;2.异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3的数据,出现的概率很小。,犯错误1:将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。-去真犯错误2:不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。-存伪,统计判别法之一:拉依达准则,如果实验数据的总体x是服从正态分布的,则根据上式对于大于+3或小于-3的实验数据作为异常数据,予以剔除。剔除后,对余下的各测量值重新计算偏差
4、和标准偏差,并继续审查,直到各个偏差均小于3为止。无需查表,使用简便,对某一长度L测量10次,其数据如下:,试用拉依达准则剔除坏值。,解:,20.33不能用拉依达准则剔除,例:,对某一长度L测量10次,其数据如下:,试用拉依达准则剔除坏值。,解:,20.33用拉依达准则剔除,例:,对于服从正态分布的测量结果,其偏差出现在3附近的概率已经很小,如果测量次数不多,偏差超过3几乎不可能,因而,用拉依达判据剔除疏失误差时,往往有些疏失误差剔除不掉。另外,仅仅根据少量的测量值来计算,这本身就存在不小的误差。因此拉依达准则不能检验样本量较小的情况。(显著性水平为0.1时,n必须大于10),统计判别法之二:
5、肖维勒准则,肖维勒准则又称为等概率原则,以正态分布为前提,假设多次重复测量所得n个测量值中,某个测量值的残余误差|vi|=Zc,则剔除此数据。实用中Zc3,所以在一定程度上弥补了3准则的不足,另外考虑了测量次数的因素,在一定程度上比拉依达准则更合理。Zc是一个与测量次数相关的系数,可以查表获取。肖维勒准则可用于n10时粗大误差的判定。,Zc系数表,统计判别法之三:格拉布斯准则,格拉布斯准则是在未知总体标准差情况下,对正态样本或接近正态样本异常值的一种判别方法。某个测量值的残余误差|vi|=T,则判断此值中含有粗大误差,应予剔除。T值与重复测量次数n和置信概率均有关,因此格拉布斯准则是比较好的判
6、定准则。格拉布斯准则理论较严密,概率意义明确,可用于严格要求的场合,当n=20-100时,判别效果较好。T值通过查表获得。,T0(n,)值表,采用格拉布斯方法判定异常数据的过程如下:1.选定危险率 是一个较小的百分数,例如1%,2.5%,5%,它是采用格拉布斯方法判定异常数据出现误判的几率。2.计算T值如果x(n)是可疑数据,则令,3.根据n及,查表得到T0(n,)值 4.如果T T0(n,),则所怀疑的数据是异常数据,应予剔除。如果T0(n,),则所怀疑的数据不是异常数据,不能剔除。5.余下数据重复操作至无异常数据 格拉布斯准则可以检验较少的数据,狄克逊准则,亦称Q检验法,狄克逊准则是通过极
7、差比判定和剔除异常数据。该准则认为异常数据应该是最大数据和最小数据,因此该其基本方法是将数据按大小排队,检验最大数据和最小数据是否异常数据。,将实验数据xi按值的大小排成顺序统计量x(1),x(2),x(3),x(n)计算f0值 或根据狄克逊系数表将f0与f(n,)进行比较如果f0 f(n,),说明x(n)离群远,则判定该数据为异常数据,予以剔除。,狄克逊系数f(n,a)与f0的计算公式,t检验准则(罗马诺夫斯基准则),t检验准则与狄克逊准则相似,也是检验最大实验数据和最小实验数据。首先将实验数据按大小排列x(1),x(2),x(3),x(n)对最小数据和最大数据分别进行检验,如果 或 则x(
8、1)或x(n)是异常数据,应予剔除 式中 及 分别为不包括x(1)或x(n)的n-1个数据的均值和标准差。,t检验中的K(n,),应注意的问题:所有的检验法都是人为主观拟定的,至今无统一的规定。以数据按正态分布为前提的,当偏离正态分布和测量次数少时检验不一定可靠。若有多个可疑数据同时超过检验所定置信区间,应逐个剔除,重新计算,再行判别。若有两个相同数据超出范围时,应逐个剔除。在一组测量数据中,可疑数据应很少。反之,说明系统工作不正常。为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值,拉依达准则不能检验样本量较小的情况,格拉布斯准则则可以检验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 数据 预处理

链接地址:https://www.31ppt.com/p-4104729.html