数据缺失及其填补方法综述.ppt
《数据缺失及其填补方法综述.ppt》由会员分享,可在线阅读,更多相关《数据缺失及其填补方法综述.ppt(26页珍藏版)》请在三一办公上搜索。
1、数据缺失及其填补方法综述,报告人:邵宏赡日 期:2013.4,一,二,三,引言,数据缺失简介,数据缺失的处理方法,主要内容,处理方法评价,五,总结,一,二,三,引言,数据缺失简介,数据缺失的处理方法,四,处理方法的选择与评价,五,总结,在社会调查资料中,最为常见的问题就是。造成数据缺失的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解,来挽救有缺失的调查数据,以保证研究工作顺利进行。,数据缺失,一,二
2、,三,引言,数据缺失简介,数据缺失的处理方法,四,处理方法的选择与评价,五,总结,数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。,统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的一个重要标准,但实际调查中经常遇到数据缺失的情况。,无回答有2种表现形式:单位无回答(unit non-response)和项目无回答(item non-response)。“单位无回答”被调查者不愿意或者不能够回答整张的问卷;“项目无回答”被调查者拒绝回答个别的调查项目。,概念(Concept),缺失原因(Reason),在存储数据的过
3、程中,由于机器的损坏造成数据存储失败;,调查员在采集数据过程中,由于主观因素人为地认为数据不重要或无用,而私自丢弃数据;,调查员信息录入失误;,受访者拒绝透露被调查信息,或回答错误信息;,受访者选取失误。例如调查工资情况,选取的受访者是婴幼儿。,在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面的,主要有以下几种:,Little和Rubin针对缺失数据,探讨缺失数据与目标变量是否有关,定义了3种不同的缺失机制。,产生机制(Mechanism),MCAR,MAR,MNAR,完全随机缺失(Missing Completely At Random):数据的缺失与不完全变量以及完全变量
4、都是无关的。,随机缺失(Missing At Random):数据的缺失仅仅依赖于完全变量。,非随机缺失(Not Missing At Random):不完全变量中数据的缺失,依赖于不完全变量本身。这种缺失是不可忽略的。,产生机制(Mechanism),缺失模式(Pattern),数据缺失模式主要研究哪些变量缺失,更确切的说,关注的是缺失数据矩阵R的分布。当一维目标变量出现缺失数据时,我们在数据处理过程中首先要考虑缺失数据产生机制,而对于多维目标变量而言,除了考虑缺失数据产生机制外,还要判断数据的缺失模式。,缺失模式(Pattern),假设完全数据资料阵 y 是由m个观测、n个变量组成的mn矩
5、阵,通过分析这个矩阵的特点,可以推断出数据缺失模式。,一,引言,四,处理方法的选择与评价,五,总结,二,数据缺失简介,三,数据缺失的处理方法,基本方法,基于完整观测单位的方法,单一填补法,基于填补的方法,人工填补法,删除法,不处理,加权调整法,列表删除,个案删除(配对删除),多重填补法,均值填补法,回归填补法,热平台填补法(Hot deck 填补法、就近补齐法),冷平台填补法,期望最大化法,极大似然估计,马尔科夫链蒙特卡罗法(MCMC),趋势得分法,随机回归填补法(PMM法),K最近距离邻法,贝叶斯网络,人工神经网络,C4.5方法,这种方法简便易行。在被调查对象出现多个变量的缺失,并且被删除的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 缺失 及其 填补 方法 综述
链接地址:https://www.31ppt.com/p-2940376.html