第4章 三心二意—数据处理课件.ppt
《第4章 三心二意—数据处理课件.ppt》由会员分享,可在线阅读,更多相关《第4章 三心二意—数据处理课件.ppt(69页珍藏版)》请在三一办公上搜索。
1、第 4 章 三心二意数据处理,主要内容: 4.1、何为数据处理 4.2、数据清洗 4.3、数据加工 4.4、数据抽样 4.5、本章小结,4.1.1 数据处理原则“三心二意”,平淡、平等、平静地对待问题,诚心诚意,诚实、尊重事实。,4.1.2 数据处理的内容,数据清洗,数据加工,数据处理的内容,重复数据的处理,检查数据逻辑错误,缺失数据的处理,数据抽取,数据计算,数据分组,数据转换,多一分则肥,少一分则瘦。, 函数法:用函数识别重复数据。 高级筛选法:直接利用筛选功能筛选出非重复值。 条件格式法:以不同的颜色标识重复项。 数据透视表法:用数据透视表统计各数据出现的频次。,4.2.1 重复数据处理
2、, 函数法(使用COUNTIF函数)criteria的形式可以是数字、条件或文本。如果是数字直接写数字,如果是条件或文本要加双引号。,EXCEL引用单元格,相对引用:引用格式形如“A1”,这种对单元格的引用是完全相对的,当引用单元格的公式被复制时,新公式引用的单元格的行列都会发生改变。,EXCEL引用单元格,绝对引用:引用格式形如“$A$1”,这种对单元格引用的方式是完全绝对的,即一旦成为绝对引用,无论公式如何被复制,对采用绝对引用的单元格的引用位置是不会改变的。,EXCEL引用单元格,绝对行引用:引用格式形如“A$1”。这种对单元格的引用位置不是完全绝对的,当引用该单元格的公式被复制时,新公
3、式对列的引用将会发生变化,而对行的引用则固定不变。,绝对列引用:引用格式形如“$A1”。这种对单元格的引用位置不是完全绝对的,当引用该单元格的公式被复制时,新公式对行的引用将会发生变化,而对列的引用则固定不变。,EXCEL引用单元格,函数法操作步骤:,第一步:选中B2单元格,输入函数公式: =COUNTIF(A:A,A2),(显示“重复次数”)第二步:选中C2单元格,输入函数公式: =COUNTIF(A$2:A2,A2),(显示“第几次出现”), 高级筛选法step 1: 选择数据单元格区域A1:A11step 2: 数据 排序和筛选 高级 弹出“高级筛选”对话框step 3: 选择“将筛选结
4、果复制到其他位置”,在“复制到”文本框 输入B1区域,勾选“选择不重复的记录”,单击“确定”。,高级筛选对话框的操作, 条件格式法 “开始” “条件格式” “突出显示单元格规则” “重复值” WPS表格中: 数据 “重复项” “高亮显示重复值”。把重复的数据及所在单元格标为不同的颜色。, 数据透视表法, 删除重复数据的方法方法一:通过菜单操作删除重复项。Step 1: 选择数据区域A1:A11;Step 2: “数据” “删除重复项”;Step 3: 在“列”区域下,选择要删除的列,单击“确定”。,方法二:通过排序删除重复项 利用函数识别重复数据的辅助列:第二次重复标记Step 1: 选中“第
5、二次重复项”中的任意一个单元格;Step 2: 选择“开始”主选项卡 “编辑部分”功能区 “排序和筛选” “降序”,方法三:通过筛选删除重复项 利用函数识别重复数据的辅助列:第二次重复标记。Step 1: 选中“第二次重复项”中的任意一个单元格;Step 2: “数据” “排序和筛选” “筛选”,点一下第二次重复标记单元格中的“三角形”,弹出下拉菜单。挑出不等于1的数值,筛选后就得到非重复项了。,4.2.2 缺失数据的处理,缺失数据:是指数据集中某个或某些属性的值是不完全的。,数据缺失的原因,机械原因,人为原因,数据收集或保存失败。如数据存储的失败、存储器损坏、机械故障等,人的主观失误、历史局
6、限、有意隐瞒。如市场调查中被访人拒绝透露、回答无效、录入人员失误遗漏。,缺失值缺失可接受的标准:10%以下, 定位输入(如果缺失的值是空白单元格)“开始”主选项 “编辑”功能区“查找和替换”下“定位条件”或者快捷键方式:“Ctrl+G,弹出“定位”对话框,然后,选择“定位条件” “空值”,确定(所有空值被一次性选中),处理缺失值的四种方法:方法一:用一个样本统计量的值(如样本均值)代替缺失值方法二:用一个统计模型计算处理的值去代替缺失值方法三:将有缺失值的记录删除,可能会导致样本量的减少方法四:将有缺失值的记录保留,仅在相应的分析中做必要 的排除。,Ctrl+Enter快捷键: 在不连续的区域
7、中一次性输入同一个数据或公式。Step 1: 按住“Ctrl”键,选择多个单元格或区域,直到选中 所有需要数据的单元格后松开“Ctrl”键,被选中的 单元格以深色显示;,Step 2: 松开“Ctrl”键后,输入需要录入的数据, 显示在最后一个选中的单元格;,Step 3: 按Ctrl+Enter快捷键,则所有选中的单元格都输 入了第二步中输入的数据。, 查找替换(如果缺失值以错误标识符出现) “开始”主选项卡的“编辑”功能区中,单击“查找和替换”。,Ctrl+F,Ctrl+H,Ctrl+G,例:查找错误标识符“#DIV/0”,并将其全部替换为“0”Step 1: 选中所有数据区域;Step
8、2: 按“Ctrl+H”快捷键,弹出“查找和替换”对话框;Step 3: 在“查找内容”和“替换为”右侧输入框中,输入相应的内容,再单击“全部替换”。,4.2.3 检查数据的逻辑错误,常见的两类逻辑错误:被调查者输入的选项不符合要求。录入错误。,IF函数,条件格式,见效快、疗效好、安全可靠、无副作用, 利用“IF函数”检查错误 IF函数的组成部分:需要判断的表达式,表达式为真时的显示值,表达式为假时的显示值。,IF函数注意事项: a: 条件表达式是用比较运算符()建立的式子,没有比较就没有判断。 b: 两个值若是数值数据可直接书写,若是文本数据则要 用双引号标记。 c: 参数里面所有用到的标点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第4章 三心二意数据处理课件 三心二意 数据处理 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1817784.html