欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第4章 三心二意—数据处理课件.ppt

    • 资源ID:1817784       资源大小:4.31MB        全文页数:69页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第4章 三心二意—数据处理课件.ppt

    第 4 章 三心二意数据处理,主要内容: 4.1、何为数据处理 4.2、数据清洗 4.3、数据加工 4.4、数据抽样 4.5、本章小结,4.1.1 数据处理原则“三心二意”,平淡、平等、平静地对待问题,诚心诚意,诚实、尊重事实。,4.1.2 数据处理的内容,数据清洗,数据加工,数据处理的内容,重复数据的处理,检查数据逻辑错误,缺失数据的处理,数据抽取,数据计算,数据分组,数据转换,多一分则肥,少一分则瘦。, 函数法:用函数识别重复数据。 高级筛选法:直接利用筛选功能筛选出非重复值。 条件格式法:以不同的颜色标识重复项。 数据透视表法:用数据透视表统计各数据出现的频次。,4.2.1 重复数据处理, 函数法(使用COUNTIF函数)criteria的形式可以是数字、条件或文本。如果是数字直接写数字,如果是条件或文本要加双引号。,EXCEL引用单元格,相对引用:引用格式形如“A1”,这种对单元格的引用是完全相对的,当引用单元格的公式被复制时,新公式引用的单元格的行列都会发生改变。,EXCEL引用单元格,绝对引用:引用格式形如“$A$1”,这种对单元格引用的方式是完全绝对的,即一旦成为绝对引用,无论公式如何被复制,对采用绝对引用的单元格的引用位置是不会改变的。,EXCEL引用单元格,绝对行引用:引用格式形如“A$1”。这种对单元格的引用位置不是完全绝对的,当引用该单元格的公式被复制时,新公式对列的引用将会发生变化,而对行的引用则固定不变。,绝对列引用:引用格式形如“$A1”。这种对单元格的引用位置不是完全绝对的,当引用该单元格的公式被复制时,新公式对行的引用将会发生变化,而对列的引用则固定不变。,EXCEL引用单元格,函数法操作步骤:,第一步:选中B2单元格,输入函数公式: =COUNTIF(A:A,A2),(显示“重复次数”)第二步:选中C2单元格,输入函数公式: =COUNTIF(A$2:A2,A2),(显示“第几次出现”), 高级筛选法step 1: 选择数据单元格区域A1:A11step 2: 数据 排序和筛选 高级 弹出“高级筛选”对话框step 3: 选择“将筛选结果复制到其他位置”,在“复制到”文本框 输入B1区域,勾选“选择不重复的记录”,单击“确定”。,高级筛选对话框的操作, 条件格式法 “开始” “条件格式” “突出显示单元格规则” “重复值” WPS表格中: 数据 “重复项” “高亮显示重复值”。把重复的数据及所在单元格标为不同的颜色。, 数据透视表法, 删除重复数据的方法方法一:通过菜单操作删除重复项。Step 1: 选择数据区域A1:A11;Step 2: “数据” “删除重复项”;Step 3: 在“列”区域下,选择要删除的列,单击“确定”。,方法二:通过排序删除重复项 利用函数识别重复数据的辅助列:第二次重复标记Step 1: 选中“第二次重复项”中的任意一个单元格;Step 2: 选择“开始”主选项卡 “编辑部分”功能区 “排序和筛选” “降序”,方法三:通过筛选删除重复项 利用函数识别重复数据的辅助列:第二次重复标记。Step 1: 选中“第二次重复项”中的任意一个单元格;Step 2: “数据” “排序和筛选” “筛选”,点一下第二次重复标记单元格中的“三角形”,弹出下拉菜单。挑出不等于1的数值,筛选后就得到非重复项了。,4.2.2 缺失数据的处理,缺失数据:是指数据集中某个或某些属性的值是不完全的。,数据缺失的原因,机械原因,人为原因,数据收集或保存失败。如数据存储的失败、存储器损坏、机械故障等,人的主观失误、历史局限、有意隐瞒。如市场调查中被访人拒绝透露、回答无效、录入人员失误遗漏。,缺失值缺失可接受的标准:10%以下, 定位输入(如果缺失的值是空白单元格)“开始”主选项 “编辑”功能区“查找和替换”下“定位条件”或者快捷键方式:“Ctrl+G,弹出“定位”对话框,然后,选择“定位条件” “空值”,确定(所有空值被一次性选中),处理缺失值的四种方法:方法一:用一个样本统计量的值(如样本均值)代替缺失值方法二:用一个统计模型计算处理的值去代替缺失值方法三:将有缺失值的记录删除,可能会导致样本量的减少方法四:将有缺失值的记录保留,仅在相应的分析中做必要 的排除。,Ctrl+Enter快捷键: 在不连续的区域中一次性输入同一个数据或公式。Step 1: 按住“Ctrl”键,选择多个单元格或区域,直到选中 所有需要数据的单元格后松开“Ctrl”键,被选中的 单元格以深色显示;,Step 2: 松开“Ctrl”键后,输入需要录入的数据, 显示在最后一个选中的单元格;,Step 3: 按Ctrl+Enter快捷键,则所有选中的单元格都输 入了第二步中输入的数据。, 查找替换(如果缺失值以错误标识符出现) “开始”主选项卡的“编辑”功能区中,单击“查找和替换”。,Ctrl+F,Ctrl+H,Ctrl+G,例:查找错误标识符“#DIV/0”,并将其全部替换为“0”Step 1: 选中所有数据区域;Step 2: 按“Ctrl+H”快捷键,弹出“查找和替换”对话框;Step 3: 在“查找内容”和“替换为”右侧输入框中,输入相应的内容,再单击“全部替换”。,4.2.3 检查数据的逻辑错误,常见的两类逻辑错误:被调查者输入的选项不符合要求。录入错误。,IF函数,条件格式,见效快、疗效好、安全可靠、无副作用, 利用“IF函数”检查错误 IF函数的组成部分:需要判断的表达式,表达式为真时的显示值,表达式为假时的显示值。,IF函数注意事项: a: 条件表达式是用比较运算符()建立的式子,没有比较就没有判断。 b: 两个值若是数值数据可直接书写,若是文本数据则要 用双引号标记。 c: 参数里面所有用到的标点符号都是英文状态下的标点 符号。 d: IF函数可以进行嵌套,最多可以有七层。,比较运算符及判断,“IF(COUNTIF(B3:H3,0)3,错误,正确)含义:如果录入的选项(非零数据)超过3个,则单元格显示“错误”,否则显示“正确”。, 利用条件格式标记错误, 利用条件格式标记错误 选中数据区域B3:H6,“开始”主选项卡 “条件格式” “突出显示单元格规格” “其他规则” 在“为符合此公式的值设置格式”文本框中输入“=OR(B3=1,B3=0)=FALSE”,4.3 数据加工,对现有字段进行抽取、计算或者转换,形成我们分析所需要的一列新的数组字段。,4.3.1 数据抽取,数据抽取:是指保留原数据表中某些字段的部分 信息,组合成一个新的字段。 字段分列:截取某一字段的部分信息。 字段合并:将几个字段合并为一个新的字段。 字段匹配:将原数据表中没有但其他数据表中有的字段,有效的匹配过来。, 字段分列1、菜单法(如将姓名分成姓和名两列)Step 1: 选择需要转换的数据区域,“数据” “分列”,弹出“文本分列向导”对话框;,Step 2: 在“文本分列向导第1步”对话框中,单击“分隔符号”,再单击“下一步”。,Step 3: 在“文本分列向导第2步”对话框中,选择所需要的分隔符号。,2、 函数法(没有特定的分隔符),例:把姓名中的姓氏截取出来。(左起第一个字符) 输入公式“=LEFT(A2,1)”, 字段合并(将文字或数字合并成一个单元格)CONCATENATE: 将数据列表中多个字符串连接成 新的的字符串。逻辑与运算符:“&”。,5、=A2&迟到&B2&次6、=A3&迟到比例为&TEXT(B3,0%)7、=CONCATENATE(A2,迟到,B2,次),1、TEXT函数的含义: Text函数表示将数值转化为自己想要的文本格式。2、TEXT函数的语法格式: =TEXT(value,format_text), 字段匹配,VLOOKUP匹配函数,Step 1: 打开需要匹配的两张表格。Step 2: 在“员工个人信息(销售部)”表格的F2单元格输入公式=VLOOKUP(B2,包含数据的区域,3,0)B2:要在表格第一列中查找的值;包含数据的区域:不需要手动输入,直接选中;3:希望返回的匹配值的列序号;0:精确匹配。Step 3: 向下拖动完成所有数据的提取。,4.3.2 数据计算, 简单计算 简单计算就是字段通过加、减、乘、除等简单的算术运算就能计算处来的。 加、减、乘、除对应的运算符“+、-、*、/”,Step 1: 在D2中输入“=B2*C2”,按回车键“Enter;Step 2: 鼠标移动到D2单元格右下角,出现填充柄“+”,双击填充柄或者按住向下拖动,会自动填充运算结果。Step 3: 自动求和。选中D7单元格,公式=SUM(D2:D6) “开始” “编辑” “自动求和” “求和”., 函数计算(复杂运算) 1、平均值与总和,2、日期的加减法 输入当前日期:=TODAY( ),年月日,Ctrl+; 输入当前时间:=NOW( ),年月日时分秒,Ctrl+Shift+; 公式插入的是动态的日期或时间; 快捷键插入的是静态的日期或时间。 DATE(year,month,day),三个参数,分别表示年月日 YEAR(),返回某日期对应的年份; MONTH(),返回月份,“112” DAY(),返回日期,“131”。,3、用函数DATEDIF计算工龄 DATEDIF(start_date,end_date,unit) 计算两个日期之间年月日的间隔数。 unit的六种形式: y: 时间段中的整年数 m:时间段中的整月数 d:时间段中的整天数 md:天数的差,忽略日期中的年和月; ym:月数的差,忽略日期中的年和日; yd:天数的差,忽略日期中的年;,时间段中所有间隔数,没有忽略,4.3.3 数据分组,Step 1: 准备一个分组对应表,用来确定分组的范围和标准; “阈值”是指每组覆盖的数据范围中的最低值, 如“5-10元”的阈值就是5; “分组”记录的是每一组的组名, 如“0-5元”; “备注”记录如何分组, 方便数据处理人员理解和识别。,Step 2: 在B2单元格中输入公式: =VLOOKUP(A2,$D$2:$E$12,2) 第四个参数逻辑值省略了1,此处默认为近似匹配。,4.3.4 数据转换, 数据表的行列互换,首先复制好数据区域,用三种方式进行选择性黏贴:第一种:“开始” “粘贴”按钮 “选择性黏贴。 第二种:快捷键Ctrl+Alt+V,第三种:直接将数据粘贴在其他区域,粘贴区域的右下角会显示“粘贴”下拉菜单图标, 多选题录入方式之间的转换 多重分类法录入的数据 二分法录入的数据,F5=IF(ISNUMBER(HLOOKUP(1,B5:D5,1,0),1,0)ISNUMBER函数:判断引用的参数或指定单元格中的值是否 为数字,其语法结构为ISNUMBER(value), 如果检验的内容为数字,将返回TRUE,否则将返回FALSE。IF函数有三个参数,语法格式:=IF(条件判断, 结果为真返回值, 结果为假返回值),SEARCH函数:返回指定字符串在原始字符串中首次出现 的位置。SEARCH(find_text, within_text, star_num)第三个参数:如果是从第一个字符开始查找时可以省略。SEARCH(1,B4):在B4单元格的字符串中查找1.,4.4 数据抽样,最常见的调查方式:普查和抽样调查。普查:对总体中的所有对象进行观察、访问与记录。抽样调查:从调查对象总体中按照随机原则选取一部分对象 作为样本进行调查分析,从而推论总体的状况。RAND( )函数:返回0,1的均匀分布随机数,而且每次计算 工作表时都返回一个新的数值。生成6070之间的随机数:“=rand()10+60”生成ab之间的随机数:“=rand()(b-a)+a”,

    注意事项

    本文(第4章 三心二意—数据处理课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开