欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    《数据清洗技术》PPT课件.ppt

    • 资源ID:5519612       资源大小:377.50KB        全文页数:35页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据清洗技术》PPT课件.ppt

    数据清理技术,冯国双 中国疾控中心卫生统计室,数据清洗,从数据收集结束,到统计分析之前,需要对数据做的清理工作,数据清洗,数据双录入对比数据合并查找重复值查找缺失值查找异常值,双录入对比,Excel用到的函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)exact函数比较两个文本是否相同exact(比较文本1,比较文本2)offset函数返回给定偏移量的新区域offset(参照区域,行,列),双录入对比,small(数据区域,第几小)计算单元格范围的第几小的数值Column()返回单元格所在号Row()返回单元格所在行号,双录入对比,SAS命令:proc compare;by 变量1 变量2;run;,双录入对比,proc compare语句调用数据比较过程,选项base和compare分别指定两个比较和被比较的数据集;nosummary的作用是不显示一些概括性的结果。by语句指定的变量有点类似于索引的作用,通常指定id号。如果两个数据集的观测数不同,利用by语句可以保证它们比较的仍然是同一个id号,而不会出现错位比较的情况。,双录入对比,data a1;input id g gender age marriage height weight nation;cards;(数据);data a2;input id g gender age marriage height weight nation;cards;(数据);proc compare base=a1 compare=a2 nosummary;run;,双录入对比,双录入对比,查找缺失值,Excel函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)exact函数比较两个文本是否相同exact(比较文本1,比较文本2)offset函数返回给定偏移量的新区域offset(参照区域,行,列),查找缺失值,small(数据区域,第几小)计算单元格范围的第几小的数值Column()返回单元格所在号Row()返回单元格所在行号,查找缺失值,SAS可用missing函数实现如果结合数组和自动变量,可以一次性实现所有变量缺失值的输出,查找缺失值,data a1;input id g gender age marriage height weight nation;miss_g=missing(g);miss_gender=missing(gender);miss_age=missing(age);miss_marriage=missing(marriage);miss_height=missing(height);miss_weight=missing(weight);miss_nation=missing(nation);cards;(数据);proc print;run;,查找缺失值,部分结果,查找缺失值,利用数组和自动变量data missing;set a;array cha*_character_;do i=1 to dim(cha);if missing(chai)then output;end;array num*_numeric_;do i=1 to dim(num);if missing(numi)then output;end;drop i;proc print;run;,查找缺失值,缺失值结果,查找重复值,Excel函数:countif(计数区域,条件)根据指定条件,在计数区域内计数,查找重复值,SAS命令:proc sort;by 变量1 变量2;run;,查找重复值,proc sort语句调用排序过程。选项out=数据集指定排序后的数据集名。因为排序后数据发生了变化,因此可指定该选项将排序后的数据存放到一个新的数据集中。如果不加该选项,排序后的数据集将覆盖原有数据集,这样你就找不回原有的未排序的数据了。选项nodupkey表示如果by语句指定的排序变量有重复值,则删除重复值。如按id排序,如果id有重复值,则只保留重复值中的第一个值,删除其它值。选项nouniquekey的作用跟nodupkey正好相反,如果by语句指定的排序变量都是唯一值,则将其删除。如按id排序,如果id没有有重复值,则全部删除。,查找重复值,by语句指定排序的变量,可以指定多个。选项descending表示按降序排序,如果不加该选项,默认的是按升序排序。当需要查找重复值时,by语句指定的变量就是需要查找的重复值变量。,查找重复值,data a1;input id g gender age marriage height weight nation;cards;(数据);proc sort nouniquekey out=bb;by genderage marriage height weight;run;proc print data=bb;run;,查找重复值,5个变量均重复的观测,查找异常值,Excel函数:If函数If(判断条件,条件满足返回值,条件不满足返回值)结合各种算术运算符、比较运算符、逻辑运算符等,查找异常值,常见运算符,查找异常值,SAS可用if语句或where语句结合各种运算符来查找异常值,查找异常值,SAS中的常见运算符,查找异常值,data a1;input id g gender age marriage height weight nation;cards;(数据);data b1;set a1;if(gender not in(1,2)|(age=60)|(height=200)|(weight=100)|(marriage not in(1,0)|(nation not in(1,2);proc print;run;,查找异常值,查找异常值,data b2;set a1;if(gender not in(1,2,.)|(age=.and(age=60)|(height=.and(height=200)|(weight=.and(weight=100)|marriage not in(1,0,.)|nation not in(1,2,.);proc print;run;,查找异常值,查找异常值,data gender(where=(gender not in(1,2,.)age(where=(not missing(age)and(age=50)marriage(where=(marriage not in(1,0,.)height(where=(not missing(height)and(height=200)weight(where=(not missing(weight)and(weight=100)nation(where=(nation not in(1,2,.);set a1;run;,查找异常值,proc print data=gender;var id gender;proc print data=age;var id age;proc print data=marriage;var id marriage;proc print data=height;var id height;proc print data=weight;var id weight;proc print data=nation;var id nation;run;,查找异常值,gender heightage weightmarriage,一舟春风钓长河,两岸翠绿荡山歌。疑临陶翁忘返处,却是冯君信手乐。盆景 冯国双配诗 陈景武,

    注意事项

    本文(《数据清洗技术》PPT课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开