《数据预处理》PPT课件.ppt
《《数据预处理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据预处理》PPT课件.ppt(54页珍藏版)》请在三一办公上搜索。
1、1,第2章 数据预处理,主要内容,2.1 为什么要预处理数据2.2 描述性数据汇总2.3 数据清理2.4 数据集成和变换2.5 数据归约2.6 数据离散化和概念分层产生,2,3,2.1 数据预处理的原因,正确性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability),数据质量的含义,现实世界的数据,不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。含噪声的包含错误或存在偏离期望的离群值。不一致的采用的编码或表示不同,如属性名称不同冗余的如属性之间可以相互导出,5,数据错误的不可避免性,数据输入和获得过程数据错误数据集成所
2、表现出来的错误数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右Redmen,Orr98,数据错误的危害性,高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力,7,数据预处理的形式,数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化和聚集数据归约简化数据、但产生同样或相似的结果,数据预处理的形式,小结,现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测异常数据、
3、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。,2.2 描述性数据汇总,获得数据的总体印象对于成功的数据预处理是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。动机:更好的理解数据。主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。,2.2.1 度量数据的中心趋势,算数平均值最常用分布式度量可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。sum()、count()、min()、max(),2.2.1 度量数据的中心趋势,代数度量可以通过应用
4、一个代数函数于一个或多个分布度量计算的度量。mean()、中列数整体度量必须对整个数据集计算的度量。中位数、众数,代数度量,mean():加权平均:截断均值:去掉高、低极端值得到的均值。减小极端值对均值的影响。中列数(midrange):(max+min)/2,整体度量,中位数(median):适用于倾斜的数据。近似值计算如下:设N个数值排序,若N为奇数,中位数是有序集的中间值;若N为偶数,中位数是中间两个值的平均值。例如:1,3,5,7 中位数4 1,3,5,6,7 中位数5,整体度量,众数(mode):集合中出现频率最高的值。单峰、多峰(双峰、三峰)、无众数对于适度倾斜的单峰频率曲线,有如
5、下的经验关系:,16,中位数、均值和众数,17,极差最大值与最小值之差四分位数中位数是第50个百分位数,是第2个四分位数第1个是第25个百分位数,Q1 中间四分位数极差 IQR=Q3 Q1 离群点outlier与数据的一般行为或模型不一致的数据对象盒图方差、标准差反映了每个数与均值相比平均相差的数值,2.2.2 度量数据的离散程度,度量数据的离散程度,盒图boxplot,也称箱线图从下到上五条线分别表示最小值、下四分位数Q1、中位数、上四分位数Q3和最大值盒的长度等于IRQ中位数用盒内的横线表示盒外的两条线(胡须)分别延伸到最小和最大观测值。,盒图的功能1.直观明了地识别数据集中的离群点 2.
6、判断数据集的偏态和尾重 3.比较几批数据的形状,22,直方图、分位数图、分位数-分位数图(q-q图)散布图、散布图矩阵局部回归(Loess)曲线,2.2.3 基本描述数据汇总的图形显示,直方图 Histogram,概括给定属性分布的图形方法每个矩形等宽,分位数图 Quantile Plot,观察单变量数据分布的简单有效方法,散布图scatter plot,直接观察是否存在簇(cluster),离群点等每个点对应一个坐标对,局部回归(Loess)曲线,添加一条光滑曲线到散布图,2.3 数据清理,现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理的任务:填充缺失的值,光滑噪声并识别离群点,
7、纠正数据中的不一致。,28,忽略元组人工填写空缺值使用一个全局常量填充空缺值 使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值,2.3.1 缺失值,29,分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。回归:用一个函数(回归函数)拟合数据来光滑数据。聚类:将类似的值聚集为簇。其他:如数据归约、离散化和概念分层。,噪声数据,30,分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。划分:等频、等宽光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据),噪声数据,分箱法光滑数据,Sorted data for
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据预处理 数据 预处理 PPT 课件

链接地址:https://www.31ppt.com/p-5519733.html