聚类分析算法学习报告.ppt
《聚类分析算法学习报告.ppt》由会员分享,可在线阅读,更多相关《聚类分析算法学习报告.ppt(31页珍藏版)》请在三一办公上搜索。
1、聚类分析算法 学习汇报,聚类分析概述,宁夏大学数学与计算机学院,1、什么是聚类?聚类(clustering)是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。2、与分类的不同 它要划分的类是未知的。即聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例。,聚类分析的应用,聚类分析已经广泛的用在许多应用中,包括模式识别、数据分析、图像处理以及市场研究。典型的应用:(1)商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。(2)生物学:推导植物或动物的分类,
2、活的对种群固有结构的认识。(3)WEB文档分类(4)其他:地球观测数据库中相似地区的确定各类保险投保人的分组,一个城市中不同类型、价值、地理位置房子的分组等。(5)作为其他数据挖掘算法的预处理:即先进行聚类,然后再进行分类等其他数据挖掘,宁夏大学数学与计算机学院,聚类分析的要求,宁夏大学数学与计算机学院,可伸缩性处理不同类型属性的能力发现任意形状的聚类 用于决定输入参数的领域知识最小化 处理噪声数据的能力 对于输入记录的顺序不敏感高维性基于约束的聚类可解释性和可用性,聚类分析中的数据类型,宁夏大学数学与计算机学院,聚类分析中数据类型用于度量对象间的相异度,常用的数据类型:区间标度变量二元变量标
3、称型、序数型和比例标度型变量混合类型变量,区间标度变量,宁夏大学数学与计算机学院,1、区间标度变量是一个粗略线性标度的连续度量。典型的例子包括重量和高度,经度和纬度坐标,以及大气温度。2、选择不同的度量单位(如“米”与英尺、“千克”与“磅”等)将直接影响聚类分析的结果。3、为了避免聚类分析对度量单位的依赖性,数据需要进行标准化。4、怎样将一个变量的数据标准化呢?为了实现度量值的标准化,一种方法是将原来的度量值转换为无单位的值。,度量值的标准化,宁夏大学数学与计算机学院,(1)计算平均的绝对偏差(mean absolute deviation):其中:(2)计算标准化的度量值,或(z-score
4、):,对象间的相异度计算,欧几里德距离:曼哈坦距离:明考斯基距离:,宁夏大学数学与计算机学院,聚类分析中的数据类型,宁夏大学数学与计算机学院,聚类分析中数据类型用于度量对象间的相异度,常用的数据类型:区间标度变量二元变量标称型、序数型和比例标度型变量混合类型变量,二元变量,宁夏大学数学与计算机学院,一个二元变量只有两个状态:0或者1,0表示该变量为空,1表示该变量存在。如果假设所有的二元变量有相同的权重,则得到一个两行两列的可能性表。在下面这个表中,a是对于对象i和j值都为1的变量的数目,b是对于对象I值为1而对象j的值为0的变量数目,s是对于对象c值为0而在对于对象j值为1的变量数目,d是对
5、于对象i和j的值都为0的变量的数目。变量的总数是p,p=a+b+c+d。,Object j,Object i,基于对称二元变量的相似度称为恒定的相似度,即当一些或者全部二元变量编码改变时,计算结果不会发生变化。如果二元变量的两个状态的输出不是同样重要,则该二元变量是不对称的。基于这样变量的相似度被称为非恒定的相似度。,二元变量相似度的计算,宁夏大学数学与计算机学院,聚类分析中的数据类型,宁夏大学数学与计算机学院,聚类分析中数据类型用于度量对象间的相异度,常用的数据类型:区间标度变量二元变量标称型、序数型和比例标度型变量混合类型变量,1、标称型变量 标称变量(nominal)是二元变量的推广,它
6、可以具有多于两个的状态值。例如,map-color是一个标称变量,它可能有五个状态:红色,黄色,绿色,粉红色和蓝色。两个对象和j之间的相异度可以用两种方法来计算:(1)简单匹配方法 M是匹配的数目,P是全部变量的数目(2)使用二元变量 为每一个状态创建一个新的二元变量,可以用非对称的二元变量来编码标称变量。,标称型变量,宁夏大学数学与计算机学院,一个离散的序数(ordinal)型变量类似于标称变量,除了序数型变量的个状态是以有意义的序列排序的。在计算对象的相异度时,序数型变量的处理与区间标度变量非常类似。(1)将xif 用它对应的秩代替。(2)将每个变量的值域映射到0.0,1.0上,使得每个变
7、量都有相同的权重。这通过用zif来替代rif来实现。(3)用前面所述的区间标度变量的任一种距离计算方法来计算。,序数型变量,宁夏大学数学与计算机学院,用比例标度型变量描述对象之间相异度有以下三种方法:(1)采用与处理区间标度变量相同的方法。(2)对比例标度型变量进行对数变换,如:yif=log(xif)然后再对变换得到的值按区间标度的值处理。(3)将其作为连续的序数型数据,将其秩作为区间标度的值来对待。,比例标度型变量,宁夏大学数学与计算机学院,聚类分析中的数据类型,宁夏大学数学与计算机学院,聚类分析中数据类型用于度量对象间的相异度,常用的数据类型:区间标度变量二元变量标称型、序数型和比例标度
8、型变量混合类型变量,在许多现实的数据库中,对象是被混合类型的变量描述的。一般来说,一个数据库可能包含上面列出的全部六种变量类型。用以下的公式计算i和j的相异度:其中,p为对象中的变量个数(1)如果xif或xjf缺失(即对象i或对象j没有变量f的值),或者xif=xjf=0,且变量f是不对称的二元变量,则指示项ij(f)=0;否则ij(f)=1。(2)f 是二元变量或标称变量:if xif=xjf dij(f)=0,else dij(f)=1(3)f是区间标度变量:dij(f)=|xif-xjf|/maxhxhf-minhxhf(4)f 是序数型或比例标度型:计算秩rif 计算zif并将其作为区
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 算法 学习 报告
链接地址:https://www.31ppt.com/p-6018510.html