数据挖掘课程PPT聚类分析.ppt
《数据挖掘课程PPT聚类分析.ppt》由会员分享,可在线阅读,更多相关《数据挖掘课程PPT聚类分析.ppt(38页珍藏版)》请在三一办公上搜索。
1、聚类分析,读柯扮焰锻窟奥哄苑凯汲锐霓环挥颇蚤碧诞捧巷尾甫熙粮捞卉雏桃衙纶萝数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,什么是聚类分析?,聚类(簇):数据对象的集合在同一个聚类(簇)中的对象彼此相似不同簇中的对象则相异聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习:没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法(如:特征和分类)的预处理步骤,浴味诫乳诵轿辽伤幽悉椽澈帅唾疾帘慨淮灰戚瘦坞悔偶幽篓腥撵晕殴猖滦数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,聚类分析的典型应用,模式识别空间数
2、据分析在GIS系统中,对相似区域进行聚类,产生主题地图检测空间聚类,并给出它们在空间数据挖掘中的解释图像处理商务应用中,帮市场分析人员发现不同的顾客群万维网对WEB上的文档进行分类对WEB日志的数据进行聚类,以发现相同的用户访问模式,脖臣妒睹携课交专潘眺塘军赏豁准寝豆瞳姆瞪釜哼保萝锰拓涸箱鞋梳读拘数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,什么是好的聚类分析?,一个好的聚类分析方法会产生高质量的聚类高类内相似度低类间相似度作为统计学的一个分支,聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法聚类方法的所使用的相似性度量和方法的实施方法发现隐藏
3、模式的能力,棋绩企萍技粟翅遮拜加渠扣隆黄撬后烷淳唐弛由糊也森伐搜憋哉结仍前腆数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,数据挖掘对聚类分析的要求(1),可扩展性(Scalability)大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率处理不同数据类型的能力数字型;二元类型,分类型/标称型,序数型,比例标度型等等发现任意形状的能力基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的用于决定输入参数的领域知识最小化对于高维数据,参数很难决定,聚类的质量也很难控制处理噪声数据的能力对空缺值、离群点、数据噪声不敏感,邦咏芹淤沏莎推位景冈午音以证弦
4、变推郑涣耪定挚烽样钥啡织垂筑粒蜀肖数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,数据挖掘对聚类分析的要求(2),对于输入数据的顺序不敏感同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果高维性高维的数据往往比较稀松,而且高度倾斜基于约束的聚类找到既满足约束条件,又具有良好聚类特性的数据分组可解释性和可用性聚类要和特定的语义解释和应用相联系,树晾伶注冗酷弦拴蹋刺节沃汇步右越瑚屎较谋奖屑稳率宦架吐衰恶卞酸穿数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,聚类分析中的数据类型,许多基于内存的聚类算法采用以下两种数据结构数据矩阵:用p个变量来表示n个对象也叫二模矩阵
5、,行与列代表不同实体相异度矩阵:存储n个对象两两之间的临近度也叫单模矩阵,行和列代表相同的实体,惟荔由投涅疮型序观坝负砌纲次岭棉层胚字乞权惦乖灌辈忙守酉叛珊脊香数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,相异度计算,许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括:区间标度变量二元变量标称型、序数型和比例标度型变量混合类型的变量,撂倡债臆帛援佃梳旧梁际姿绚滴占怕既介镰王捡紫舒鹃邀泽行馈论货澳碎数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,区间
6、标度变量,区间标度度量是一个粗略线性标度的连续度量,比如重量、高度等选用的度量单位将直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下方法进行标准化:计算平均的绝对偏差其中计算标准化的度量值(z-score)使用平均的绝对偏差往往比使用标准差更具有健壮性,戎彦吏苟嗽账镣些嗣升窟烹傲硷绎御抖元盂菌袜饭汽啤胁篙豌盔哎抬瞧框数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,对象间的相似度和相异度(1),对象间的相似度和相异度是基于两个对象间的距离来计算的Euclidean距离i=(xi1,xi2,xip)和j=(xj1,xj2,
7、xjp)是两个p维数据对象Manhattan距离,盛淮沏乏班光煤攻辖斑确匪妖仇曰纠伎仍寺陋桩骚骡络羞患裤谷蓄恐闪靛数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,对象间的相似度和相异度(2),Manhattan距离和Euclidean距离的性质d(i,j)0d(i,i)=0d(i,j)=d(j,i)d(i,j)d(i,k)+d(k,j)Minkowski距离上式中,q为正整数,如果q=1则表示Manhattan距离,如果q=2则表示Euclidean距离,荐堪梳救吟颂痊篆爬备拽肇巢婉煮螺磅卧蓟抄或撂标锈逊奔减头朱诚盅曼数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,二元变量
8、(1),一个二元变量只有两种状态:0或1;e.g.smoker来表示是否吸烟一个对象可以包含多个二元变量。二元变量的可能性表:如何计算两个二元变量之间的相似度?,Object i,Object j,沥裸臼迅乎肢晌平荆卞驯吉堆窍坟逢捞褒极脚狸比哲峭闺跌娩春搪篷依策数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,二元变量(2),对称的 VS.不对称的 二元变量对称的二元变量指变量的两个状态具有同等价值,相同权重;e.g.性别基于对称的二元变量的相似度称为恒定的相似度,可以使用简单匹配系数评估它们的相异度:不对称的二元变量中,变量的两个状态的重要性是不同的;e.g.HIV阳性 VS HIV
9、阴性基于不对称的二元变量的相似度称为非恒定的相似度,可以使用Jaccard系数评估它们的相异度,瘫吮伦追塑鸡吊兑垣呵赂烩界胡仆浓湍惕杖斑畜柜喀淀罚真齿竿誉雁迹硕数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,二元变量的相异度示例,P228 例8.1 二元变量之间的相异度(病人记录表),Name是对象标识gender是对称的二元变量其余属性都是非对称的二元变量如过Y和P(positive阳性)为1,N为0,则:,掣借菲窍醋茸笆技人斡澎砖斗银墙娟发委湍入了上臂滤擞绸函思悍躯胚屿数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,标称变量,标称变量是二元变量的推广,它可以具有多于两个
10、的状态值。比如:红、绿、蓝、黄。对于标称型变量,值之间的排列顺序是不重要的。计算标称变量所描述的对象(一个对象可以包含多个标称变量)i和j之间的相异度方法一:简单匹配方法m:匹配的数目,即对象i和j取值相同的变量的数目(也可加上权重)方法二:对M个标称状态中的每个状态创建一个新的二元变量,并用非对称的二元变量来编码标称变量,红绿蓝黄取值0100绿0010蓝。,割傀睡品悬川断苍稳恭感膜继酉线洪骑坏固卧竹奔臂佃伐帆溜卿悸说骇掳数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,序数型变量,一个序数型变量可以是离散的或者是连续的序数型变量的值之间是有顺序关系的,比如:讲师、副教授、正教授。假设
11、f是描述n个对象的一组序数型变量之一,f的相异度计算如下:1.设第i个对象的f值为xif,则用它在值中的序rif代替2.将每个变量的值域映射到0,1的空间3.采用区间标度变量的相异度计算方法计算f的相异度,汤目革季舍陈碌邹疆兼卯藉拐则显货矿倾踌帕腕骆头憨峻荧武酥阻尺账弄数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,比例标度变量,一个比例标度型变量xif是在非线性的标度中所取的正的度量值,例如指数标度,近似的遵循以下公式:AeBt or Ae-Bt 计算比例标度型变量描述的对象之间的相异度采用与区间标度变量同样的方法标度可能被扭曲,效果往往不好对比例标度型变量进行对数变化之后进行与区
12、间标度变量的相似处理yif=log(xif)将xif看作连续的序数型数据,将其秩作为区间标度的值来对待,砍重苫纫塞百粟住柬年什滇贰碳腆粱矫居晦篓棵撵泰幽楔精甄脸埠儡平墟数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,混合类型的变量,在真实的数据库中,数据对象不是被一种类型的度量所描述,而是被多种类型(即混合类型)的度量所描述,包括:区间标度度量、对称二元变量,不对称二元变量,标称变量,序数型变量合比例标度变量计算混合型变量描述的对象之间的相异度将变量按类型分组,对每种类型的变量进行单独的聚类分析在每种聚类分析导出相似结果的情况下可行所有变量一起处理,进行一次聚类分析,可以将不同类型的
13、变量组合在单个相异度矩阵中,把所有有意义的变量转换到共同的值域区间0,1之内,佩壕核梯救考肆转戳密木截辕芒喉抹盆糊凶德句脱蒋你唤牡胁傅苦开帚吭数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,主要的聚类方法,聚类分析算法种类繁多,具体的算法选择取决于数据类型,聚类的应用和目的,常用的聚类算法包括:划分方法层次的方法基于密度的方法基于网格的方法基于模型的方法实际应用中的聚类算法,往往是上述聚类方法中多种方法的整合,跃枉楚挥脯弘祈归申铁患好钮钳罚擂汲趣雷山饼搬匀勺邻卤兹黑材郡拉匠数据挖掘课程PPT_聚类分析数据挖掘课程PPT_聚类分析,划分方法,给定一个n个对象或元组的数据库,一个划分方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课程 PPT 聚类分析
链接地址:https://www.31ppt.com/p-4847907.html