《模式识别导论》PPT课件.ppt
《《模式识别导论》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《模式识别导论》PPT课件.ppt(53页珍藏版)》请在三一办公上搜索。
1、1,第六章 聚类分析,61 分类与聚类的区别分类:用已知类别的样本训练集来设计分类器(监督学习)聚类(集群):用事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习),2,6-2 系统聚类,系统聚类:先把每个样本作为一类,然后根据它们间的相似性和相邻性聚合。相似性、相邻性一般用距离表示(1)两类间的距离1、最短距离:两类中相距最近的两样品间的距离。,3,2、最长距离:两类中相距最远的两个样本间的距离。3、中间距离:最短距离和最长距离都有片面性,因此有时用中间距离。设1类和23类间的最短距离为d12,最长距离为d13,23类的长度为d23,则中间距离为:上式推广为一般情况:,4,4、
2、重心距离:均值间的距离5、类平均距离:两类中各个元素两两之间的距离平方相加后取平均值,5,6、离差平方和:设N个样品原分q类,则定义第i类的离差平方和为:离差平方和增量:设样本已分成p,q两类,若把p,q合为r类,则定义离差平方:,6,(2)系统聚类的算法 设参加聚类的样本共N个,先选定样本间距离和类间距离的计算公式,再按以下步骤聚类。1、假定N个样本各成一类,记作1,2,N。2、作距离矩阵D(0),因D(0)矩阵是对称的NN矩阵,我们只计算下三角部分,第i行第j列处的元素dij用i和j两样本的距离平方表示。,7,3、求D(0)的最小元素 dpqmin dij pq因此,p和 q是目前最近的两
3、类。4、把 p与 q合并成新的类,并求新类与原有其它各类间的距离。5、作下一距离矩阵D(1)。6、若分的类数已满足预先要求或全部样本已合成一类,则算法结束。否则,重复以上步骤。,8,例:有六个样本X=x1,x2,x3,x4,x5,x6其分布如下图所示:1、设全部样本分为6类,2、作距离矩阵D(0),9,3、求最小元素:4、把1,3合并7=(1,3)4,6合并8=(4,6)5、作距离矩阵D(1),10,6、若合并的类数没有达到要求,转3。否则停止。3、求最小元素:4、8,5,2合并,9=(2,5,4,6),11,6-2 分解聚类,分解聚类:把全部样本作为一类,然后根据相似性、相邻性分解。目标函数
4、 两类均值方差,N:总样本数,:1类样本数:2类样本数,,12,分解聚类框图:,13,对分算法:1、选取目标函数,把全体样品分成两类2、分别计算把x1,x2,xN并入G2类时的E值,设当xi并入G2时的E值最大,则把它并入G2得:3、再分别计算把x1,xi-1,xi+1,xN并入G2的E值,若当xj并入G2时E最大,则并入G2得:,14,4、若E(k+1)E(k),则重复上述步骤,直到某个E(K)达到最大值为止。这时最好的分类是G 1(k)共有n-k个样品,G 2(k)有k个样品。,每次分类后都要重新计算 之值。可用以下递推公式:,15,例:已知21个样本,每个样本取二个特征,原始资料矩阵如下
5、表:,16,解:第一次分类时计算所有样本,分别划到G2时的E值,找出最大的。1、开始时,目标函数,2、分别计算当x1,x2,.x21划入G2时的E值。把x1划入G2时有:利用递推公式,17,然后再把x2,.x21划入G2时对应的E值,计算出来进行比较,找出一个最大的E值。即把x21划为G2的E值最大。再继续进行第二,第三次迭代计算出E(2),E(3),如下表:,18,19,第10次迭代x1划入G2时,E最大。于是分成以下两类:,20,作业:样本 1 2 3 4 5 6 7 8 0 2 1 5 6 5 6 7 0 2 1 3 3 4 4 5 用对分法编程上机,分成两类画出图形。,21,6-3 动
6、态聚类兼顾系统聚类和分解聚类,一、动态聚类的方法概要 先选定某种距离作为样本间的相似性的度量;确定评价聚类结果的准则函数;给出某种初始分类,用迭代法找出使准则函数取极值的最好的聚类结果。,22,动态聚类框图,二、代表点的选取方法 代表点就是初始分类的聚类中心数k。凭经验选代表点,根据问题的性质、数据分布,从直观上看来较合理的代表点k;将全部样本随机分成k类,计算每类重心,把这些重心作为每类的代表点;,23,按密度大小选代表点:以每个样本作为球心,以d为半径做球形;落在球内的样本数称为该点的密度,并按密度大小排序。首先选密度最大的作为第一个代表点,即第一个聚类中心。再考虑第二大密度点,若第二大密
7、度点距第一代表点的距离大于d1(人为规定的正数)则把第二大密度点作为第二代表点,否则不能作为代表点,这样按密度大小考察下去,所选代表点间的距离都大于d1。d1太小,代表点太多,d1太大,代表点太小,一般选d12d。对代表点内的密度一般要求大于T。T0为规定的一个正数。用前k个样本点作为代表点。,24,三、初始分类和调整 选一批代表点后,代表点就是聚类中心,计算其它样本到聚类中心的距离,把所有样本归于最近的聚类中心点,形成初始分类,再重新计算各聚类中心,称为成批处理法。选一批代表点后,依次计算其它样本的归类,当计算完第一个样本时,把它归于最近的一类,形成新的分类。再计算新的聚类中心,再计算第二个
8、样本到新的聚类中心的距离,对第二个样本归类。即每个样本的归类都改变一次聚类中心。此法称为逐个处理法。直接用样本进行初始分类,先规定距离d,把第一个样品 作为第一类的聚类中心,考察第二个样本,若第二个样本距第一个聚类中心距离小于d,就把第二个样本归于第一类,否则第二个样本就成为第二类的聚类中心,再考虑其它样本,根据样本到聚类中心距离大于还是小于d,决定分裂还是合并。,25,最佳初始分类 初始分类数k的确定有时是不准确的。假设k是逐渐增加的。如图所示,准则函数下降很快,经过拐点A后,下降很慢。说明拐点附近对应的k,比较接近最佳的初始分类。就是最佳初始分类。,26,四、K次平均算法:这是一种常用的动
9、态聚类方法,修改聚类中心的准则函数为(所有样本到聚类中心的距离平方和相加)其中Gj是第j个聚类,Nj是第j个聚类中的样本数,Zj为第j个聚类的聚类中心。K均值算法的聚类准则是:聚类中心Zj的选择应使准则函数的Jj值最小。因此,令,27,上式表明,Gj类的聚类中心应选在该类样本的均值第一步:任选k个初始聚类中心Z1(l),Z2(l),.Zk(l)第二步:计算每个样本到k个聚类中心的距离,并按最近规则 归类。其中Gj(k)为聚类中心Zj(k)的样本聚类。在第k次迭代,分配各个样本x到k个聚类中心。,28,第三步:从第二步的结果,计算新的聚类中心。上面已经证明,该新聚类中心可以使准则函数的Jj值最小
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别导论 模式识别 导论 PPT 课件
链接地址:https://www.31ppt.com/p-5536718.html