模式识别-Ch8-非监督学习方法.ppt
《模式识别-Ch8-非监督学习方法.ppt》由会员分享,可在线阅读,更多相关《模式识别-Ch8-非监督学习方法.ppt(60页珍藏版)》请在三一办公上搜索。
1、第八章 非监督学习方法,2,主要内容,1.引言2.单峰子集(类)的分离方法3.类别分离的间接方法4.分级聚类方法,3,1.引言,4,引言,有监督学习(supervised learning):分类器设计方法是在样本集中的类别标签已知的条件下进行的,这些样本称为训练样本。在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计。用已知类别的样本训练分类器,以求对训练集的数据达到某种最优,并能推广到对新数据的分类。,5,无监督学习(unsupervised learning):样本数据类别未知,需要根据样本间的相似性对样本集进行
2、分类(聚类,clustering),试图使类内差距最小化,类间差距最大化。利用聚类结果,可以提取数据集中隐藏的信息,对未来数据进行预测和分类。应用于数据挖掘、模式识别、图像处理、经济学,引言,6,广泛的应用领域,商务:帮助市场分析人员从客户信息库中发现不同的客户群,用购买模式来刻画不同的客户群的特征土地使用:在地球观测数据库中识别土地使用情况相似的地区保险业:汽车保险单持有者的分组,标识那些有较高平均赔偿成本的客户。城市规划:根据房子的类型,价值和地理分布对房子分组生物学:推导植物和动物的分类,对基因进行分类地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类。,7,有监督学习与无监督
3、学习的区别,有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;而非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。有监督学习方法的目的就是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据集本身,预先没有什么标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号对上号为目的。,8,无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广泛。譬如分析一堆数据的主分
4、量,或分析数据集有什么特点都可以归于无监督学习方法的范畴。用无监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学习方法。因此用K-L变换找主分量不属于无监督学习方法,即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法。,有监督学习与无监督学习的区别,9,无监督学习方法的分类,基于概率密度函数估计的方法:指设法找到各类别在特征空间的分布参数再进行分类。基于样本间相似性度量的方法:直接按样本间的相似性,或彼此间在特征空间中的距离长短进行分类。其原理是设法定出不同类别的核心,然后依据样
5、本与这些核心之间的相似性度量,将样本聚集成不同类别。如何聚类则取决于聚类的准则函数,以使某种聚类准则达到极值为最佳。两种聚类方法:迭代的动态聚类方法和非迭代的分级聚类方法,10,2.单峰子集(类)的分离方法,11,思想:把特征空间分为若干个区域,在每个区域上混合概率密度函数是单峰的,每个单峰区域对应一个类别。,【基本思想】,12,直接方法,一维空间中的单峰分离:对样本集KN=xi应用直方图/Parzen窗方法估计概率密度函数,找到概率密度函数的峰以及峰之间的谷底,以谷底为阈值对数据进行分割。,【一维空间中的单峰子集分离】,13,【多维空间投影方法】,基本思路:多维空间中直接划分成单峰区域比较困
6、难,而一维空间中则比较简单。寻找一个坐标系统,在该系统下,数据的混合概率密度函数可以用边缘概率密度表示。如果某边缘概率密度函数呈现多峰形式,则在此坐标轴上(一维)作分割。做法:把样本投影到某一一维坐标轴(按某种准则),在这一维上求样本的概率密度(边缘概率密度),根据这一概率密度函数的单峰划分子集。(如果这一维上只有一个峰,则寻找下一个投影方向。),投影方向:使方差最大的方向,即协方差阵本征值最大的本征向量方向。,14,【投影方法】,基本步骤,15,问题:这样投影有时并不能产生多峰的边缘密度函数-方差最大的准则有时并不一定最有利于聚类。,【存在问题】,失败的例子,16,3.类别分离的间接方法,1
7、7,【引言】,回顾:直接方法:1.估计概率密度函数 困难2.寻找密度函数中的单峰间接方法:考查样本这间的相似性,根据相似性把样本集划分为若干子集,使某种表示聚类质量的准则函数最优。,18,【引言】,相似性度量:以某种距离定义直观理解:同一类的样本的特征向量应是相互靠近的。前提:特征选取合理,能反映所求的聚类关系。,与基于密度函数的方法的关系:概念上相互关联,因密度估计也是在样本间距离的基础上的。具体关系取决于具体数据情况。,19,动态聚类方法的任务:将数据集划分成一定数量的子集,例如将一个数据集划分成三个子集,四个子集等。因此要划分成多少个子集往往要预先确定,或大致确定,这个子集数目在理想情况
8、下能够体现数据集比较合理的划分。需要解决的问题:怎样才能知道该数据集应该划分的子集数目 如果划分数目已定,则又如何找到最佳划分。因为数据集可以有许多种不同的划分方法,需要对不同的划分作出评价,并找到优化的划分结果。由于优化过程是从不甚合理的划分到“最佳”划分,是一个动态的迭代过程,故这种方法称为动态聚类方法。,【动态聚类方法】,20,对计算机来说,所确定的初始代表点很可能不甚合理,以至于影响到聚类的结果。这就需要有一个对聚类的结果进行修改或迭代的过程,使聚类结果逐步趋向合理。迭代的过程需要一个准则函数来指导,使迭代朝实现准则函数的极值化方向收敛。,聚类过程:从确定各聚类的代表点开始(比如,确定
9、三个质心点)按各样本到三个质心最短距离将样本分到该类,【动态聚类方法】,21,三个要点选定某种距离度量作为样本间的相似性度量;确定样本合理的初始分类,包括代表点的选择,初始分类的方法选择等;确定某种评价聚类结果质量的准则函数,用以调整初始分类直至达到该准则函数的极值。,【动态聚类方法】,22,1.准则函数误差平方和准则 这个准则函数是以计算各类均值,与计算各类样本到其所属类别均值点误差平方和为准则。,反映了用c个聚类中心代表c个样本子集所带来的总的误差平方和。,目标:最小化Je,即类内元素相似性高,类间元素相似性低,实现最小方差划分。,【C均值算法】,23,2.样本集初始划分初始划分的一般作法
10、是先选择一些代表点作为聚类的核心,然后把其余的样本按某种方法分到各类中去。代表点的几种选择方法:凭经验选择代表点。根据问题的性质,用经验的办法确定类别数,从数据中找出从直观上看来是比较合适的代表点。将全部数据随机地分为C类,计算各类重心,将这些重心作为每类的代表点。,【C均值算法】,24,“密度”法选择代表点。这里的“密度”是具有统计性质的样本密度。一种求法是对每个样本确定大小相等的邻域(如同样半径的超球体),统计落在其邻域的样本数,称为该点“密度”。在得到样本“密度”后,选“密度”为最大的样本点作为第一个代表点,然后人为规定距该代表点一定距离外的区域内找次高“密度”的样本点作为第二个代表点,
11、依次选择其它代表点,使用这种方法的目的是避免代表点过分集中在一起。用前c个样本点作为代表点,【C均值算法】,25,从(c-1)聚类划分问题的解中产生C聚类划分问题的代表点。其具体做法:对样本集首先看作一个聚类,计算其总均值,然后找与该均值相距最远的点,由该点及原均值点构成两聚类的代表点。依同样方法,对已有(c-1)个聚类代表点(由(c-1)个类均值点组成)找一样本点,使该样本点距所有这些均值点的最小距离为最大,这样就得到了第c个代表点。,【C均值算法】,26,【动态聚类】,初始分类方法:1.最近距离法。离哪个代表点近就归入哪一类。2.最近距离法归类,但每次都重新计算该类代表点。3.直接划分初始
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 Ch8 监督 学习方法
链接地址:https://www.31ppt.com/p-6585325.html