模式识别中聚类分析算法综述(论文).doc
毕业设计 (论文)模式识别中聚类分析算法综述院 别专业名称信息与计算科学班级学号学生姓名指导教师2013年06月10日 模式识别中聚类分析算法综述摘 要聚类分析是将数据分类到不同的类或者簇的过程,聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。本文对模式识别中聚类分析算法进行了综述,主要论述了顺序算法、层次算法和基于代价函数最优的聚类算法,其中层次算法分为合并算法和分裂算法,其中合并算法又包括最短距离法、最长距离法、中间距离法、重心法、类平均距离法;而基于代价函数最优的聚类算法则分为K均值算法和迭代自组织的数据分析算法。本文首先介绍了聚类算法的应用范围及其意义,并对聚类算法的基本分类进行了简单介绍,同时对可能聚类的数量进行了阐述。之后,详细介绍了上述各类算法的算法思想及其具体的实现步骤,并在顺序算法一章中给出了BSAS算法的改进,并运用MATLAB对层次算法和基于代价函数最优的聚类算法中的几个具体算法进行了代码实现,通过对样品图片的识别分类认识了聚类算法的具体应用,并且认识到了几类算法各自的特点。其中,层次算法中的五个算法实现步骤较为简单,但在其实现过程中需要输入一个合适的阈值,阈值的大小直接影响最后的结果,而且相同的阈值,不同的算法可能得到不同的结果。而K均值算法的实现结果则与阈值无关,只需定义迭代次数和类中心个数。与之相比,ISODATA算法则具有自组织性,会在计算过程中不断调整类中心的个数。关键词: 聚类分析,顺序算法,层次算法,基于代价函数最优的聚类算法The Overview of Pattern Recognition Clustering AlgorithmAuthor:Whuenkmnkn Tutor:CnunnknhcfjujAbstractCluster analysis is a data classification into different classes or clusters in the process, Cluster analysis is an exploratory analysis, in the classification process, people do not give a classification criterion in advance, cluster analysis to the data from the sample starting, automatic classification. From a practical perspective, Cluster analysis is one of the main tasks of data mining. Moreover clustering can be used as a separate tool to obtain the distribution of the data, observe characteristics of the data in each cluster and make a further analysis on particular clustered sets. Cluster analysis can also be used as other algorithms (such as classification and qualitative induction algorithm) preprocessing step.In this paper, clustering algorithms in pattern recognition are reviewed, mainly discussing the sequential algorithm, hierarchical algorithms and clustering algorithm based on cost function optimization. Hierarchical algorithm is divided into division algorithm and merging algorithm, which also includes the shortest distance algorithm, the longest distance algorithm, the middle distance algorithm, center of gravity algorithm, the class average distance algorithm; while the clustering algorithm based on cost function optimization is divided into K-means algorithm and iterative self-organizing data analysis algorithms. At first this paper describes the application of clustering algorithm and its significance, and give a brief introduction of the basic clustering algorithm, while the possible number of clusters are described. And then the algorithm ideas and concrete steps to achieve of various algorithms above are detailed. At the same time, the improved BSAS algorithm is gave in the chapter about the sequential algorithm and several specific algorithms in the hierarchical clustering algorithm and the algorithm based on cost function optimization are coded by MATLAB. Through identifying sample images, I get to know the specific application and the characteristics of different clustering algorithms. The five specific hierarchical algorithms are easy to achieve by several simple steps, while its implementation process need to enter an appropriate threshold value. The threshold value directly affects the final clustering results and different algorithms may produce different results with the same threshold value. While the results of K-means algorithm is independent of the threshold, simply define the number of iterations and the number of cluster center. In contrast, ISODATA algorithm is self-organization and will adjust the number of cluster center continuously during the calculation process.Key Words: Cluster Analysis, Sequential Algorithm, Hierarchical Algorithm, Clustering Algorithm Based on Cost Function Optimization目 录1 绪论11.1 课题背景及意义11.2 聚类算法的种类11.3 可能聚类的数量22 聚类算法:顺序算法42.1 基本顺序算法方案描述42.2 聚类数的估计52.3 BSAS的改进62.4 改进阶段73 聚类算法:层次算法93.1 合并算法93.1.1 最短距离法103.1.2 最长距离法113.1.3 中间距离法123.1.4 重心法123.1.5 类平均距离法133.2 分裂算法144 聚类算法:基于代价函数最优的聚类算法164.1 K均值算法164.2 迭代自组织的数据分析算法16结 论19致 谢20参考文献21附 录 A22附 录 B261 绪论将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的1。1.1 课题背景及意义聚类分析的应用范围很广,常常应用于商业,生物,地理,保险行业,因特网和电子商务等领域。例如,在商业中,聚类分析既可以被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征,也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理;在生物领域,聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识;在保险行业,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组等等。所以,研究聚类分析的相关算法对于我们以后在各个领域中解决问题显得十分必要。1.2 聚类算法的种类聚类算法可以视为:通过考虑包含在X中的所有可能划分集合的一小部分,就可以得到可判断聚类的方案,这个结果依赖于使用的算法和准则。因此,聚类算法是一个试图识别数据集合聚类的特殊性质的学习过程。聚类算法主要包括以下几种2。(1)顺序算法(Sequential algorithm):这些算法产生一个独立的聚类,它们是非常直接和快速的算法。这种算法的大多数都至少将所有特征向量使用一次或几次(一般不超过五六次),最后的结果依赖于向量参与算法的顺序。这种方法会产生致密和超球面或超椭圆面形状的聚类(取决于使用的距离度量)。(2)层次聚类算法(Hierarchical clustering algorithm):这种方法被进一步分为1、合并算法(Agglomerative algorithm)。这些算法会在每一步产生减少聚类数量的聚类序列,聚类生成的结果都来自于前一步的两个聚类的合并。合并算法的典型代表是单一和完全连接算法。合并算法被进一步分为由矩阵理论得到的算法和由图形理论得到的算法,这些算法适用于长轴聚类(用单一链接算法)和致密聚类(用完全链接算法)。2、分裂算法(Divisive algorithm)。这种算法的原理与合并算法的原理相反,在每一步产生增加聚类数量的聚类序列。在每一步聚类产生的结果都是将前一步的一个聚类分裂成两个得到的。(3)基于代价函数最优的聚类算法(Clustering algorithms based on cost function optimization):这种方法用代价函数J来量化可判断性,通常聚类数量是固定的。这种算法用微分学概念,通过最优J产生连续的聚类,当J的局部最优确定时,算法才结束。这种类型的算法也称为迭代函数最优方法,这类算法又可细分为1、硬或脆聚类算法(Hard or crisp clustering algorithm)。其中一个向量绝对属于特定聚类。根据选择的最优准则,以最优分类将向量分到各个聚类中。这种类型中最著名的算法是Isodata或者Lloyd算法。2、概率聚类算法(Probabilistic clustering algorithm)。它是硬聚类算法的特例,采用贝叶斯分类方法,并且每个向量被分到使最大的聚类中,通过适当地定义优化任务完成概率估计。3、模糊聚类算法(Fuzzy clustering algorithm)。在这种算法中,向量属于超过特定阈值的聚类。4、可能聚类算法(Possibilistic clustering algorithm)。在这种情况下,我们测量向量属于聚类的可能性。5、边界检测算法(Boundary detection aigorithm)。不同于用向量本身来确定聚类,这些算法迭代调整聚类的边界。这些算法虽然包括了代价函数优化原理,但它们与以上算法有本质的区别。前述所有算法使用聚类表达,目的是用最优方法来确定局部空间,相反地,边界检测算法则是寻找聚类间边界最优放置的方法。(4)其他算法:最后一类包括一些特殊的聚类技术,这些技术不能归结到上述任何一类中。这些算法主要有分支和约束聚类算法(Branch and bound clustering algorithm)、遗传聚类算法(Genetic clustering algorithm)、随机松弛算法(Stochatic relaxation method)、竞争学习算法(Competitive learning algorithm)等。1.3 可能聚类的数量给定时间和资源,将集合中的特征向量分到聚类中的最好方法是识别所有可能的划分,并根据事先确定的准则选择可判断的聚类。然而,对于中等值这都是不可能的。令表示将个向量聚类到组的所有可能结果。由定义可能,聚类不可能是空的,很明显需要满足下列条件:(1)(2)(3)令表示个向量分到类的所有可能,其中。第个向量(1)或者添加到的任一个成员的聚类中(2)或者对的每个成员形成一个新聚类因此可以得出 (1.1)式(1.1)的解就是所谓的第二类的Stirling数量 (1.2)显然,如果聚类固定,则这种计算是有效的。如果不是这种情况,则需要对所有可能的值计算所有可能的聚类。由上面的分析可知,即使对于中等值,评估所有的聚类来寻找最可判断的一个也是不现实的。例如,如果要评估100个对象分到5类的所有可能类聚,用计算机计算每个聚类要用秒,大约需年之后才会得到最可判断的聚类2。2 聚类算法:顺序算法2.1 基本顺序算法方案描述令表示从向量到聚类的距离(或不相似性),这种定义既考虑了中所有的向量,也考虑了它的表达向量。这个算法方案需要用户定义参数的不相似性阈值和允许的最大聚类数。算法的基本思想如下:由于要考虑每个新向量,根据向量到已有聚类的距离,将它分配到一个已有聚类中,或者一个新生成的聚类中。设由算法生成的聚类数为,那么这个算法方案可以描述如下2。基本顺序算法方案(BSAS) - * *- * *如果必要,更新向量表达- 选择不同的会产生不同的算法。当由一个单向量表达时,变为其中是的表达。在以均值向量为表达的情况下,更新会以迭代形式出现,即其中是将分到该聚类后的势,()是将分到该聚类后的表达。不难看出,这些向量在BSAS中的顺序非常重要。无论是聚类的数量还是聚类本身,不同的顺序会导致完全不同的聚类结果。另一个影响聚类算法结果的重要因素是阈值的选择,这个值直接影响由BSAS产生的聚类数量。如果选得太小,会生成不必要的聚类:另一方面,如果选得太大,则聚类的数量又会不够。在这两种情况下都不会生成最适合数据集的聚类数量。2.2 聚类数的估计本节介绍一种确定聚类数的简单方法,该方法适用于BSAS,也适用于其它算法,其聚类数不是输入参数。下面,指具有给定不相似阈值的BSAS算法。FOR = a to b step c-算法执行s次,每一次都用不同的顺序表示数据。-估计聚数类,作为从s次算法得出来的最常出现的聚类数。Nexta值和b值是X的所有向量对的最小和最大不相似级别,即,。c的选择直接受的影响。s值越大,统计采样就越大,因此,结果的精度就越高。接下来,画出聚类数与的关系图。该图有一定数量的平坦区域。我们估计聚类数将对应最宽的平坦区域。至少对于分离性很好的致密聚类情况,这个聚类数是理想的。下面直观地解释这个参数。假设数据形成两个分离性很好的致密聚类和。的两个向量间的最大距离是,并且假设。另是所有距离中的最小值,这里,且。很明显,对于,由BSAS得到的聚类数是2。另外,如果,区间很大,因此在与关系图中对应着一个很宽的范围。在上述过程中,隐含假设了特征向量确实能够组成聚类。如果不是这种情况,这种方法就没有用了。如果向量是致密聚类,但是分离得不好,这种方法给出的结果是不可靠的,因为与的图中不可能包含宽的平坦区域。在有些情况下,应该考虑在与图中比较大的平坦区域对应的所有聚类数。例如,如果有三个聚类,前两个很近,而远离第三个,最平坦区域的聚类数可能是=2,次平坦区域的聚类数可能是= 3.如果放弃次平坦的区域,就会丢掉三个聚类的解决方法。2.3 BSAS的改进已经讲过,BSAS的基本思想是每个输入向量x被分配到已有聚类或新形成的聚类中。因此,对于x的分配是在最后的聚类形成之前决定的,而最后的聚类是在所有的向量都处理后才形成的。下面介绍克服了这个缺点的BSAS,称之为改进的BSAS(MBSAS),这种改进的代价是X的向量必须参与算法两次。算法包括两个阶段,第一阶段是将X的一些向量分配到聚类中来形成类;在第二阶段中,没有被分配的向量第二次参与算法,并分配到合适的类中。MBSAS具有形式如下。聚类的确定-For i = 2 to N-Find -If()AND(m < q)then*m = m+1*-EndifEndFor模式分类For i = 1to N-如果没有分配到一个聚类中,那么 *Find *如果必要,更新向量表达-EndifEndFor聚类数在第一阶段确定,然后不许改变。因此,在第二阶段,对每个向量做决定时,都要考虑所有的聚类。同BSAS情况一样,MBSAS也对向量参与算法的顺序敏感。另外,因为MBSAS在数据集X上执行两遍(每个阶段一遍),按预期,它的速度应该慢于BSAS。但是,它的时间复杂度应该与BSAS处在统一数量级上,用O(N)表示。最后必须指出,在改进之后,当使用相似性测度时,也可以使用MBSAS。2.4 改进阶段在所有上述算法中,可能出现两个聚类的位置离得很近的情况,把它们合并成一类是最理想的。对这种情况。上述所有算法都无能为力。解决这种问题的方法是在上述过程结束后,执行下面的合并过程。合并过程找到,(i < j),使If then-把,合并为,并删除-更新的聚类表达-分别将聚类命名为-m = m-1-Go to(A)Else-StopEndIf是用户定义的参数,用来量化和两个聚类之间的接近程度。顺序算法的另一个缺点是对向量表达顺序的敏感性。例如,使用BSAS时,被赋给第一个聚类,算法结束之后,形成4个聚类。可是有可能更接近不同于的另外一个聚类,然而,对于,一旦赋给一个聚类,就没有办法将它移到另一个离它更近的聚类。解决这个问题的最简单的办法是用下面的重分配过程:重分配过程For i = 1 to N-找到使得-令b(i) = jEndForFor j = 1 to m-令-更新表达EndFor在这个过程中,b(i)指示离最近的聚类。这个过程可在算法结束后应用,如果需要合并过程,就要在合并过程结束之后使用。3 聚类算法:层次算法层次聚类算法与顺序聚类算法有所不同。具体地说,它不产生单一聚类,而是产生层次聚类。层次算法通常应用于社会科学和生物学等领域。另外,其它领域也会用到这种算法,包括现代生物学、医学和考古学。计算机科学与工程领域也经常应用层次聚类算法2。在描述基本思想之前,假设是将要聚类的l维向量集。层次聚类算法产生一个嵌套聚类的层次。更具体地说,这些算法包含N步,与数据向量的数量一样多。在第t步,要在前t-1步的聚类基础上生成新聚类。有两种不同的算法:合并和分裂层次算法。合并算法中,初始聚类由N个聚类组成,每个聚类仅包含X中的一个元素。第一步生成聚类,它包含N-1个集合,如。重复此过程直到产生最后一个聚类,它只包含一个单个的聚类集合,即数据集X。因而得到聚类的层次为分裂算法与合并算法的思路恰好相反。在这种算法中,初始聚类仅包括一个集合X。第一步产生聚类,它由个集合组成,如。重复此过程直到产生最后一个聚类,它包含N个集合,每个集合仅包含X中的一个元素,在这种情况下可得3.1 合并算法令为所有可能的X聚类对的函数,此函数用于测量和之间的近邻性,用t表示当前聚类的层次级别。因此,通用合并方法为通用合并方法初始化 -选择作为初始聚类。 -令t = 0.重复执行下列步骤: -t = t + 1-在的所有可能聚类对中找一组,满足 -定义并产生新聚类。直到所有向量全被加入到单一聚类中。很明显,采用此方法可以构造N个聚类的一个层次,每个聚类嵌套在它的后继聚类中,即对于, = 1,N-1,有。另外,如果两个向量一起加入t层次的同一聚类中,我们认为它们的后继聚类相同。这是检验嵌套性质的另一种方法。嵌套性质的缺点是不能从一个“坏”聚类中恢复,“坏”聚类可能产生在更早的层次上。在层次t上,有N-t个聚类。为了确定t+1层上要合并的聚类对,必须考虑个聚类对。这样,聚类过程总共要考虑的聚类对数量为也就是说,整个合并算法的全部运算在数量级上。此外,算法的复杂度与g的定义有关。3.1.1 最短距离法最短距离法认为,只要两类的最小距离小于阈值,就将两类合并成一类。定义为类中所有样品和类中所有样品间的最小距离,即式中,表示类中的样品U与类中的样品V之间的距离。若类是由,两类合并而成的,则,递推可得最短距离法的实现步骤如下(1) 获得所有样品特征。(2) 输入阈值T(计算所有样品距离的最大值与最小值,输出,作为阈值的参考)。(3) 将所有样品各分一类,聚类中心数centerNum = 样品总数patternNum,m_pattern(i).category = i;m_center(i).feature = m_pattern(i).feature。(4) 对所有样品循环:找到距离最近的两类、,设距离为minDis。若minDis T,则合并、,将类号大的归入到类号小的类中,调整其他类保持类号连续。否则minDis > T,即两类间的最小距离大于阈值,则退出循环。最短距离法的编程代码详见附录B。3.1.2 最长距离法在最长距离法中,两类中的所有样品间的距离必须都小于阈值,才能将两类合并。定义为类中所有样品和类中所有样品间的最大距离,则有其中表示类中的样品U与类中的样品V之间的距离。若类是由,两类合并而成,则,递推可得最长距离法的实现步骤如下(1) 获得所有样品特征。(2) 输入阈值T(计算所有样品距离的最大值与最小值,输出,作为阈值的参考)。(3) 将所有样品各分一类,聚类中心数centerNum = 样品总数patternNum,m_pattern(i).category = i;m_center(i).feature = m_pattern(i).feature。(4) 对所有样品循环:计算所有聚类中心间的距离,两类间的距离等于两类间样品的最大距离maxDis。取所有maxDis中的最小值。设类和类的距离最小,为minDis。若minDis T,则将类号较大的类归入类号较小的类,重新排序类号,centerNum = centerNum-1.否则minDis > T,即所有类间距离均大于阈值,则退出循环,归类完成。最长距离法的编程代码详见附录B。3.1.3 中间距离法最短距离法和最长距离法采用的是分类距离的两个极端。中间距离法则介于两者之间,若类由,两类合并而成,则,两类的中间距离定义为 (3.1)中间距离法的实现步骤如下(1) 获得所有样品特征。(2) 输入阈值T(计算所有样品距离的最大值与最小值,输出,作为阈值的参考)。(3) 将所有样品各分一类,聚类中心数centerNum = 样品总数patternNum。m_pattern(i).category = i;m_center(i).feature = m_pattern(i).feature。(4) 建立距离矩阵centerDistance,记录各类之间的距离,初始值为各样品间的距离。(5) 对所有样品循环:找到centerDistance中的最小值 = centerDistance(,),即类和类距离最小。若 < T,则将所有类成员归入类;centerNum = centerNum-1;重新顺序排列类号;根据式(3.1)重新计算距离矩阵centerDistance,否则()终止循环,分类结束。中间距离法的编程代码详见附录B。3.1.4 重心法重心法的提出考虑了类中样品个数对类间距离的影响。设类由类和类合并而成,类有个样品,类中有个样品。则重心法定义类和类间的距离为 (3.2)重心法的实现步骤如下(1) 获得所有样品特征。(2) 输入阈值T(计算所有样品距离的最大值与最小值,输出,作为阈值的参考)。(3) 将所有样品各分一类,聚类中心数centerNum = 样品总数patternNum。m_pattern(i).category = i;m_center(i).feature = m_pattern(i).feature。(4) 建立距离矩阵centerDistance,记录各类之间的距离,初始值为各样品间的距离。(5) 对所有样品循环:找到centerDistance中的最小值 = centerDistance(,),即类和类距离最小()。若 < T,则将所有类成员归入类;centerNum = centerNum-1;重新顺序排列类号;根据式(3.2)重新计算距离矩阵centerDistance,否则()终止循环,分类结束。中间距离法的编程代码详见附录B。3.1.5 类平均距离法类平均距离的定义也考虑了样品的整体分布特性对其分类的影响。设类由类和类合并而成,类有个样品,类中有个样品,类中有个样品。定义为类和类间的平均距离,为类和类间的平均距离。则递推可得 (3.3)类平均距离法的实现步骤如下(1) 获得所有样品特征。(2) 输入阈值T(计算所有样品距离的最大值与最小值,输出,作为阈值的参考)。(3) 将所有样品各分一类,聚类中心数centerNum = 样品总数patternNum。m_pattern(i).category = i;m_center(i).feature = m_pattern(i).feature。(4) 建立距离矩阵centerDistance,记录各类之间的距离,初始值为各样品间的距离。(5) 对所有样品循环:找到centerDistance中的最小值 = centerDistance(,),即类和类距离最小()。若 < T,则将所有类成员归入类;centerNum = centerNum-1;重新顺序排列类号;根据式(3.3)重新计算距离矩阵centerDistance,否则()终止循环,分类结束。类平均距离法的编程代码详见附录B。3.2 分裂算法分裂算法与合并算法的处理方式恰好相反。首先聚类包含单一集合X。在第一步,查找最好的划分,将该聚类分成两部分。最直接的方法是考虑所有种可能的划分,然后根据指定的准则,选择最优的一种。这个过程重复应用于前一步生成的两个集合中的每一个集合,最后的聚类包含N个聚类,每一个聚类包含X中的单一向量。下面正式地描述分裂算法。第t次聚类包含t+1个聚类,然后用表示第t次聚类,t = 0,N-1,j = 1,t+1中的第j个聚类。令是所有可能聚类对定义的不相似函数,初始聚类仅包含集合X,即 = X。为了确定下一个聚类,考虑X划分形成的所有可能的聚类对,选择使函数g取得最大值的聚类对(,)。这两个聚类形成下一个聚类,即= ,。下一步考虑中所有的聚类对,仍然选择使用g取得最大值的聚类对,对重复相同的方法。假定从两个聚类对中得到了新的聚类对,而从中得到的聚类使g值最大,用(,)描述此聚类对。这样,新聚类包括,和。分别用,重新标记这些聚类,得到。用同样的方法可形成后续的所有聚类。通用的分裂方法描述如下:通用的分裂法初始化-选择作为初始聚类。-t = 0重复执行下列步骤:-t = t+1-For i = 1 to t在由划分形成的所有可能的聚类对中,搜索使得g取最大值的聚类对。-Next i-从上一步的t个聚类对中得到使g最大的聚类对。-形成新聚类t-重新标识聚类中的聚类。直到每一个向量都在各自不同的聚类中。选择不同的g将得到不同的算法。容易看出分裂方法的计算量很大,即使对于中等的N值也是如此。与合并算法比较,这是它的主要缺点。4 聚类算法:基于代价函数最优的聚类算法基于代价函数最优的聚类算法(Clustering algorithms based on cost function optimization):这种方法用代价函数J来量化可判断性,通常聚类数量是固定的。这种算法用微分学概念,通过最优J产生连续的聚类,当J的局部最优确定时,算法才结束,这种类型的算法也称为迭代函数最优方法。本章将以K均值算法和迭代自组织的数据分析算法为例较为详细的介绍基于代价函数最优的聚类算法。4.1 K均值算法K均值算法能够使聚类域中所有样品到聚类中心距离的平方和最小。其原理为:先取k个初始距离中心,计算每个样品到这k个中心的距离,找出最小距离把样品归入最近的聚类中心;修改中心点的值为本类所有样品的均值,再计算各个样品到k个中心的距离,重新归类、修改新的中心点。直到新的距离中心等于上一次的中心点时结束。此算法的结果受到聚类中心的个数以及初始聚类中心的选择影响,也受到样品几何性质及排列次序影响。如果样品的几何特性表明它们能形成几个相距较远的小块孤立区域,则算法多能收敛。K均值算法的实现步骤如下:(1) 通过对话框读取需要分类数目centerNum,和最大迭代次数iterNum。(2) 随机取centerNum个样品作为聚类中心。m_center(i).feature = m_pattern(i).feature,m_center(i).index = i;m_pattern(i).category = i;i = (1centerNum),其余样品中心号为-1,样品到本类中心的距离为max(max为无穷大)。(3) 假设前三个样品分别属于每一类,需要分三类A、B、C,计算其余样品到这三个类的距离,将它们归为距离最近的类,至此,所有的样品都归类完毕。计算各个类中心所有样品特征值的平均值作为该聚类中心的特征值。(4) 对每一类中的各个样品,计算它到其他类中心的距离,如果它到某一类中心的距离小于它到自身类中心的距离,需要对该样品重新分类,将它归属到距离中心近的类,循环重复所有的样品,直至不再有样品类号发生变化。K均值算法的编程代码详见附录B。4.2 迭代自组织的数据分析算法迭代自组织的数据分析算法也称ISODATA算法。此算法与K均值算法有相似之处,即聚类中心也是通过样品均值的迭代运算来决定的。但ISODATA加入了一些试探性的步骤,能吸引中间结果所得到的经验,在迭代过程中可以将一类一分为二,也可以将两类合并,即“自组织”。这种算法具有启发性。迭代自组织的数据分析算法的实现步骤如下:(1) 获得所有样品特征。(2) 输入阈值T,方差equation,类中心数目centerNum,最大迭代次数iterNum(计算所有样品距离的最大值与最小值,以及方差的最小最大值,输出,作为阈值的参考)。(3) 任意选取precenterNum个(不妨取前centerNum个)样品作为聚类中心m_center(i)。(4) 求各个样品到所有聚类中心的距离,将所有样品归入最近的类中心m_center(i)。(5) 修正各聚类中心的值。(6) 计算各聚类域中诸样品到聚类中心间的平均距离。(7) 计算所有聚类域样品平均距离的总平均距离。(8) 判断分裂、合并及迭代等步骤:若迭代次数已达到iterNum,置equation = 0,跳到第(11)步,运算结束。若precenterNum > 2*centerNum,或者进行了偶数次迭代并且precenterNum > centerNum/2,则进入第(9)步,合并处理。否则,转第(10)步分裂处理。(9) 合并操作,计算全部聚类中心的距离,设,()距离最近,设最小距离。若 < T(阈值),则将类并入类。precenterNum = precenterNum-1。计算合并后的新中心。(10) 分裂操作,求所有聚类中心的标准向量差,i = 1,2,precenterNum, 为类中样品个数。找到所有中心标准差中的最大值,设第类的第位标准差最大,最大值为mequation。若mequation > equation,则precenterNum+,新中心特征值等于m_center()的特征值,只是第位需要调整,m_center().feature() = m_ce