doc 一种统计降维和Kohonen网络相结合的文本聚类方法.doc
《doc 一种统计降维和Kohonen网络相结合的文本聚类方法.doc》由会员分享,可在线阅读,更多相关《doc 一种统计降维和Kohonen网络相结合的文本聚类方法.doc(18页珍藏版)》请在三一办公上搜索。
1、一种统计降维和Kohonen网络相结合的文本聚类方法第25卷第10期2005年10月计算机应用ComputerApplicationsVol_25No.10Oct.2005文章编号:10019081(2005)10232803一种统计降维和Kohonen网络相结合的文本聚类方法王智勇,王正欧(天津大学系统工程研究所,天津300072)(wzhyon)摘要:提出了一种基于词条互信息(WMI)值的统计降维和Kohonen网络(SOFM网)相结合的文本聚类方法,WMI值的方法侧重考虑文本特征项之间的互信息进行降维,可提高特征选择的效率,并使其更趋实用化.采用Kohonen网络进行文本聚类,其学习率函
2、数是随时间单调下降的退火函数,实验结果表明了这种结合方法较一般的降维方法得到的聚类结果具有较高的聚类精度.关键词:词条互信息;统计降维;Kohonen网络;文本聚类中图分类号:TP18文献标识码:ANewtextclusteringmethodbasedonstatisticalreductiondimensionandKohonennetworkWANGZhiyong,WANGZhengOU(InstituteofSystemsEngineering,Tianjinuniversity,Tianfin300072,China)Abstract:Anewtextclusteringmethod
3、basedonWMI(WOrdsmutualinformation)statisticalreductiondimensionapproachandKohonennetwork(SOFMnetwork)wasproposed.Thismethodconsideredthemutualinformationbetweentextfeaturesandimprovedtheefficiencyofreductiondimensionlargely.TextclusteringusedKohonennetworkwhoselearningratewasdroppedwithtime.Theexper
4、imentsindicatethattheclusteringresultobtainedusingthiscombinedmethodhasmuchhigherprecisionthanthatusinggeneralreductiondimensionapproach.Keywords:WMI;statisticalreductiondimension;Kohonennetwork;textclustering0引言文本自动聚类研究成为当前数据挖掘的一个重要课题,是文本有效管理和检索海量Iintemet文本信息的基础.文本在通常的向量空间模型VSM(VectorSpaceMode1)中表示
5、的向量维数一般为几千维,甚至几万,几十万维,这样无论从空间还是从时间考虑,计算的复杂度相当大,实现聚类有很大的困难,因此,需要进行有效的降维方法的研究.整个降维的过程也就是特征选择的过程,是从文档的一组特征中选择出一部分最具代表性的特征,以实现维数约简,并降低计算的复杂度.同时由于高维数据通常带有大量冗余的带噪声的数据,适当降维后也可提高聚类的准确率.对于文本这类维数非常高的矢量空间,常规的维数降低方法往往代价过于昂贵,如多元统计分析中的主成成分分析方法和LSI(隐含语义索引)方法.LSI方法虽然可以凸现文本中的隐含语义联系,可以过滤噪声和对检索结果影响不大的因素,但是对于像文本这一类的高维的
6、矩阵,有文献推导出其计算复杂性为:O(mac),其中m和n是文档矩阵的行和列的维数,c为文档矩阵每行非零元的个数,因而其计算量也是很高的.基于上述问题,本文提出了一种基于词条之间互信息(WordsMutualInformation,WMI)的统计的文本特征降维与Kohonen网络相结合的文本聚类新方法.基于WMI的降维方法是Sahami提出来的J.该方法应用统计方法进行特征向量的选择,采用特征词条之间的互信息作为评价函数,可有效地减少向量空间的维数,提高文本聚类的速度和精度.Kohonen网络采用的学习率函数是随时间单调下降的函数,使权值的调整更加有利于选择出相对于某一模式的获胜结点,进一步地
7、提高了文本聚类的速度和精度.1基于wMI的统计降维方法1.1理论基础定义1设和是MI(X,)表示.定理1在由树形关系结构定义的概率分布中,由最大生成树MST定义的概率分布P()使D(P(X),P(X)收稿日期:20050412基金项目:国家自然科学基金资助项目(60275020)作者简介:王智勇(1980一),男,河北唐山人,硕士研究生,主要研究方向:神经网络,数据挖掘,文本挖掘;itigt(1938一),男,上海人教授,博士生导师,主要研究方向:神经网络,系统辨识,系统优化,控制决策及智能系统.第10期王智勇等:一种统计降维和Kohonen网络相结合的文本聚类方法2329最小.注:这里指图G
8、的最大生成树MST(MaximalSpanningTree);P()指树形关系结构的实际概率分布.定理2l设森林F中结点之问边的权值用结点之间的互信息表示,森林F修剪掉一条边”得到森林F,满足V=rain(,J)的边”使得D(PF(x),P,(x)最小.表示结点i和结点的连接权值,E(1,2,i一1,i+1,1).推论3设最大生成树MST中结点之间边的权值用结点之问的互信息表示,MST修剪掉一条边得到森林F,满足=min(ViJ)的边”使得D(PF,PMST)最小.定理4t设图G中的一个结点代表文本的一个特征项,如果图G中的一个结点是孤立的,那么删除该结点并不会改变由Pc(.)?D(P.(.I
9、xi),Pc(一.)定义的边界相对熵.定理561边际相对熵等于条件互信息的和,即:_Pc(x.)?D(PG(x一.1xi),Pc(一.)=MI(X.;lX1,一,)1.2基于WM的统计降维算法1.2.1基于树形结构关系模型的MST算法.在MST算法中,首先根据定义2计算任意两个词条之间的互信息,然后建立文档特征项的完全图G,再根据定理1建立图G的最大生成树,结点之间边的连接权值等于MI(X.,),根据定理2和推论3修剪MST树,根据定理4去掉一部分特征项,从而达到特征选择的目的.在一篇文档中,执行MST算法的步骤如下:1)对于所有的词条.,()计算互信息,(,)2)建立图G的最大生成村MST,
10、结点之间的连接权等于MI(.,)3F哪一MST,Rx4)While(IRI>K)doIF对于任意的结点,和其他的结点之间没有权向量连接.代表的特征项是ThenRR一X,l,F椰rF椰relse修剪掉,中的最小权值边K为需要保留的特征项的数目,是需要设定的闭值参数.1.2.2PIL(PairwisenteractionLimited)算法此算法不利用树形结构,而是考虑任意一个特征项对其他特征项的影响力,这种影响力可以用边际相对熵来度量.考虑到当特征项数目n比较大时,MI(;I一,一,.)计算的复杂度很大,因此,可以考虑一个相对简单的估计算法:MI(X.;lXl,.一-,+l,.1)=lJM
11、I(X;)实际上,当每一对词条与剩余的其他词条独立时,上式是一个完全成立的等式.基于上述假设,可以提出另外一种特征选择的方法,因为假设任何一对特征项和其他的特征项是相互独立的,我们称基于这种假设的算法为关联限制(PairwiseInteractionLimited,PIL)算法.1)对于所有的词条,(i)计算互信息(,)2R3)While(IRI>K)do对于所有的R中的词条,计算MI(X.,x),结果赋R-I值给.一最小的的词条RR一X为需要保留的特征项的数目,是需要设定的阙值参数.1.2.3PIL算法的改进考虑到PIL算法中需要计算词条X和其他所有词条的互信息之和,然后选取阈值K进行
12、特征选择.因为文档中的词条很多,我们只是考虑与词条互信息最大的6个词条的互信息之和,然后选取阂值进行特征选择.PIL算法的这种改进算法称为PIL一6算法.2自组织特征映射(SOFM)神经网络自组织特征映射网络(SerfOrganizingFeatureMap)又称Kohonen网络,这种网络模拟大脑的自组织映射的功能,是一种竞争式学习网络.自组织的过程实际上就是一种无指导的学习,一个Kohonen网络接受外界输入模式时,将会分为不同的对应区域,各区域对输入模式具有不同的响应特征,它通过自身训练,自动对输人模式进行聚类.Kohonen网络分为输人层和输出层两层.输人层接受输人模式,输人层神经元的
13、个数与样本维数相等.输出层也是竞争层,神经元的排列有多种形式,如一维线阵,二维平面阵.定义3输入向量和输出结点q之间的余弦距离称为输出结点q和的相似度,记为Sire.即:s=产兰=(j=l)+()由于输人向量和神经元之问的连接权向量都是经过归一NN化的向量,即()=().=1,所以Sire=J1J1=/=1=?,即Sire-和G厂围的神经元进行权值调整,权值调整的范围即为最佳匹配结点的邻域,用来表示神经元和获胜神经元之间的拓扑距离.3结合S0FM和统计降维的文本聚类文本聚类是一种将文本集分组的全自动处理过程,是一种典型的无教师的机器学习问题,聚类的结果是使同组内的文本相似度最大,不同组内的文本
14、相似度最小.SOFM网是一种较好的数据聚类工具,将其与统计降维方法相结合可以快速有效地进行文本聚类.2330计算机应用2005正SOFM文本聚类算法步骤如下:1)网络的构造.设定输入层神经元个,为文本集经过降维处理后的词条矩阵的维数,输出层神经元m个,采用m1的二维平面阵结构.2)初始化.对输出层各权向量赋予0,1之间的小随机数并进行归一化处理,得到初始权向量矩阵W(0);建立初始优胜邻域,.(0)和学习率o(0),计数器置t=0.3)接受输入.从训练集中随机选取一个输入模式并进行归一化处理,得到输入向量.4)寻找最佳匹配结点w(j)?Vr计算,从中选择点积最大的获胜结点,.5)定义优胜邻域.
15、(t),以为中心确定t时刻的获胜邻域,一般.(0)比较大,训练过程中,.(t)随着训练时间的延长逐渐收缩,最后只是对获胜结点的权值矩阵进行细微的调整,从而保证获胜结点对这一类输入模式具有最大的响应.6)权值调整.对获胜邻域,.(t)内的所有结点调整权值:(t+1)=W(t)+0(t,N(d)Wi.,(t)i:1,2,3,m;E.(t)o(t,N(d)是训练时间t和和N(d)的函数,N(d)是获胜邻域,.(t)内第个神经元与获胜神经元,之间的拓扑距离d的函数.采用0(t,N(d)=0(t)%e”,0(t)采用单调1下降的退火函数0()=lg(1+.).0(,N(d)是一种T,可变的学习速率,随着
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- doc 一种统计降维和Kohonen网络相结合的文本聚类方法 一种 统计 维和 Kohonen 网络 相结合 文本 方法
链接地址:https://www.31ppt.com/p-3931534.html