面向中文的文本相似度计算方法研究.doc
《面向中文的文本相似度计算方法研究.doc》由会员分享,可在线阅读,更多相关《面向中文的文本相似度计算方法研究.doc(2页珍藏版)》请在三一办公上搜索。
1、面向中文的文本相似度计算方法研究马军红(西安外事学院工学院,陕西 西安 710077)【摘要】本文对中文信息处理中的文本相似度计算方法进行了研究和比较,提出了分词和特证词计算的关键算法。在相似度计算中,利用各个特征在特征提取时的权值,对TF-IDF算法做了改进。【关键词】文本相似度计算;向量空间模型;词频一逆文档频率法引言随着计算机技术和网络技术的不断发 展,信息量成倍增加,在这些信息中,大 部分是非结构化或半结构化的文本信息。 文本相似度是表示两个或多个文本之间匹 配程度的一个度量参数,对于文本分类、 文本聚类、信息检索等多个领域,文本相似 度的有效计算都是进行信息处理的关键。目 前,有多种
2、文本相似度模型被提出并在特 定的领域中得到广泛应用,但大多是根据 具体应用的特点,凭借经验性知识来构造 的,具有对文档特性拟合的不完全性,缺 乏完整的理论依据。1.向量空间模型VSM1.1 基本思想 所谓文本相似度计算是指利用计算机自动计算文本间的相似度,可以采用相似 系数、相似距离等尺度进行衡量,常常表 现为相似度计算的公式或者模型。其中最成 熟和常用的模型是基于统计学理论的VSM。 其基本思想是:假设词与词之间是不相关 的,以向量来表示文本,使得模型具备了 可计算性。在VSM中,将文档看成是由相互独立的 词条组(T1,T2,T3,Tn)构成,对于每 一个词条T,根据其在文档的重要程度赋 予
3、一定权值W,并将(T1,T2,T3,Tn) 看成是一个n维坐标系中的坐标轴,(w1, w2,w3,wn)为对应的坐标值。这样由 (T1,T2,T3,Tn)分解得到的正交词条 矢量组就构成了一个文档向量空间。计算相似度的函数式中常用余弦函数,它将相似度定义为:Wtd=TFtd IDFt(2)其中xk,yk分别表示文本w1对应的码字M1和文本w2对应的码字M2中第k位的分 量,要么为0要么为1,+就是模2加运算。2.3 优缺点分析 与其它的文本相似度计算方法相比,该方法只是利用模2加等运算,完全避开 了在欧氏空间中求相似度的大量乘法运算, 因此计算速度较快;其次,它跳出了传统 的借用空间的理念,而
4、是用码字的方法来 表征文本信息的特征,可以不仅限于关键 字等孤立的信息,这为联合的描述文本的 信息提供了可能。基于汉明距离的计算方 法通常被用于句子的快速模糊匹配领域, 但它是以字为基本计算单位,而在中文中 单个字往往不具备意义。如何提取文本的 信息特征并排成与文本一一对应的码字集 合,是运用该方法的关键和难点,需要进 一步的研究。此外还有其它文本相似度计算方法, 对于中文处理都有或多或少的不足,这里 不再介绍。3.改进的TF-DF算法:基于统计的算法适合大规模的文本集 合,为了不增加系统开销,本文提出将特 征项在特征选择阶段的权重应用到要计算 相似度的文档集合中。改进的TF-IDF算法 如下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 中文 文本 相似 计算方法 研究
链接地址:https://www.31ppt.com/p-2882871.html