基于Web的文本分类挖掘的研究学士学位论文.doc
《基于Web的文本分类挖掘的研究学士学位论文.doc》由会员分享,可在线阅读,更多相关《基于Web的文本分类挖掘的研究学士学位论文.doc(28页珍藏版)》请在三一办公上搜索。
1、首都师范大学学士学位论文基于Web的文本分类挖掘的研究学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检
2、索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日中文提要文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的研究方法己经不适合大规模文本分类,文本数据挖掘应运而生。作为文本数据挖掘的一个重要功能,文本分类技术日益成为研究热点。文本分类目的是对文本集有序组织,便于文本信息高效管理,为人的决策提供支持。但是传统的人工分类的做法存在许多弊端,不仅是耗费大量人力、物和精力,而且受人为因素影响较大,分类结果一致性不高。与之相比,文本自动分类具有快速、高效的特点,且分类准确率较高。对文本分类技
3、术进行研究,介绍文本分类的基本过程,论述文本特征提取方法,讨论朴素贝叶斯、K近邻、支持向量机、投票等常用的文本分类原理与方法,探讨中文文本分类技术。采用支持向量机技术,设计并实现了一个开放的中文文档自动分类系统。实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和查全率。关键词:文本挖掘 文本分类 支持向量机 向量空间模型外文提要Text categorization appears initially for text information retrieval system; however text data increases so fast that traditiona
4、l research methods have been improper for large-scale text categorization. So text data mining emerges, and text categorization becomes more and more important as a major research field of it.The purpose of text categorization is to organize text by order,so as to manage text information efficiently
5、 and support decisions of human being. However categorization by hand not only consumes plenty of manpower, material resources and energy, but also makes categorization accuracy inconsistent. Compared with categorization by hand, automatic text categorization classifies texts faster and its categori
6、zation accuracy rates higher.Introduces the techniques of text categorization, including its basic process ,the algorithms of text feature extraction ,the theories and technologies such as Nave bayes, KNN, SVM, Voted and so on. Chinese text classification is discussed. An open Chinese document class
7、ification system using support is designed and implemented.The experiment shows that it not only improves training efficiency, but also has good precision and recall.Key wordtext mining Text categorization Support Vector Machine(SVM) vector space model目 录中文提要外文提要目 录第一章 绪 论1.1文本自动分类研究的背景和意义1.2问题的描述1.
8、3国内外文本自动分类研究动态第二章 中文文本分类技术研究2.1文本预处理2.1.1文本半结构化2.1.2自动分词2.1.3特征选择122.2分类模型2.2.1贝叶斯(Naive Bayes)方法142.2.2K-近邻(KNN)方法2.2.3决策树(Decision Tree)分类2.2.4基于投票的方法2.2.5支持向量机(SVM)方法172.3分类性能评价第三章 基于支持向量机的中文文本分类3.1统计学习理论3.2支持向量机原理3.3支持向量机的特点第四章基于支持向量机的中文文本分类器的实现4.1系统体系结构4.1.1文本训练模块设计4.1.2文本分类模块设计第五章 系统的性能测试5.1开发
9、环境和数据集5.2测试结果及分析第六章 总结与展望6.1全文总结6.2进一步工作及展望附录(附图)参考文献致 谢第一章 绪 论1.1文本自动分类研究的背景和意义分类最初是应信息检索(Information Retrieval,简称IR)系统的要求而出现的,也是数据挖掘应用领域的重要技术之一1.随着全球计算机与通讯技术的飞速发展、互联网的普及与应用,信息爆炸的现实使人们越来越注重对自动分类的研究,文本自动分类及其相关技术的研究也日益成为一项研究热点。信息检索系统必须操纵大量的文本数据,其文本信息库可能相当庞大。如何在海量文本信息中获取潜在的、有价值的知识,模型或规则,这就需要引入文本数据挖掘概念
10、。数据挖掘是从大量的文本数据中提取出事先未知的、可理解的、可应用的信息和知识的过程。数据挖掘融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。文本数据挖掘(Textual Data Mining),亦称文本挖掘(Textual Mining),或者从文本数据库中发现知识,以文本数据为特定挖掘对象的数据挖掘,是数据挖掘的扩展。文本挖掘抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解
11、与知识挖掘”中的重要内容。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。 从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的很多,目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取2。(1)文档聚类首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以
12、生成分类器以对文档进行分类。文本挖掘中的聚类可用于:提供大规模文档集内容的总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。(2)文档分类分类和聚类的区别在于:分类是基于已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这对于用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表
13、达自己的信息需求时特别有用。传统搜索引擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类的方法,不仅工作量巨大,而且准确度不高,大大限制了起作用的发挥。另外,用户在检索时往往能得到成千上万篇文档,这让他们在决定哪些是与自己需求相关时会遇到麻烦,如果系统能够将检索结果分门别类地呈现给用户,则显然会减少用户分析检索结果的工作量,这是自动分类的另一个重要应用。文档自动分类一般采用统计方法345678或神经网络91011以及机器学习来实现。常用的方法有:简单贝叶斯分类法, K-最近邻参照分类算法以及支持向量机分类方法等。(3)自动文摘互联网上的文本信息、机构内部的文档及数据库的内容
14、都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。自动文摘具有以下特点:1) 自动文摘应能将原文的主题思想或中心内容自动提取出来。2) 文摘应具有概况性、客观性、可理解性和可读性。3) 可适用于任意领域。 按照生成文摘的句子来源
15、,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。后者的功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现产生的新句子不能被理解的情况,因此目前大多用的是抽取生成法。利用文本挖掘技术处理大量的文本数据,无疑将给企业带来巨大的商业价值。因此,目前对于文本挖掘的需求非常强烈,文本挖掘技术应用前景广阔。1.2问题的描述文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。自动分类的一般做法是,根据文本数据集的
16、特点构造一个分类器,利用分类器对未知类别的文本赋予类别。构造分类器的过程一般分为训练和测试两个步骤。在训练阶段,分析训练数据集的特点,为每一个类别产生一个相应数据集的准确描述或者模型。在测试阶段,利用类别的描述或者模型对测试集合进行分类,测试其分类的准确度。一般来说,测试阶段的代价远远低于训练阶段。文本数据的来源多种多样,可以是报告、单据、新闻、邮件等。文本的类别和数量可以是预订好的,这需要相关专家知识;也可以是不确定的,要经过文本的自组织、聚类后才能得到。需要预先定义类别体系的文本分类为有指导的学习(supervised learning)的分类,也称文本自动分类:类别体系不确定的文本分类为
17、无指导的(unsupervised learning)的分类,也称文本自动聚类(Clustering)。自动聚类系统不需要训练文本,划分出的文本类别也是不确定的。1.3国内外文本自动分类研究动态国外对于文本自动分类的研究开始较早,50年代末,H. P. huhn在这一领域进行了开创性的研究,提出了词频统计思想用于自动分类。1960年,Maron发表了关于自动分类的第一篇论文。随后众多学者在这一领域进行了卓有成效的研究工作,到目前为止,国外的自动分类研究己经从最初的可行性基础研究经历的实验性研究进入到了实用阶段,并在邮件分类、电子会议、信息过滤方面取得了比较广泛的应用,其中比较成功的例子有麻省理
18、工学院为白宫开发的邮件分类系统、卡内基集团为路透社开发的Construe系统等。国内对于文本自动分类的研究起步比较晚,1981年,侯汉清教授对于计算机在文本分类工作中的应用作了探讨,并介绍了国外计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后,我国陆续研究出一批计算机辅助分类系统和自动分类系统。例如,广东省中山图书馆的莫少强开发的计算机辅助图书分类系统(C-ABC)、清华大学吴军研制的自动分类系统、山西大学刘开瑛等人开发的金融自动分类系统、东北大学图书馆的图书馆分类专家系统,上海交通大学王永成等研制的基于神经网络优化算法的中文文本自动分类系统。近期研究中比较
19、突出的是中科院的中文文本智多星分类器,它采用多种分类方法。虽然中英文之间存在较大差异,无法直接参照国外的研究成果,但是,随着中文信息处理技术特别是中文自动分词技术的日渐成熟,以此为基础的中文文本分类技术的研究得到了飞速发展,在短短20多年中完成了从可行性探索到实用化阶段的转变。根据分类知识的获取方法不同,可将文本分类系统划分为两种类型:一个是基知识工程的分类系统,一个基于机器学习分类系统。基于知识工程的方法主要依赖语言学知识,一般由知识库和推理机两大基础部分组成。知识库储存了从专家那里获得的关于某领域的专门知识,推理机具有推理的能力,即根据知识推导出结论,而不仅仅是简单搜索现成的答案。由于需要
20、由知识工程师手工编制大量的推理规则作为分类知识,实现相当复杂,因此开发费用相当昂贵。一个典型例子是卡内基集团为路透社开发的Construe系统。该系统的开发工作量达到了10个人年。由此可见,知识工程的方法不适用较为复杂的系统。基于机器学习方法,研究从观测样本出发,寻找规律(即利用一些做好标识的训练数据自动地构造分类器),利用这些对未来样本进行预测。现有机器学习的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于大数定律的结论。一般情况下,用户对分类要求的准确程度在95%以上,但是因为分类词表和分词算法的不足、分类法的不足、分类算法的不足以及知识库
21、的规模不够大等原因,目前的自动分类系统的准确率主要在80%左右,只有限制在一定的范围内,这些系统才能取得相对好一些的效果,通用的、能够满足大规模商品化应用要求的系统还需要进一步的研究。第二章 中文文本分类技术研究2.1文本预处理2.1.1文本半结构化文本数据与常见的结构化关系数据不同,它是非结构化的,没有属性一值对的结构,称为无结构或者半结构化数据。对于非结构化的文本数据进行挖掘,目前有两种处理途径:一是采用全新的算法,直接对非结构化文本数据进行挖掘;二是将非结构化文本数据进行转化,将其转化为结构化文本数据,再进行挖掘。由于直接构造新算法难度较大,而且开发造价高,实现难度较大,所以目前通常采用
22、人工处理的方法,把非结构化的文本数据转化为结构化的文本数据。2.1.2自动分词自动分词是针对与中文的一种自然语言处理技术。西方语言体系中,句子中各个词汇之间有固定的空格作为分隔,计算机处理时可以非常容易地从文本中识别出一个一个的单词。而在汉语体系中,书写以句子为单位,句间用标点隔开,句内字词则是连续排列的,之间没有任何分隔。因此,如果要对中文文本进行分类、检索等基于词的处理,需要首先对中文文本进行词条切分处理(简称分词),才能正确识别每个词。中文文本的分词处理就是指在中文文本中连续的能够代表语义单元的词或者n一元词条间加入分隔符,将中文文本的连续字节流形式转化为离散单词流形式的过程。自动分词技
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Web 文本 分类 挖掘 研究 学士学位 论文
链接地址:https://www.31ppt.com/p-4022459.html