模糊数学在信息检索中的应用毕业论文.doc
《模糊数学在信息检索中的应用毕业论文.doc》由会员分享,可在线阅读,更多相关《模糊数学在信息检索中的应用毕业论文.doc(33页珍藏版)》请在三一办公上搜索。
1、模糊数学在信息检索中的应用 摘 要:本文从模糊集出发,以信息检索为应用背景,逐步引入模糊数学理论,并以提高信息检索的准确率和检索效率为目的,提出以下思想方法: (1)为了提高检索准确率,根据模糊集理论,提出了基于文档和查询词的模糊集表示法.(2)通过利用模糊聚类分析理论,研究了基于模糊集文档的模糊聚类方法,并得到了分类的文档簇,同时研究了文档簇的模糊集表示法,为后续研究做铺垫.(3)为了提高检索效率,可以通过缩小检索范围来实现,据此提出了基于文档簇的模糊信息检索模型,从而得到满足条件的文档簇.(4)为了对满足条件的文档簇中的文档进行排序,提出了基于文档的模糊信息检索模型,从而完成了检索的剩余工
2、作,并形成完整的检索过程.(5)通过提出算例,分两种情况进行了分析:当文档集和查询项都是用模糊集表示的,分析了基于模糊集的模糊信息检索模型;当文档集是模糊集表示,查询项是确定的布尔类型,分析了基于模糊集的扩展布尔检索模型.关键词:模糊集;聚类分析;信息检索;检索模型;布尔检索Fuzzy mathematics application in information retrievalAbstract: For improving the information retrieval accuracy and efficiency of searching, this paper, which pu
3、ts information retrieval as application background and gradually introduces the fuzzy mathematical theory, puts forward the following thoughts and methods: (1) In order to improve retrieval accuracy, this paper, according to the fuzzy sets theory, put forward the fuzzy sets representations, based on
4、 both the inquiry word and the document. (2) Through fuzzy clustering analysis theory, we study the fuzzy clustering analysis method based on the document cluster and acquire the classification of the cluster. And we also study the representation of the document classification, based on the fuzzy se
5、ts. It is laying groundwork for the follow-up study. (3) In order to improve the search efficiency, we can do it through narrowing the searching range. So the paper puts forward the fuzzy information retrieval model, which is based on the document cluster. Then we get meet the satisfied document clu
6、sters. (4) In order to sort the satisfied document clusters, we put forward the fuzzy information retrieval model, which is based on the document. Thus we complete the surplus work of retrieval, forming a complete search process. (5) By presenting examples, two cases were analyzed: when the sets of
7、documents and query terms are represented by fuzzy sets, we analyze the fuzzy information retrieval model based on the fuzzy sets; when the set of documents is fuzzy set and the set of the query terms is the Boolean sets, we analyze the Boolean information retrieval model based on the fuzzy sets.Key
8、words: fuzzy sets;clustering analysis;information retrieval;retrieval model;Boolean retrieval目 录1 绪论11.1 论文研究的背景及意义11.1.1 论文研究的背景及目的11.1.2 国内外研究现状11.1.3 论文研究的意义11.1.4 论文研究采用的方法及理论依据21.2 论文构成及研究内容21.3 模糊集的基本概念21.4 模糊理论的数学基础21.4.1 经典集合21.4.2 模糊集合31.4.3 归属函数31.5 模糊子集及其运算31.5.1 模糊集的相关定义41.5.2 模糊集的运算51.5
9、.3 模糊集的其他运算51.6 模糊集的基本定理62模糊聚类检索策略72.1 相关概念72.2 模糊聚类分析72.2.1 选择模糊聚类方法82.2.2 词频矩阵82.3 基于编网法的模糊聚类分析模型92.3.1 构造模糊相似矩阵92.3.2 模糊聚类之编网法102.3.3 基于文档集合的模糊聚类编网法的应用102.4 文档簇的模糊表示法113 模糊概念网络123.1 模糊概念网络的结构123.2 基于文档的模糊概念网络的构建123.3 基于文档簇的模糊概念网络的构建144 基于文档簇和文档的信息检索模型154.1 基于文档簇的模糊信息检索模型154.1.1 文档簇和查询项的模糊集表示154.1
10、.2 相关性154.1.3 检索方法174.2 基于文档的模糊信息检索模型184.2.1 文档和查询项的模糊集表示184.2.2 相关性184.3 检索方法184.3.1 基于模糊集的扩展布尔检索184.3.2 基于模糊集的模糊检索205模糊信息检索模型实例分析235.1 基于模糊集的扩展布尔检索实例分析235.2 基于模糊集的模糊检索实例分析246 结论26参考文献28致 谢291 绪论1.1 论文研究的背景及意义1.1.1 论文研究的背景及目的自从美国著名控制论专家、加利福尼亚大学L.A.Zadeh教授1965年建立模糊集理以来,在各国学者的共同努力和不断探索下,模糊集理论及其应用的研究成
11、果已非常丰富.它不仅发展和扩充了经典数学的研究领域,使数学学科的研究体系发生了重大变革,而且能有效地解决经典数学难以解决的大系的复杂性问题,以及在自然界和日常生活中普遍存在而无法解决的模糊性问题,比如信息检索.模糊数学理提出后,信息检索领域的学者就尝试将其应用于信息检索中,并且取得了长足的发展,产生了一大批优秀的模糊信息检索应用理论,为模糊数学的应用开拓了新的领域,比如:模糊聚类分析在信息检索中的应用、模糊集在信息检索中的应用、模糊推理在信息检索中的应用等.总体来看,这些应用理论为模糊数学发展开辟了新的空间,增添了新的活力.本文以模糊数学理论为基础,提出了一套新的信息检索应用方法.此方法的提出
12、主要希望达到一下目的: (1) 为了提高信息检索的准确性,提出了基于模糊集的信息检索模型; (2) 为了提高信息检索的效率,提出了基于文档簇的模糊信息检索模型,并将“基于模糊聚类分析的检索策略”应用到模型上.1.1.2 国内外研究现状目前,信息检索发展迅速,并产生了优秀的检索模型:向量空间模型,概率模型,语言模型,推理网路模型,布尔检索,LSI,神经网络方法,遗传算法,模糊集检索模型等.同时,也促进了提高模型性能的检索策略的探索和发展,常用的检索策略:相关反馈,聚类,基于片段的检索,语言解析,n元语法,同义词表,n元语法,语义网路,回归分析.由于检索效率及稳定性的瓶颈,使得模糊信息检索实际应用
13、发展缓慢,其在信息检索领域的应用还比较有限.从国外来看,模糊数学应用到信息检索的案例还很少,大多数相关应用都处于实验阶段;从国内来看,模糊数学的信息检索应用案例几乎没有.总体来看,都是由于其不稳定及效率问题决定的,所以实现效率及稳定性的突破就显的很重要了.1.1.3 论文研究的意义模糊数学自身的理论研究进展迅速.我国模糊数学自身的理论研究仍占模糊数学及其应用学科的主导地位,所取得的研究成果在模糊数学、模糊系统与数学等数十种学术期刊和全国高校学报中经常可见,模糊聚类分析理论、模糊神经网络理论和各种新的模糊定理及算法不断取得进展.通过研究模糊数学在信息检索中的应用,提出一种新的方法,来提高模糊信息
14、检索的效率.同时,使得模糊数学的应用分支更丰富.1.1.4 论文研究采用的方法及理论依据(1)通过提出模糊集和模糊聚类分析理论,首先将样本文档表示成模糊集,并利用模糊聚类分析方法对文档模糊集进行模糊聚类,同时提出了分类文档簇的模糊集表示方法,从而建立了文档簇的模糊集.(2)通过基于词项概念和文档簇的模糊概念网图,为建立模糊信息检索模型,提供了直观的检索对象关系图.(3)通过建立基于文档类簇的模糊信息检索模型,得到满足条件的文档簇,从而为后续处理缩小检索范围,这在一定程度上提高了检索效率.(4)针对得到的文档簇集中的文档,建立基于文档的模糊信息检索模型,从而得到排序的检索结果.(5)为了直观描述
15、模糊信息检索模型,添加了模型的实例分析.1.2 论文构成及研究内容论文主要内容主要包括:1.介绍了模糊数学的信息检索应用现状,研究该课题的意义、目的、提出的方法及实现模型;初步阐述了模糊数学在信息检索的应用;2.介绍模糊聚类检索策略,根据制定的阈值,将样本文档分为一些类簇,并且为满足条件的文档簇建立其模糊量集度量方法,为下面的研究做铺垫;3.介绍模糊概念网络图的建立,使得研究变的更加直观;4.介绍基于文档类簇的模糊信息检索模型,从而得到簇类的检索结果,减小了检索的范围,在一定程度上提高了检索效率;5.介绍基于文档的模糊信息检索模型的实例分析.1.3 模糊集的基本概念模糊理论是为了解决真实世界中
16、普遍存在的模糊现象而发展的一门学问.模糊理论以模糊集合为基础,基本精神是接受模糊性现象存在的事实,而以处理概念模糊不确定的事物为其研究目标,并积极地将其严密量化成计算机处理可以处理的信息.实际上,模糊理论是模糊集合,模糊关系,模糊逻辑,模糊控制,模糊测量等理论的泛称,我们通常称之为模糊数学.1.4 模糊理论的数学基础1.4.1 经典集合 模糊理论的基础是模糊集合和归属函数,所谓集合是一些具有某种共同特质事物汇总起来的组织,用来归纳一群具有相同特征事物.一般而言,传统意义上的集合具有下列共同的特点:同一集合中的元素具有某种相同的性质;集合是元素组成的整体,元素之间可以互相区别;集合里的元素是确定
17、的.然而经典集合具有两条基本属性:元素彼此相异,即无重复性;范围边界分明,即一个元素x要么属于集合A(记作xA),要么不属于集合(记作xA),二者必居其一.1.4.2 模糊集合模糊数学是研究和处理模糊性现象的数学方法.众所周知,经典数学是以精确性为特征的.但与精确形相悖的模糊性并不完全是消极的,没有价值的.甚至可以说,有时模糊性比精确性还要好.例如我们要给“偶数”这个集和下定义时,我们很明确的知道这个集合中的每个元素,对于任何给定的数值,我们都清楚的知道它是否属于这个集合.但是当我们为“中年人”这个集合下定义时,多少会遇到困难,因为具体的所谓中年,指的是几岁到几岁?相信每个人对中年的定义都是不
18、同,假定从满35岁起到满55岁为止定义为中年,那么34岁的人还未迈入中年,只要增加一岁的那个瞬间就马上变成中年.另外,过完55岁迈入56岁生日的瞬间又已不再是中年人.基本上,这是相当不合理的方式.前述“中年”定义之所以会不自然,是因其界线太过清楚所致,当界线缓和一些,则不自然会消失.因此,如果以“中年程度”来考虑或许会比较适当.譬如说30岁的中年程度是0.6,35岁的中年程度是0.65,随着不同年龄,其程度也徐徐变化,而此问题也就能获得根本上的解决.此种重新扩张定义的集合,由L.A.Zadeh教授提出,称之为模糊集合.1.4.3 归属函数把传统的集合论特征函数从非0即1的二值选择,推广为可从0
19、到1之间的任何值来做出选择,此新型的特征函数,称之为归属函数.归属函数是模糊理论中最基本的概念,而我们可以用归属函数来表示模糊集合:在域上的模糊集合,由归属函数来表征,在区间中取值,值的大小反映了元素对于模糊集合的归属程度.的值越接近1,就表示元素属于的程度越高.当就是上限,表示完全属于.反之,若的值越接近0,就表示属于的程度越低.当就是下限,表示完全不属于.对于来说,距离“完全属于”和“完全不属于”最远,所以它的模糊度也最高.因此,模糊集合也被定义为元素与归属函数的组成集合.1.5 模糊子集及其运算模糊集最早出现于文献1,12-18.模糊集提出了使用隶属函数来标明元素在集合中的隶属度,而不是
20、假设元素是某个集合的成员.对于信息检索,模糊集是非常有效的,因为它可以描述一篇文档是“关于”什么内容的.描述文档关于什么内容的一组元素的集合本身就具有不确定性.关于“交通”且与诉讼之间间接相关的文档,或许可能是关于“交通事故”的文档.尽管将“交通事故”作为集合的一个元素实际上并不精确,但是将其从集合中排除掉也是不精确的.模糊集就是一种隶属度,其中每个元素的隶属力度本来就精确.在这个例子中,描述文档概念的集合的形式如下: 由于每个元素还附带其隶属度,所以集合C是一个模糊集.在模糊集中包含的概念可以形式化地表示为:其中:表示隶属函数,用于标识集合中元素的隶属度.对于有限集合,模糊集表示为: .接下
21、来我们给出了模糊集的基本操作:求交集和并集.从根本上说,求交集的方法是取相同元素的两个隶属度函数的最小值,并集就是取相同元素的两个隶属函数的最大值.模糊集的交集、并集和补集的定义: 1.5.1 模糊集的相关定义定义1 论域上的一个模糊集合是由上的一个隶属函数来表示,其中(有时用表示)表示元素隶属于模糊集合的程度.一般地,如果论域是有限集合或可数集合,那么一个模糊集可以表示为:.定义2 主导隶属度函数关系:当且仅当对于所有.定义3 设是论域,称映射 确定了一个上的模糊子集,映射称为的隶属函数,它表示对的隶属程度.使的点称为的过渡点,此点最具模糊性.当映射只取0或1时,模糊子集就是经典子集,而就是
22、它的特征函数.可见经典子集是模糊子集的特殊情形.例 设论域(单位:)表示人的身高,那么上的一个模糊子集的隶属函数可定义为 也可用Zadeh表示法: 1.5.2 模糊集的运算模糊集的并、交、余运算性质幂等律:交换律:结合律: 吸收律:分配律: 还原律:对偶律:模糊集的运算性质基本上与经典集合一致,除了排中律以外,即 ,1.5.3 模糊集的其他运算模糊集不再具有非此即彼的特点,这正是模糊性带来的本质特征.相等:包含:并:的隶属函数为 交:的隶属函数为 余:的隶属函数为 例 设论域(商品集),在上定义两个模糊集:=“商品质量好”,=“商品质量坏”,并设则 =“商品质量不好”,=“商品质量不坏”, =
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模糊 数学 信息 检索 中的 应用 毕业论文
链接地址:https://www.31ppt.com/p-4026254.html