《信息检索技术》PPT课件.ppt
《《信息检索技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索技术》PPT课件.ppt(47页珍藏版)》请在三一办公上搜索。
1、2023/7/10,1,2023/7/10,1,信息检索技术,2023/7/10,2,Outline,信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语,2,2023/7/10,3,信息检索综述,信息检索(Information Retrieval)是指将信息按一定的方式组织和储存起来,并根据用户的查询字串,从表示信息非结构化数据,特别是非结构化的文本数据中找到与查询字串相关信息的过程。由于计算机信息检索具有速度快、效率高,数据内容新、信息容量大等特点,已成为人们在日常工作和生活中获取信息的主要手段之一。,3,2023/7/10,4,信息检索中的术语,在当前信息检索的研究中
2、,非结构化的数据记录通常特指自然语言文本数据记录,又称(document)。将大量非结构化的数据记录,按照一定的方式组织和存储起来而构成的数据记录的集合称为信息检索中的数据全集(collection)。,4,2023/7/10,5,信息检索中的术语,给定一个数据全集,信息检索过程可以描述为根据用户特定的信息需求(information need),在数据全集中获取所有和仅有的与用户信息需求相关的文档,并将这些文档按照相关性(relevance)的大小由大到小地排列(rank)。用户特定的信息需求由查询(query)来表达,换句话说,查询是反映用户信息需求的字符串,这个字符串可以是关键字序列,也
3、可以是一个布尔表达式,或者直接用自然语言表达的问句。,5,2023/7/10,6,信息检索系统,6,2023/7/10,7,信息检索系统,(1)用户接口模块(2)用户查询文本操作模块停用词(3)文档文本操作模块文档文本操作对文档数据库中的文档进行过滤停用词、词干抽取等处理,并转换为机器内部的文档表示格式供索引构建模块处理。,7,2023/7/10,8,信息检索系统,(4)用户查询处理模块(5)索引构建模块(6)数据库管理模块(7)搜索模块(8)相关度排序模块,8,2023/7/10,9,信息检索系统,整个信息检索系统可以分为检索子系统和信息存储管理子系统两大部分。,9,信息检索系统的终极目标是
4、使满足系统用户的信息需求的开销(overhead)达到最小。所谓开销,是指从用户向系统输入了一个查询开始,到他读到了包含他的信息需求的文档为止的全部时间。,2023/7/10,10,信息检索系统的评价,一个系统在实际应用中的时间和空间消耗是衡量一个系统优劣的重要指标。相关性介绍两个最常用的基于相关性的系统评价指标分别是精确度(precision)和召回率(recall)。,10,2023/7/10,11,信息检索系统的评价,11,2023/7/10,12,信息检索系统的评价,人们经常使用精确度-召回率曲线(precision-recall curve)来定量分析一个信息检索系统的改进情况或者比
5、较几个信息检索系统的优劣。,12,2023/7/10,13,信息检索系统的评价,例如:设有一特定查询q,在数据全集中所有与该查询相关的文档为信息检索结果按相关度由大到小顺序是(标志与q相关的文档):,13,2023/7/10,14,信息检索中的系统的评价,精确度-召回率曲线分析,14,2023/7/10,15,信息检索系统中的评价,许多用户对信息检索系统精确度要求较高,他们希望尽快查到相关的文档,而不把时间浪费在无关的文档上。另外一些用户则认为召回率更加重要,他们认为相关文档占检索返回的文档比例越高,系统效果则越好。Van Rijsbergen于1979年提出了E(effectiveness)
6、量度将精确度和召回率结合起来,并赋以不同的权重,成为一个统一的系统有效性的量度:,15,2023/7/10,16,信息检索简史,信息检索技术起源1950年,美国学者Calvin N.Mooers首创了“信息检索”这一术语。1958年,美国学者Luhn提出了统计信息检索的基本理论和方法。1960年,Marson和Kuhns提出了信息检索的概率模型。1965年,美国康奈尔大学的Gerard Salton 教授及其学生,创立了信息检索向量空间模型,16,2023/7/10,17,信息检索简史,1968年,Rocchio和Salton共同提出了查询扩展的方法。1972年,Lockheed公司推出了DI
7、ALOG系统,成为世界首例商用在线信息查询服务系统。80年代 沉寂时期90年代 爆炸期,17,2023/7/10,18,Outline,信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语,18,2023/7/10,19,信息检索的统计模型,应用于信息检索领域的技术与方法可以粗略地划分为两大类:基于统计的方法和基于语义的方法。基于统计的方法主要根据用户查询与数据全集中的数据的统计量度计算相关性。基于语义的方法则对用户查询和数据全集中的数据进行一定程度的语法语义分析,换句话说,这类方法是在对用户查询和数据全集内容理解的基础上进行两者的相关性计算。,19,2023/7/10,20
8、,信息检索的统计模型,一个信息检索模型IRM 是一个三元组D是文档的集合;Q是用户需求的集合;R:DQ R R是集合D与Q的笛卡尔乘积到实数集R的一个映射,对每个用户查询 qQ,每个文档dD,映射R将(q d)映射为一个实数,称为用户查询q与文档d的相关度。,20,2023/7/10,21,基于统计的信息检索模型包括布尔模型、扩展布尔模型、向量空间模型、概率模型等等。在这类模型中,文档被表示为关键词(keyword)的集合。这一表示方式又称为文档的平面结构(flat structure),关键词又称为索引词(index term),是指除停用词之外的代表文档内容的词,大多数是名词。例如,如果停
9、用词中包括all,and,could,had,he,of,on,than,that,the,to,with,their,基于统计的信息检索模型,21,2023/7/10,22,基于统计的信息检索模型,则文档:,22,2023/7/10,23,基于统计的信息检索模型,23,2023/7/10,24,布尔模型,在布尔模型中,文档中索引词的权重只有0和1两种取值,分别表示文档中包含该索引词和不包含该索引词。用户查询是由标准逻辑操作符AND,OR,NOT将索引词连接起来构成布尔表达式。下面介绍用户查询与文档的相关度计算的方法,24,2023/7/10,25,布尔模型,25,2023/7/10,26,布
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息检索技术 信息 检索 技术 PPT 课件
链接地址:https://www.31ppt.com/p-5464159.html