《信息检索技术》PPT课件.ppt
2023/7/10,1,2023/7/10,1,信息检索技术,2023/7/10,2,Outline,信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语,2,2023/7/10,3,信息检索综述,信息检索(Information Retrieval)是指将信息按一定的方式组织和储存起来,并根据用户的查询字串,从表示信息非结构化数据,特别是非结构化的文本数据中找到与查询字串相关信息的过程。由于计算机信息检索具有速度快、效率高,数据内容新、信息容量大等特点,已成为人们在日常工作和生活中获取信息的主要手段之一。,3,2023/7/10,4,信息检索中的术语,在当前信息检索的研究中,非结构化的数据记录通常特指自然语言文本数据记录,又称(document)。将大量非结构化的数据记录,按照一定的方式组织和存储起来而构成的数据记录的集合称为信息检索中的数据全集(collection)。,4,2023/7/10,5,信息检索中的术语,给定一个数据全集,信息检索过程可以描述为根据用户特定的信息需求(information need),在数据全集中获取所有和仅有的与用户信息需求相关的文档,并将这些文档按照相关性(relevance)的大小由大到小地排列(rank)。用户特定的信息需求由查询(query)来表达,换句话说,查询是反映用户信息需求的字符串,这个字符串可以是关键字序列,也可以是一个布尔表达式,或者直接用自然语言表达的问句。,5,2023/7/10,6,信息检索系统,6,2023/7/10,7,信息检索系统,(1)用户接口模块(2)用户查询文本操作模块停用词(3)文档文本操作模块文档文本操作对文档数据库中的文档进行过滤停用词、词干抽取等处理,并转换为机器内部的文档表示格式供索引构建模块处理。,7,2023/7/10,8,信息检索系统,(4)用户查询处理模块(5)索引构建模块(6)数据库管理模块(7)搜索模块(8)相关度排序模块,8,2023/7/10,9,信息检索系统,整个信息检索系统可以分为检索子系统和信息存储管理子系统两大部分。,9,信息检索系统的终极目标是使满足系统用户的信息需求的开销(overhead)达到最小。所谓开销,是指从用户向系统输入了一个查询开始,到他读到了包含他的信息需求的文档为止的全部时间。,2023/7/10,10,信息检索系统的评价,一个系统在实际应用中的时间和空间消耗是衡量一个系统优劣的重要指标。相关性介绍两个最常用的基于相关性的系统评价指标分别是精确度(precision)和召回率(recall)。,10,2023/7/10,11,信息检索系统的评价,11,2023/7/10,12,信息检索系统的评价,人们经常使用精确度-召回率曲线(precision-recall curve)来定量分析一个信息检索系统的改进情况或者比较几个信息检索系统的优劣。,12,2023/7/10,13,信息检索系统的评价,例如:设有一特定查询q,在数据全集中所有与该查询相关的文档为信息检索结果按相关度由大到小顺序是(标志与q相关的文档):,13,2023/7/10,14,信息检索中的系统的评价,精确度-召回率曲线分析,14,2023/7/10,15,信息检索系统中的评价,许多用户对信息检索系统精确度要求较高,他们希望尽快查到相关的文档,而不把时间浪费在无关的文档上。另外一些用户则认为召回率更加重要,他们认为相关文档占检索返回的文档比例越高,系统效果则越好。Van Rijsbergen于1979年提出了E(effectiveness)量度将精确度和召回率结合起来,并赋以不同的权重,成为一个统一的系统有效性的量度:,15,2023/7/10,16,信息检索简史,信息检索技术起源1950年,美国学者Calvin N.Mooers首创了“信息检索”这一术语。1958年,美国学者Luhn提出了统计信息检索的基本理论和方法。1960年,Marson和Kuhns提出了信息检索的概率模型。1965年,美国康奈尔大学的Gerard Salton 教授及其学生,创立了信息检索向量空间模型,16,2023/7/10,17,信息检索简史,1968年,Rocchio和Salton共同提出了查询扩展的方法。1972年,Lockheed公司推出了DIALOG系统,成为世界首例商用在线信息查询服务系统。80年代 沉寂时期90年代 爆炸期,17,2023/7/10,18,Outline,信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语,18,2023/7/10,19,信息检索的统计模型,应用于信息检索领域的技术与方法可以粗略地划分为两大类:基于统计的方法和基于语义的方法。基于统计的方法主要根据用户查询与数据全集中的数据的统计量度计算相关性。基于语义的方法则对用户查询和数据全集中的数据进行一定程度的语法语义分析,换句话说,这类方法是在对用户查询和数据全集内容理解的基础上进行两者的相关性计算。,19,2023/7/10,20,信息检索的统计模型,一个信息检索模型IRM 是一个三元组D是文档的集合;Q是用户需求的集合;R:DQ R R是集合D与Q的笛卡尔乘积到实数集R的一个映射,对每个用户查询 qQ,每个文档dD,映射R将(q d)映射为一个实数,称为用户查询q与文档d的相关度。,20,2023/7/10,21,基于统计的信息检索模型包括布尔模型、扩展布尔模型、向量空间模型、概率模型等等。在这类模型中,文档被表示为关键词(keyword)的集合。这一表示方式又称为文档的平面结构(flat structure),关键词又称为索引词(index term),是指除停用词之外的代表文档内容的词,大多数是名词。例如,如果停用词中包括all,and,could,had,he,of,on,than,that,the,to,with,their,基于统计的信息检索模型,21,2023/7/10,22,基于统计的信息检索模型,则文档:,22,2023/7/10,23,基于统计的信息检索模型,23,2023/7/10,24,布尔模型,在布尔模型中,文档中索引词的权重只有0和1两种取值,分别表示文档中包含该索引词和不包含该索引词。用户查询是由标准逻辑操作符AND,OR,NOT将索引词连接起来构成布尔表达式。下面介绍用户查询与文档的相关度计算的方法,24,2023/7/10,25,布尔模型,25,2023/7/10,26,布尔模型,布尔模型的优缺点,26,2023/7/10,27,概率模型,在概率模型中,文档和用户查询也被表示为索引词集合的形式,与其他的信息检索模型不同的是,概率模型通常采用索引词在文档中的统计分布等参量计算任意文档d与给定用户查询q相关的概率P(q|d)。本报告重点介绍一类典型的信息检索概率模型:贝叶斯推理网络模型,该推理网络模型提供了将不同来源的证据结合起来以确定给定文档满足用户查询或者信息需求的概率的一种自然的方法。,27,2023/7/10,28,概率模型,贝叶斯网络是一个描述随机变量之间因果关系的有向无环图。在一个贝叶斯网络中,节点表示随机变量,一条从父节点Y 到子节点X 的边表示两个随机变量的依赖关系,在贝叶斯网络中的任一节点 X 都附加了一系列条件概率,28,该条件概率表示该节点与其父节点 依赖关系的强度,在贝叶斯网络中,一个节点仅条件依赖于它的父节点。,2023/7/10,29,概率模型,索引词节点文档节点用户查询 边有2种类型:贝叶斯网络的3个层次,29,2023/7/10,30,概率模型,可见:,30,2023/7/10,31,概率模型,31,2023/7/10,32,概率模型,剩下的问题是如何计算这些概率。对于,可有如下一些计算方法:均匀分布法正规化法对于,有如下一些计算方法:二值法权重法,32,2023/7/10,33,Outline,信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语,33,2023/7/10,34,信息检索中自然语言处理方法,所谓信息检索中的自然语言处理方法,是指通过对文档中的自然语言文本进行语法语义分析,以提高信息检索的精确度或者召回率的方法的统称。与基于统计的信息检索方法相比较而言,这类方法以对文档文本的语言结构分析和语义分析为特色,将信息处理的层次深入到了文档中文本的内容,而非仅仅依据文本中索引词的统计信息。由于信息检索对实时性有较高的要求,不可能对网络文档进行全面完备的语法语义分析,因此这些自然语言处理方法通常只能停留在“浅层”(shallow)处理的层次上。,34,2023/7/10,35,信息检索中自然语言处理方法,自然语言处理技术按照语言处理对象的语言单位不同可以划分为音韵(phonological)词形(morphological)词法(lexical)语法(syntactic)语义(semantic)语篇(discourse)语用(pragmatic)等不同的技术层次。,35,2023/7/10,36,信息检索中自然语言处理方法,人们利用信息检索系统查询信息时存在着这样的现象:同一语义可以有多种不同的表达方式(举例说明),而不同用户使用相同的词汇进行查询的可能性又微乎其微,为解决这一实际问题,信息检索的研究者们引入了“语义相关”的概念,计算词汇间的语义相似度(semantic similarity),并据此对用户的查询词汇进行语义相似词汇的扩展或者改进用户查询与文档相似度的计算方法。语义相似度定义,36,2023/7/10,37,信息检索中的自然语言处理方法,词汇间语义相关度的计算方法大体上可以分成两类:基于统计的方法:将词汇的上下文信息的概率分布作为词汇间语义相关度计算的参照,这类方法建立在两个词汇具有某种程度的语义相关当且仅当它们出现在相同的上下文中这一假设的基础上。基于语义词典的方法:基于按照概念间结构层次关系组织的语义辞典的方法,这种方法建立在两个词汇具有一定的语义相关性当且仅当它们在概念间的结构层次网络图中存在一条通路(主要是上下位关系)这一假设的基础上。,37,2023/7/10,38,Outline,信息检索综述信息检索统计模型信息检索中的自然语言处理方法搜索引擎结束语,38,2023/7/10,39,搜索引擎,39,2023/7/10,40,搜索引擎,位于弗吉尼亚州的美国专利局总部档案库的一角,存放着几页看似毫不起眼的纸张。但如果拿出去拍卖的话,这几页纸将价值连城。因为其上记载着的,或将是全球最值钱的技术专利之一,正是它,催生并且支撑起了一个市值近600亿美金、位列全球市值第三的互联网公司百度。,40,2023/7/10,41,搜索引擎,李彦宏专利(美国专利商标局网站截图),41,2023/7/10,42,李彦宏和他的“超链分析”,人们今天使用的搜索其实已经非常智能,搜索结果按相关性排列有序,甚至可以根据用户历史记录进行个性化定制。但在九十年代中期,还没有真正意义上的搜索引擎,搜索结果冗杂,如何识别网站质量、防止作弊成为了一个难以突破的技术瓶颈。1996年正式提出“超链分析”概念并发表了相关文章,1997年2月申请了专利“超链分析技术”(Hypertext document retrieval system and method,专利号5,920,859)。超链分析技术的发明,一改互联网搜索杂乱无章、信息冗余的局面,使搜索效果大幅提升。,42,2023/7/10,43,佩奇和布林或受李彦宏启发,1997 年2月李彦宏提交了超链分析的专利申请;1998年4月李彦宏赴澳大利亚演讲搜索前瞻技术,其中听众席上就有佩奇和布林;1998年10月Google上线,同年申请了PageRank的专利,但由于PageRank与李彦宏之前申请的超链分析专利具有相似性,美国专利商标局2001年9月才获准了 PageRank专利申请。,43,2023/7/10,44,搜索引擎,根据曝光的李彦宏论文,超链分析(ESP)技术的本质是一种“投票”机制,一个链接可以看作一个网页对另一个网页的投票,票数决定排序。除了基本的投票机制,该技术还具有两方面特征:将链接文字作为重要信息加以利用,使搜索引擎更准确地理解目标网页的内容,从而有效地提高了搜索结果的相关性;根据投票者自身的权威性、推荐方式等属性调整投票权重,从而有效地提高了搜索结果的权威性。,44,2023/7/10,45,搜索引擎,在 1997至2000年间,李彦宏对自己的超链理论也通过论文著作逐步解析和完善,先后在IEEE刊物上发表,并不断在互联网搜索领域研究新的解决方案,随后李彦宏的新技术发明又申请了数项专利。1999年底,李彦宏回到祖国,创建中国人自己的搜索引擎公司百度。如今,百度成长为全球最大的中文搜索引擎及最大的中文网站,超链分析功不可没。,45,2023/7/10,46,结束语,信息检索综合应用了自然语言处理与数据库等领域的知识,它在社会生产的很多领域已经被广泛采用,例如知识管理系统、图书档案管理系统等,这些应用大都是基于关系数据库的,其相关技术已经比较成熟。近来随着互联网的迅速发展,对信息检索提出了更高的要求。现有的Internet搜索引擎都是基于关键字,然后通过关键字之间的逻辑运算,来完成一些高级检索。而对更高级的检索系统而言,像自然语言问答系统,其目标不仅仅是返回给用户所要查找信息所在的文本,而且要提取其中和用户的查询相关的答案,以减少用户在文本中的查找时间。,46,2023/7/10,47,参考文献计算机自然语言处理王晓龙等著感谢:等同学技术支持。,47,Thank You,