信息检索模型与搜索引擎排序算法.ppt
《信息检索模型与搜索引擎排序算法.ppt》由会员分享,可在线阅读,更多相关《信息检索模型与搜索引擎排序算法.ppt(44页珍藏版)》请在三一办公上搜索。
1、信息检索与搜索引擎排序算法,-徐艳霞,主要内容,1 信息检索模型介绍2 搜索引擎典型排序算法介绍3 适用于数学公式搜索引擎排序算法探讨,搜索引擎排序标准,如果我牙疼,应该去看怎样的医生呢?假设我只有三种选择:A医生,既治眼病,又治胃病;B医生,既治牙病,又治胃病,还治眼病;C医生,专治牙病。假如再加一个条件:B医生经验丰富,有二十年从医经历,医术高明,而C医生只有五年从医经验。结论:择医需要考虑两个条件,1:医生的专长与病情的适配程度 2:医生的医术 网页内容与用户查询的匹配程度 搜索引擎排序 网页本身的质量,目录,1.1 信息检索模型的定义 1.2 布尔模型 1.3 向量空间模型 1.4 概
2、率模型 1.5 典型的搜索引擎排序算法 1.6 适用于数学公式搜索引擎排序算法的探 讨,信息检索模型,1 信息检索模型的定义 什么是数学模型?为了某种特定目的,通过对现实世界的某一特定对象做出一些必要的简化与设,运用适当的数学工具得到的一种数学结构。面对相同的输入,模型的输出应能够无限地逼近现实世界的输出。信息检索模型 是用来描述文档和用户查询的表示形式以及它们之间相关性的框架,信息检索模型,信息检索的实质问题 对于所有文档,根据其与用户查询的相关程度由大到小进行排序。信息检索模型与搜索引擎排序算法关系 好的检索模型在相关性上产生和人类决策非常相关的结果,基于好的检索模型的排序算法能够在排序结
3、果顶部返回相关的文档。在TREC数据集上的试验中,最有效的排序算法来自于被明确定义的检索模型。(在商用的搜索引擎中,所使用的检索模型没用明确的定义,但其排序算法都依赖于坚实的数学基础),信息检索模型,信息检索模型,相关性概念 信息检索系统的形式化表示相关性 主题相关(一篇文档被判定和一个查询是同一主题)1.相关性 用户相关(考虑用户在判定相关性时涉及的所有因素)二元相关(简单判定一篇文档是相关还是非相关)2.相关性 多元相关(从多个层次判断相关性),信息检索模型,信息检索系统的形式化表示 D,Q,F,R(Di,q)1.文档表示 D 文档集合的机内表示 D=D1,D2,Dm 为了满足检索匹配所要
4、求的快速与便利,文档Di通常由从文档中抽取的能够表达文档内容的特征项(如索引项/检索词/关键词)来表示 设T=t1,t2,tn 为系统索引项集合 则Di=di1,di2,din(dij0)dij索引词tj在文档Di中的重要性(权值weight),信息检索模型,D,Q,F,R(Di,q)2 查询项表示 查询项Q表示为有m个权值的向量:Q=(q1,q2,q3,qm)其中qj是第j个词项的权值。3 F 文档与查询查询之间的匹配框架 4 R(Di,q)文档与用户查询之间相关度计算函数例:D1:Tropical Freshwater Aquarium Fish.D2:Tropical Fish,Aqua
5、rium Care,Tank Setup.D3:Keeping Tropical Fish and Goldfish in Aquariums,and Fish Bowls.D4:The Tropical Tank Homepage-Tropical Fish and Aquariums.,文档向量表示:,Terms Documents D1 D2 D3 D4aquarium 1 1 1 1bowl 0 0 1 0care 0 1 0 0Fish 1 1 2 1Freshwater 1 0 0 0Goldfish 0 0 1 0Homepage 0 0 0 1Keep 0 0 1 0Setup
6、 0 1 0 0Tank 0 1 0 1Tropical 1 1 1 2查询表示:如:查询项为“tropical fish”,则基于以上查询项的向量表示形式为:q=(0,0,0,1,0,0,0,0,0,0,1).,信息检索模型,1.1 信息检索模型的定义 1.2 布尔模型 1.3 向量空间模型 1.4 概率模型 1.5 典型的搜索引擎排序算法 1.6 适用于数学公式搜索引擎排序算法的探 讨,布尔模型,最早的IR模型 1957年,YBar-Hille就对布尔逻辑应用于计算机信息检索的可能性进行了探讨目前仍然应用于商业系统中典型系统:Lucene布尔模型的前提假设:1.在检索到的集合中所有文档关于
7、相关性是等价的。2.相关性是二元的。特点 1.检索的结果只输出结果(TURE|FALSE)。2.查询项被描述为布尔逻辑操作符(AND,OR,NOT)。,布尔模型,Q 查询q被表式成索引项的布尔组合形式 为方便计算文档D和查询q之间的相关度,一般将查询q的布尔表达式转换成析取范式(Disjunctive Normal Form,DNF)的形式Example q=(a b)z(az)(b z)(1,0,1)(1,1,1)(0,1,1),析取范式,(1)由有限个简单合取式构成的析取式称为析取范式。(2)仅由有限个文字构成的合取式称为简单合取式。,布尔模型,Example:q=病毒and(计算机or
8、电脑)and not 医 D:D1:据报道计算机病毒最近猖獗 D2:小王虽然是学医的,但对研究电脑病毒也感兴趣 D3:计算机程序发现了艾滋病病毒传播途径上述文档哪一个会被检索到?q=病毒(计算机电脑)医 q-dnf=(病毒计算机医)(病毒电脑医)采用完全匹配的方式-If sim(Di,q)=1,返回-If sim(Di,q)=0,不返回,布尔模型,ExampleD-D1:a,b,c,f,g,h D1=(1,1,0)-D2:a,f,b,x,y,z D2=(1,1,1)q-(ab)z(1,0,1)(0,1,1)(1,1,1)F-sim(D1,q)=0-sim(D2,q)=1R-将文档2返回,布尔模
9、型,缺点:效率完全依赖于用户,包含特定检索词的所有文档将按照某种和相关性无关的顺序(如:日期)呈现给用户。优点:查询项无局限性,可以是任何文档的特征而只非词语,可以直接在检索规范中融入元数据,如文档日期,文档类型。比排序检索更有效,文档可以在搜索过程中快速被剔除。,信息检索模型,1.1 信息检索模型的定义 1.2 布尔模型 1.3 向量空间模型 1.4 概率模型 1.5 典型的搜索引擎排序算法 1.6 适用于数学公式搜索引擎排序算法的探 讨,向量空间模型,向量空间模型(Vector Space Model,VSM)是由GSalton等人在1958年提出的代表系统 SMART(System fo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 模型 搜索引擎 排序 算法

链接地址:https://www.31ppt.com/p-5230014.html