《信息检索模型》PPT课件.ppt
《《信息检索模型》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索模型》PPT课件.ppt(99页珍藏版)》请在三一办公上搜索。
1、信息检索模型,哈工大信息检索研究室2007,这一部分将讲述,布尔模型,向量空间模型,扩展的布尔模型概率模型和基于语言模型的信息检索模型的区别和联系基于本体的信息检索模型和基于隐性语义索引的信息检索模型,信息检索模型的概述,什么是模型?,模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述面对相同的输入,模型的输出应能够无限地逼近现实世界的输出举例:天气的预测模型信息检索模型给出了文档的表示方法,查询的表示方式以及查询与文档的匹配过程,信息检索模型,信息检索模型是一个四元组D,Q,F,R(qi,dj)D:文档集的机内表示Q:用户需求的机内表示F:文档表示、查询表示和它们之间的关系的模型框
2、架(Frame)R(qi,dj):排序函数,给query qi 和document dj评分信息检索模型取决于:从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度,模型分类,信息检索模型,布尔向量空间概率知识,模糊集扩展的布尔模型,集合论,代数,扩展的向量空间隐性语义索引神经网络,语言模型推理网络信念网络,概率,基于本体论的模型,人工智能,布尔模型(Boolean Model),布尔模型,最早的IR模型,也是应用最广泛的模型目前仍然应用于商业系统中Lucene是基于布尔(Boolean)模型的,布尔模型描述,文档表示一个文档被表示为关键词的
3、集合查询式表示查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时,才将其检索出来检索策略基于二值判定标准,举例,Q=病毒AND(计算机OR电脑)ANDNOT医文档:D1:据报道计算机病毒最近猖獗D2:小王虽然是学医的,但对研究电脑病毒也感兴趣D3:计算机程序发现了艾滋病病毒传播途径上述文档哪一个会被检索到?,优点,到目前为止,布尔模型是最常用的检索模型,因为:由于查询简单,因此容易理解通过使用复杂的布尔表达式,可以很方便地控制查询结果相当有效的实现方法相当于识别包含了一个某个特定term的文档经过某种训练的
4、用户可以容易地写出布尔查询式布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”,问题,布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回非常刚性:“与”意味着全部;“或”意味着任何一个很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?,向量空间模型,模型的提出,Gerard Salton在上世纪60年代提出的向量空间模型进行特征表达成功应用于SMART(System
5、 for the Manipulation and Retrieval of Text)文本检索系统这一系统理论框架到现在仍然是信息检索技术研究的基础,模型的描述,文档D(Document):泛指文档或文档中的一个片段(如文档中的标题、摘要、正文等)。索引项t(Term):指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是通常所指的检索词,这样一个文档D就可以表示为D(t1,t2,tn),其中n就代表了检索字的数量。特征项权重Wk(Term Weight):指特征项tn能够代表文档D能力的大小,体现了特征项在文档中的重要程度。相似度S(Similarity):指两个文档内容相关
6、程度的大小,模型的特点,基于关键词(一个文本由一个关键词列表组成)根据关键词的出现频率计算相似度例如:文档的统计特性用户规定一个词项(term)集合,可以给每个词项附加权重未加权的词项:Q=database;text;information 加权的词项:Q=database 0.5;text 0.8;information 0.2 查询式中没有布尔条件根据相似度对输出结果进行排序支持自动的相关反馈有用的词项被添加到原始的查询式中例如:Q database;text;information;document,模型中的问题,怎样确定文档中哪些词是重要的词?(索引项)怎样确定一个词在某个文档中或在整
7、个文档集中的重要程度?(权重)怎样确定一个文档和一个查询式之间的相似度?,索引项的选择,若干独立的词项被选作索引项(index terms)or 词表vocabulary索引项代表了一个应用中的重要词项计算机科学图书馆中的索引项应该是哪些呢?,索引项的选择,这些索引项是不相关的(或者说是正交的),形成一个向量空间vector space实际上,这些词项是相互关联的当你在一个文档中看到“计算机”,非常有可能同时看到“科学”当你在一个文档中看到“计算机”,有中等的可能性同时看到“商务”当你在一个文档中看到“商务”,只有很少的机会同时看到“科学”,词项的权重,根据词项在文档(tf)和文档集(idf)
8、中的频率(frequency)计算词项的权重tfij=词项j在文档i中的频率df j=词项j的文档频率=包含词项j的文档数量idfj=词项j的反文档频率=log2(N/df j)N:文档集中文档总数反文档频率用词项区别文档,文档的词项权重(TFIDF举例),文本:“俄罗斯频繁发生恐怖事件,俄罗斯的安全部门加大打击恐怖主义的力度。”,Idf 计算示例,查询式的词项权重,如果词项出现在查询式中,则该词项在查询式中的权重为1,否则为0也可以用用户指定查询式中词项的权重一个自然语言查询式可以被看成一个文档查询式:“有没有周杰伦的歌?”会被转换为:查询式:“请帮我找关于俄罗斯和车臣之间的战争以及车臣恐怖
9、主义首脑的资料”会被转换为:过滤掉了:“请帮我找”,“和”,“之间的”,“以及”,“的资料”两个文档之间的相似度可以同理计算,由索引项构成向量空间,2个索引项构成一个二维空间,一个文档可能包含0,1 或2个索引项di=0,0(一个索引项也不包含)dj=0,0.7(包含其中一个索引项)dk=1,2(包含两个索引项)类似的,3个索引项构成一个三维空间,n个索引项构成n维空间一个文档或查询式可以表示为n个元素的线性组合,文档集 一般表示,向量空间中的N个文档可以用一个矩阵表示矩阵中的一个元素对应于文档中一个词项的权重。“0”意味着该词项在文档中没有意义,或该词项不在文档中出现。,T1 T2.TtD1
10、 d11 d12 d1tD2 d21 d22 d2t:Dn dn1 dn2 dnt,图示,举例:D1=2T1+3T2+5T3D2=3T1+7T2+T3Q=0T1+0T2+2T3,D1比D2更接近Q吗?怎样衡量相似程度?夹角还是投影,相似度计算,相似度是一个函数,它给出两个向量之间的相似程度,查询式和文档都是向量,各类相似度存在于:两个文档之间(文本分类,聚类)两个查询式之间(常问问题集)一个查询式和一个文档之间(检索)人们曾提出大量的相似度计算方法,因为最佳的相似度计算方法并不存在。,通过计算查询式和文档之间的相似度,可以根据预定的重要程度对检索出来的文档进行排序可以通过强制设定某个阈值,控制
11、被检索出来的文档的数量检索结果可以被用于相关反馈中,以便对原始的查询式进行修正。(例如:将文档向量和查询式向量进行结合),相似度度量 内积(Inner Product),文档D 和查询式Q 可以通过内积进行计算:sim(D,Q)=(dik qk)dik 是文档di中的词项k 的权重,qk 是查询式Q中词项k的权重对于二值向量,内积是查询式中的词项和文档中的词项相互匹配的数量对于加权向量,内积是查询式和文档中相互匹配的词项的权重乘积之和,内积 举例,二值(Binary):D=1,1,1,0,1,1,0Q=1,0,1,0,0,1,1sim(D,Q)=3,retrieval,database,arc
12、hitecture,computer,text,management,information,向量的大小=词表的大小=70 意味着某个词项没有在文档中出现,或者没有在查询式中出现,加权 D1=2T1+3T2+5T3 D2=3T1+7T2+T3 Q=0T1+0T2+2T3sim(D1,Q)=2*0+3*0+5*2=10 sim(D2,Q)=3*0+7*0+1*2=2,内积的特点,内积值没有界限不象概率值,要在(0,1)之间对长文档有利内积用于衡量有多少词项匹配成功,而不计算有多少词项匹配失败长文档包含大量独立词项,每个词项均多次出现,因此一般而言,和查询式中的词项匹配成功的可能性就会比短文档大。
13、,余弦(Cosine)相似度度量,余弦相似度计算两个向量的夹角余弦相似度是利用向量长度对内积进行归一化的结果,CosSim(Di,Q)=,D1=2T1+3T2+5T3 CosSim(D1,Q)=5/38=0.81D2=3T1+7T2+T3 CosSim(D2,Q)=1/59=0.13 Q=0T1+0T2+2T3,用余弦计算,D1 比 D2 高6倍;用内积计算,D1 比 D2 高5倍,其它相似度度量方法,存在大量的其它相似度度量方法,Jaccard Coefficient:,D1=2T1+3T2+5T3 Sim(D1,Q)=10/(38+4-10)=10/32=0.312D2=3T1+7T2+T
14、3 Sim(D2,Q)=2/(59+4-2)=2/61=0.033 Q=0T1+0T2+2T3,D1 比 D2 高9.5倍,示例,二值化的相似度度量,Inner Product:Cosine:Jaccard:,di and qk here are sets of keywords,di 和 qk here are vector,向量空间优点,术语权重的算法提高了检索的性能 部分匹配的策略使得检索的结果文档集更接近用户的检索需求可以根据结果文档对于查询串的相关度通过Cosine Ranking等公式对结果文档进行排序,不足,标引词之间被认为是相互独立随着Web页面信息量的增大、Web格式的多样化
15、,这种方法查询的结果往往会与用户真实的需求相差甚远,而且产生的无用信息量会非常大隐含语义索引模型是向量空间模型的延伸,扩展的布尔模型,布尔检索示例,“飞碟”AND“小说”:只能检索出D4,无法显现D1,D2,D3的差异“飞碟”OR“小说”:可以检出D1,D2,D4,但无法显现它们的差异,布尔模型和向量空间模型相结合,布尔模型可以和向量空间模型相结合,先做布尔过滤,然后进行排序:首先进行布尔查询将全部满足布尔查询的文档汇集成一个文档用向量空间法对布尔检索结果进行排序,如果忽略布尔关系的话,向量空间查询式和布尔查询式是相同的,先“布尔”,后“排序”存在的问题,如果“与”应用于布尔查询式,结果集可能
16、太窄,因而影响了后面的排序过程如果“或”应用于布尔查询式,就和纯向量空间模型没有区别了在第一步,如何最佳地应用布尔模型呢?提出扩展布尔模型,扩展布尔模型中的“或”关系,给定一个或关系的查询式:x y假设文档di中x和y的权重被归一化在(0,1)区间内:wx,j=(tfx,j/maxl tfl,j)(idfx/maxi idfi)sim(qor,dj)=(x2+y2)/2 0.5 where x=wx,j and y=wy,j,一个文档在(1,1)处获得最高的权重,此时意味着文档包含了全部两个查询词,并且查询词在文档中的权重也是最高的函数sim()度量了从原点出发的文档向量长度,扩展布尔模型中的
17、“与”关系,给定一个联合的查询式 x ysim(qand,dj)=1(1 x)2+(1 y)2/2 0.5函数sim()表示从(1,1)出发到d的向量长度,扩展的布尔检索相似度计算示例,观察,如果权值是布尔型的,x出现在文档dj中,则x在文档dj中具有权重1,否则为0当dj 包含x和y时sim(qand,dj)=sim(qor,dj)=1当dj 既不包含x 也不包含y时sim(qand,dj)=sim(qor,dj)=0当dj 包含x 和y二者之一时sim(qand,dj)=1 1/20.5=0.293sim(qor,dj)=1/20.5=0.707,观察,一个词项的存在将对“或”关系查询式提
18、供0.707的增益值,但对“与”关系查询式仅提供0.293的增益值一个词项不存在,将给“与”关系的查询式提供0.707的罚分当x 和y 有权值0.5,sim(qand,d)=sim(qor,d)=0.5在一个“与”关系查询中,两个词项的权重均为0.5,则相似度为0.5。其中一个权重为1,另一个为0,相似度为0.293。在“或关系”查询中,情况恰好相反在“与关系”查询中,如果一个词项的权重低于0.5,将给相似度贡献一个较大的罚分,p-norm 模型,扩展布尔模型可以被泛化为m 个查询项:sim(qor,d)=(x12+x22+.+xm2)/m 0.5sim(qand,d)=1(1 x1)2+(1
19、 x2)2+.+(1 xm)2/m 0.5它可以被进一步地 泛化为p-norm model:sim(qor,d)=(x1p+x2p+.+xmp)/m 1/psim(qand,d)=1(1 x1)p+(1 x2)p+.+(1 xm)p/m 1/p当p=1时,sim(qor,d)=sim(qand,d)=(x1+x2+.+xm)/m通过语词-文献权值的和来求合取和析取查询的值,和向量空间中的内积相似当p=,sim(qor,d)=max(xi);sim(qand,d)=min(xi)模糊逻辑模型(Fuzzy logic model),概率模型,概率模型,检索问题即求条件概率问题If Prob(R|d
20、i,q)Prob(NR|di,q)then di是检索结果,否则不是检索结果,检索的理想结果,理想答案集(ideal answer set)给定一个用户的查询串,相对于该串存在一个包含所有相关文档的集合我们把这样的集合看作是一个理想的结果文档集用索引项刻画理想答案集的属性把查询处理看作是对理想结果文档集属性的处理我们并不能确切地知道这些属性,我们所知道的是用索引词的语义来刻画这些属性,实际采取的策略,初始估计由于在查询期间这些属性都是不可见的,这就需要在初始阶段来估计这些属性。这种初始阶段的估计允许我们对首次检索的文档集合返回理想的结果集,并产生一个初步的概率描述。相关反馈(relevance
21、 feedback)为了提高理想结果集的描述概率,系统需要与用户进行交互式操作,具体处理过程如下:用户大致浏览一下结果文档,决定哪些是相关的,哪些是不相关的;然后系统利用该信息重新定义理想结果集的概率描述;重复以上操作,就会越来越接近真正的结果文档集。,概率模型的理论,概率模型是基于以下基本假设:给定一个用户的查询串 q和集合中的文档dj,概率模型估计用户查询串与文档dj 相关的概率。概率模型假设这种概率只决定于查询串和文档。更进一步说,该模型假定在文档集合中存在一个子集,即相对于查询串q的结果文档子集,这种理想的集合用R表示,集合中的文档是被预料与查询串相关的。这种假设存在着缺点,因为它没有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息检索模型 信息 检索 模型 PPT 课件

链接地址:https://www.31ppt.com/p-5464167.html