向量空间模型课件.ppt
《向量空间模型课件.ppt》由会员分享,可在线阅读,更多相关《向量空间模型课件.ppt(67页珍藏版)》请在三一办公上搜索。
1、网络信息内容安全讲义/张华平/2010-10,向量空间模型,向量空间模型是最常用的检索模型(Salton等人,1975年)思想:文章的语义通过所使用的词语来表达方法:每一篇文档用一个向量来表达,查询用一个向量来表达,通过向量的方式来计算相似度。,网络信息内容安全讲义/张华平/2010-10,向量空间模型,网络信息内容安全讲义/张华平/2010-10,向量空间模型,主要涉及两方面的工作:(1)如何构建一个向量来表示文档中 的词项,构建另一个向量来表示查询中的词项.(2)如何来度量任意文档向量和查询向量的相似度,网络信息内容安全讲义/张华平/2010-10,向量空间模型 构建向量,对于文档集中每一
2、个不同的词项(或概念),我们在向量中只记录一个分量。当词项出现时,就在对应向量的分量处记1;如果词项未出现,就在对应的分量处记0。,网络信息内容安全讲义/张华平/2010-10,向量空间模型 构建向量,文档:,D1,D3,D2,Q,A,A,I,I,A,I,文档向量:,D2=,D3=,Q=,D1=,D1,Q,x,y,1,D2,D3,1,网络信息内容安全讲义/张华平/2010-10,二值表示方法并没有考虑一个词项在文档中出现的次数。通过扩展这种表示形式,我们将词项在文档中出现的频率作为向量中各个分量的值。在上例中,如果文档D2中A出现了两次,向量可以表示为。,向量空间模型 构建向量,网络信息内容安
3、全讲义/张华平/2010-10,除了简单地给出查询词列表外,用户通常还会给出权重,该权重表示一个词项比另外一个词项更重要。思想:不频繁出现的词的权重应该比频繁出现的词的权重更高。方法:人工赋值在初始查询中用户人工指定词 项权重来实现的。自动赋值通过基于词项在整个文档集中 出现的频率。,向量空间模型 构建向量,网络信息内容安全讲义/张华平/2010-10,向量空间模型 构建向量,我们采用稍大一些的例子来展示如何使用基于数据集频率的权重。t文档集中不同词项的个数。词项tj在文档Di中出现的次数,也就是词频。包含词项tj的文档的篇数。,其中d表示所有文档的篇数。这就是逆文档频率。,网络信息内容安全讲
4、义/张华平/2010-10,对于每一篇文档向量,都有n个分量。向量中的每个分量为在整个文档集中计算出来的每个词项的权重。在每篇文档中,词项权重基于词项在整个文档集中出现的频率情况以及词项在某一个特定文档中出现的频率自动赋值。,向量空间模型 构建向量,网络信息内容安全讲义/张华平/2010-10,向量空间模型 构建向量,对于文档中词项的权重因素,主要综合考虑词频和逆文档频率。文档i对应的向量中第j个词条的值:查询Q和文档Di的相似度可以简单地定义为两个向量的内积。,网络信息内容安全讲义/张华平/2010-10,Q:“gold silver truck”D1:“Shipment of gold d
5、amaged in a fire”D2:“Delivery of silver arrived in a silver truck”D3:“Shipment of gold arrived in a truck”在这个文档集中,d=3。lg(d/dfi)=lg(3/1)=0.477 lg(d/dfi)=lg(3/2)=0.176 lg(d/dfi)=lg(3/3)=0,向量空间模型 构建向量(举例),网络信息内容安全讲义/张华平/2010-10,三篇文档的每个词项的IDF值如下所示:idfa=0 idfin=0 idfarrived=0.176 idfof=0 idfdamaged=0.477
6、 idfsilver=0.477 idfdelivery=0.477 Idfshipment=0.17615 idffire=0.477 idftruck=0.176 idfgold=0.176,向量空间模型 构建向量(举例),网络信息内容安全讲义/张华平/2010-10,向量空间模型 构建向量(举例),网络信息内容安全讲义/张华平/2010-10,向量空间模型 倒排索引,网络信息内容安全讲义/张华平/2010-10,向量空间模型 构建向量,新问题:在已知的查询和文档中,词频很高的匹配词项淹没了其他匹配词项的效果。为了避免这种现象,科研人员提出使用lg(tf)+1来缩小词频的范围。新的权重:,
7、网络信息内容安全讲义/张华平/2010-10,基于该思想的修订版本是在查询和文档中的词项使用不同的权重。lnc.ltc词项权重计算模式非常有效。标签lnc.ltc是如下形式:qqq.ddd,其中qqq指查询权重,ddd指文档权重。这三个字母:qqq或ddd是xyz的形式。,向量空间模型 构建向量,网络信息内容安全讲义/张华平/2010-10,向量空间模型 构建向量,第一个字母x可以是n、l或a。n表示原始词频或指tf。l表示通过取对数来降低权重,所以可以使用1+lg(tf)。a表示加强权重,所以权重为:第二个字母y表示是否使用idf。n表示不使用idf,t表示使用idf。第三个字母z表示是否使
8、用文档长度归一化。通过归一化文档长度,我们试着减小检索中文档长度的影响(见公式2-1)。在文献Singhal,1997中,n表示不使用归一化,c表示使用标准的余弦归一化,u表示使用临界点长度(pivoted length)归一化。,网络信息内容安全讲义/张华平/2010-10,向量空间模型 相似度,文档向量:查询向量:(1)内积(Inner Product)问题:通过内积方法,一个比较长的文档可能会得到一个比较高的分数,仅仅因为文档比较长,因此有更多的机会包含查询词并不一定因为文档是相关的。,网络信息内容安全讲义/张华平/2010-10,向量空间模型 相似度,(2)余弦(Cosine)条件假设
9、:余弦方法中假定文档长度对查询没有影响。余弦方法通过将向量内积除以文档向量的长度来实现不同文档长度的归一化。除以文档向量长度就是不考虑文档长度。,网络信息内容安全讲义/张华平/2010-10,向量空间模型 相似度,Dice系数:Jaccard系数:,网络信息内容安全讲义/张华平/2010-10,然而这种简单的假设是不正确的(至少对于TREC数据)。拿50个TREC查询集所有查找到的相关文档来说,Singhal发现实际上在长文档集中更多文档被判断为相关的Singhal,1997。原因可能是长文档仅仅是有更多的机会包含那些与给定查询确实相关的词项。,向量空间模型 相似度,网络信息内容安全讲义/张华
10、平/2010-10,向量空间模型 相似度,(3)临界点余弦(Pivoted Cosine),网络信息内容安全讲义/张华平/2010-10,向量空间模型 相似度,相似度为:这种方法有两个变量:分别为斜率s和临界点p。我们也有可能将斜率s表示为临界点的函数。Singhal在纠正和调整相应的斜率之前,将整个文档集上统计计算出来的平均归一化因子选定为临界点。同时,将归一化因子除以(1.0-s)p。,网络信息内容安全讲义/张华平/2010-10,向量空间模型 相似度,计算相似度的等式如下:(2-1)其中avgn是在任何纠正前的平均文档归一化因子,s值凭经验得到。临界点模式对于短文档和中等长度的文档还算有
11、成效,但是与归一化前相比,整个算法会更有利于特别长的文档。,网络信息内容安全讲义/张华平/2010-10,向量空间模型 相似度,最后一种调整是针对在特别长文档中出现的词频特别高的情况。首先,使用1+lg来限制词频。为了应对长文档,将每个词项权重除以平均词项权重。新的权重dij为:使用新权重,并且除以调整因子的新公式如下:(2-2),网络信息内容安全讲义/张华平/2010-10,向量空间模型 相似度,然后我们计算给定文档集中每篇文档的词项的平均数量,并且将其作为临界点p。一旦计算完成,就可以使用文档集就上训练出一个很好的斜率。公式(2-2)被称为临界点唯一归一化(pivoted unique n
12、ormalization)。实验表明,在公式(2-1)临界点余弦归一化的基础上检索效果得到了提高。修改后的归一化因子使得更可能检索到长文档,并且对于TREC查询,性能可以提高10%。,网络信息内容安全讲义/张华平/2010-10,概率检索模型 Probabilistic Retrieval Model,网络信息内容安全讲义/张华平/2010-10,概率模型,概率模型通过计算文档与查询相关的概率来作为文档和查询的相似度。这就使相关性排序问题降为概率论应用问题。起源思想:基于一个词项分别在相关文档和不相关文档中出现的频率来估计该词项的权重。条件:独立性假设 词项间是独立的方法:查询中的词项可以看做
13、文档相关的指示器。经过观察,我们发现词项A同时在文档和查询中出现时,文档相关的概率为x%。这样我们就为词项A赋值这个概率。所有权重的乘积是文档相关的概率。,网络信息内容安全讲义/张华平/2010-10,简单词项权重,估计给定词项在相关文档中的概率假设D1和D2是相关文档,D3、D4和D5是非相关文档词项t1使文档Dj相关的概率:,网络信息内容安全讲义/张华平/2010-10,给定一篇文档di,它包含t个词项(w1,w2,wt)对于文档中一个已知的词项,它对估计整篇文档相关的贡献可以计算为:文档di相关的权重或者“可能性”基于文档中每个词项相关的概率。基于已知的独立性假设,我们可以将文档中每个词
14、项出现的概率相乘来得到文档相关的概率,最后将乘积取对数:,简单词项权重,网络信息内容安全讲义/张华平/2010-10,两个相互排斥的独立性假设:Robertson和Spark Jones,1976 I1:词项在相关文档中的分布是独立的并且在所有文档中的分布是独立的。I2:词项在相关文档中的分布是独立的并且它们在非相关文档中的分布也是独立的。排序原则:O1:相关的可能性仅仅基于文档中出现的查询词项。O2:相关的可能性基于文档中出现的查询词项和未出现的查询词项。,简单词项权重,网络信息内容安全讲义/张华平/2010-10,在不同的排序原则和独立性假设的组合下,可以得出4种权重。给出一个词项t,考虑
15、以下变量:N文档集中文档的数量;R对于已知查询q对应的相关文档的数量;n包含词项t的文档数目;r包含词项t的相关文档数目。选择I1和O1组合:,简单词项权重,网络信息内容安全讲义/张华平/2010-10,选择I2和O1组合:选择I1和O2组合:选择I2和O2组合:,简单词项权重,网络信息内容安全讲义/张华平/2010-10,当使用不完整的相关性信息时,由于估计相关性的不确实性,我们将权重都加0.5,新的权重公式为:,简单词项权重,网络信息内容安全讲义/张华平/2010-10,Q:“gold silver truck”D1:“Shipment of gold damaged in a fire.
16、”D2:“Delivery of silver arrived in a silver truck.”D3:“Shipment of gold arrived in a truck.”我们假定这三篇文档是训练数据,并且认为文档D2和文档D3与该查询相关。为了计算相似度,首先计算出查询词项的权重,然后计算出匹配词项的权重的和。,简单词项权重举例,网络信息内容安全讲义/张华平/2010-10,简单词项权重举例,每个查询词项的频率 使用以上公式进行计算,我们得出以下权重:gold:,网络信息内容安全讲义/张华平/2010-10,silver:truck:,简单词项权重举例,网络信息内容安全讲义/张华
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 向量 空间 模型 课件
链接地址:https://www.31ppt.com/p-3676879.html