《隐性语义索引》PPT课件.ppt
《《隐性语义索引》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《隐性语义索引》PPT课件.ppt(36页珍藏版)》请在三一办公上搜索。
1、1,第18讲 隐性语义索引Latent Semantic Indexing,2011/11/27,2,提纲,上一讲回顾隐性语义索引 空间降维处理LSI 在IR中的应用,3,提纲,上一讲回顾隐性语义索引 空间降维处理LSI 在IR中的应用,4,4,层次聚类,层次聚类的目标是生成类似于前面提到的Reuters目录的一个层次结构:这个层次结构是自动创建的,可以通过自顶向下或自底向上的方法来实现。最著名的自底向上的方法是层次凝聚式聚类(hierarchical agglomerative clustering,HAC)。,5,5,单连接:最大相似度(最短距离),6,6,全连接:最小相似度,7,7,质心
2、法,8,8,组平均,9,9,四种HAC算法的比较,10,10,簇标签生成的例子,三种方法:选择质心向量中的突出词项,使用MI的差别式标签,使用离质心最近的文档的标题三种方法的结果都不错,11,11,本讲内容,矩阵SVD分解隐性语义索引LSI(Latent Semantic Indexing)LSI在IR中的应用,12,提纲,上一讲回顾隐性语义索引 空间降维处理LSI 在IR中的应用,13,13,回顾一下词项-文档矩阵,该矩阵是计算文档和查询相似度的基础,接下来我们要介绍,能否通过对该矩阵进行转换来获得文档和查询之间的一个更好的相似度计算方法?,14,14,隐性语义索引LSI简介,我们将词项-文
3、档矩阵转换成多个矩阵的乘积这里我们使用的是一个特定的分解方法:奇异值分解(singular value decomposition,简称SVD)SVD:C=UV T(其中 C=词项-文档矩阵)利用SVD分解的结果我们来构造一个新的、改进的词项-文档矩阵 C通过C 我们可以得到一个更好的相似度计算方法(相对于 C而言)为了这种目的使用SVD被称为隐性语义索引(latent semantic indexing)或者简称 LSI。,15,15,例子C=UVT:矩阵C,上面给出了一个标准的词项-文档矩阵,为简单起见,这里使用了布尔矩阵。,16,16,例子 C=UVT:矩阵U,每个词项对应一行,每个mi
4、n(M,N)对应一列,其中M为词项的数目,N是文档的数目。这是个正交矩阵:列向量都是单位向量;任意两个列向量之间都是互相正交的。可以想象这些列向量分别代表不同的“语义”维度,比如政治、体育、经济等主题。矩阵元素 uij 给出的是词项i和第j个“语义”维度之间的关系强弱程度。,17,17,例子 C=UVT:矩阵,这是个min(M,N)min(M,N)的对角方阵。对角线上是矩阵C的奇异值。奇异值的大小度量的是相应“语义”维度的重要性。我们可以通过忽略较小的值来忽略对应的“语义”维度,18,18,例子C=UVT:矩阵VT,每篇文档对应一列,每 min(M,N)对应一行。同样,这也是一个正交矩阵:(i
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 隐性语义索引 隐性 语义 索引 PPT 课件

链接地址:https://www.31ppt.com/p-5654710.html