信息检索20-链接分析.ppt
《信息检索20-链接分析.ppt》由会员分享,可在线阅读,更多相关《信息检索20-链接分析.ppt(52页珍藏版)》请在三一办公上搜索。
1、第20讲 链接分析Link Analysis,2017/10/31,提纲,上一讲回顾 锚文本 引用分析 PageRank HITS:Hub节点&Authority节点,上一讲回顾 锚文本 引用分析 PageRank HITS:Hub节点&Authority节点,提纲,4,4,基本的采集过程,初始化采集URL种子队列;重复如下过程:从队列中取出URL下载并分析网页从网页中抽取更多的URL将这些URL放到队列中这里有个“Web的连通性很好”的基本假设,5,5,基本的采集架构,6,6,分布式采集器,7,7,Mercator采集器(待采集URL缓冲池),8,本讲内容,锚文本:Web上的链接相关信息为什
2、么对IR有用?,HITS:另一个著名的基于链接分析的排序算法(IBM),PageRank:一个著名的基于链接分析的排序算法(Google),引用分析(Citation analysis):PageRank及其他基于链接排序方法的数学基础,上一讲回顾 锚文本 引用分析 PageRank HITS:Hub节点&Authority节点,提纲,10,Web可以看成一个有向图,假设1:超链接代表了某种质量认可信号超链 d1 d2 表示 d1的作者认可 d2 的质量和相关性 假设 2:锚文本描述了文档 d2 的内容 这里的锚文本定义比较宽泛,包括链接周围的文本例子:“You can find cheap
3、cars a href=http:/here/a.”锚文本:“You can find cheap here”,11,d2中文本 vs.d2中文本+锚文本 d2,后者往往效果好于前者例子:查询 IBMIBM 的版权页匹配上很多作弊网页匹配上IBM的wikipedia页面可能与IBM 的主页并不匹配!也许 IBM 的主页上大部分都是图而按照 锚文本 d2 来搜索效果会比较好这种表示下,出现IBM最多的是其主页,12,指向的很多锚文本中包含IBM,13,对锚文本构建索引,因此,锚文本往往比网页本身更能揭示网页的内容在计算过程中,锚文本应该被赋予比文档中文本更高的权重,14,课堂练习:PageRan
4、k背后的假设,假设1:Web上的链接是网页质量的标志链出网页的作者认为链向的网页具有很高的质量假设2:锚文本能够描述链向网页的内容通常情况下假设1是否成立?通常情况下假设2是否成立?,15,Google炸弹(Google bomb),Google炸弹是指由于人为恶意构造锚文本而导致的结果很差的搜索2007年1月Google引入了一个新的权重计算公式来修正了很多Google炸弹的结果。但是还有不少没有解决:dangerous cult on Google,Bing,Yahoo一些厌恶 Church of Scientology的任何联合构建链接已解决的Google炸弹:dumb motherf,
5、who is a failure?,evil empire,上一讲回顾 锚文本 引用分析 PageRank HITS:Hub节点&Authority节点,提纲,17,PageRank的起源:引用分析(1),引用分析:科技文献中的引用分析一个引用的例子:“Miller(2001)has shown that physical activity alters the metabolism of estrogens.”可以把“Miller(2001)”看成是两篇学术文献之间的超链接在科技文献领域使用这些“超链接”的一个应用:根据他人引用的重合率来度量两篇文献的相似度,这称为共引相似度在Web上也存在
6、共引相似度:Google中提供的“find pages like this”或者“Similar”功能,18,PageRank起源:引用分析(2),另一个应用:引用频率可以用度量一篇文档的影响度最简单的度量指标:每篇文档都看成一个投票单位,引用可以看成是投票,然后计算一篇文档被投票的票数。当然这种方法不太精确。在Web上:引用频率=入链数入链数目大并不一定意味着高质量.主要原因是因为存在大量作弊链接更好的度量方法:对不同网页来的引用频率进行加权一篇文档的投票权重来自于它本身的引用因子会不会出现循环计算?答案是否定的,实际上可以采用良好的形式化定义,19,PageRank的起源:引用分析(3),
7、更好的度量方法:加权的引用频率这就是PageRank的基本思路PageRank 最早起源于1960年代Pinsker和Narin提出的引用分析引用分析不是小事情,在美国,任何教职人员的薪水取决于其发表文章的影响力!,上一讲回顾 锚文本 引用分析 PageRank HITS:Hub节点&Authority节点,提纲,21,原始的PageRank公式,R(u)和R(v)是分别是网页u、v的PageRank值,Bu指的是指向网页u的网页集合、Nv是网页v的出链数目。一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。网页的每条出链上每个分量上承载了相同的P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 20 链接 分析

链接地址:https://www.31ppt.com/p-5229941.html