基于网页内容和时间反馈的 PageRank 算法改进.doc
《基于网页内容和时间反馈的 PageRank 算法改进.doc》由会员分享,可在线阅读,更多相关《基于网页内容和时间反馈的 PageRank 算法改进.doc(5页珍藏版)》请在三一办公上搜索。
1、精品论文推荐基于网页内容和时间反馈的 PageRank 算法改进程建,房鸣 北京邮电大学计算机学院,北京 (100876) E-mail:chengjian08摘 要:搜索引擎的相关排序是搜索引擎的核心之一。分析 PageRank 算法后,指出其偏重 旧网页、没有考虑网页的重要性、无法判断网页内容的相似性等不足。结合 TCPageRank 算法和 PageRank-Time 算法优点,提出了一种改进的算法。该算法即考虑网页内容相关性,又 考虑网页的发布时间。从分析网页的内容的相似性上避免主题漂移;从网页发布的时间考虑 新网页的 PR 值,即旧网页下沉,新网页上浮。实验结果表明改进的排序算法符合
2、互联网的信息更新模型,提高了网页排序质量。 关键词:PageRank;时间反馈;VSM;搜索引擎 中图分类号:TP311.11引言搜索引擎是目前最流行的网络信息检索工具之一。根据中国互联网络信息中心最新调研 结果显示,2008 年中国互联网用户突破二亿,而且有超过 80%的用户使用搜索引擎作为他 们从网络上搜索信息的主要手段。因此,搜索引擎的发展对于推动互联网的进一步发展具有 相当的意义。然而,目前这些搜索引擎还存在着很大的局限性,最新调查结果显示,搜索结 果排序欠佳、搜索结果杂乱是主要因素。网页排序的方法主要有两大类:一种是基于网页内容分析进行排序,一种是基于互联网 的超链接结构分析进行排序
3、。基于内容的排序源于传统的信息检索,万维网搜索以其巨大的 数据规模对传统信息检索技术提出了新的挑战。而基于链接分析的排序才将互联网搜索与传 统的信息检索区分开来,适用于互联网大规模数据的检索。基于链接的算法主要有 PageRank 算法和 HITS 算法等。论文第二部分介绍 PageRank 算法及其改进的 PageRank 算法。第三部分详细说明改进 的 PageRank 算法。第四部分算法实验分析。第五部分总结全文。2PageRank算法2.1 PageRank算法原理PageRank 算法借鉴了传统情报检索理论中的引文分析方法:当网页 A 有一个链接指向 网页 B,就认为网页 B 获得了
4、一定的分数,该分值的多少取决于网页 A 的重要程度,即网 页 A 的重要性越大,网页 B 获得的分数就越高。由于互联网上的链接相互指向的复杂度, 该分值的计算过程是一个迭代过程,最终网页将按照所得的分数进行排序并检索。PageRank 算法模拟一个用户随机的遍历网络,设用户随机的到达一个网页的概率为 d 或者随机的沿着链接往下遍历的概率为 1-d,更进一步的假设该用户不会沿着刚才的链接返 回到已访问过的网页。因而每一个网页被访问的概率就是 PageRank 值,其计算公式如下:- 5 -PR(v) = (1 d ) + d * PR(u) / NuuBv(1)其中 PR(v)是网页的页面级别,
5、d 为介于(0,1)区间的衰减系数,一般取 0.85 左右,Bv 为指向 网页 v 的其它网页,Nu 是网页 u 中向外指出的链接数目。2.2 PageRank算法的缺点由于 PageRank 算法是离线计算这个网络的 PageRank 值,在用户查询时仅仅根据关键 字匹配获得网页集合,然后排序推荐给用户,因此具有很高的响应速度,并且搜索引擎 Google 中的成功也证明该算法是高效、合理的。但由于仅仅利用了网络的链接结构,该算 法还存在不少的缺点:(1) 从 PageRank 算法以及随机漫游模型中可以看出,在迭代过程中权值是按当前网页 的出度平均分配的,即在权值分配中平等对待链出的每个网页
6、,没有考虑网页的相对重要性。(2) PageRank 算法无法区分网页中的超链接是和网页主题相关还是不相关,即无法判断 网页内容上的相似性,这样就容易导致出现主题漂移问题。比如,Google,Yahoo 是互联网 上最受欢迎的网页,拥有很高的 PageRank 值。这样,如果用户输入一个查询关键字时,这 些网页往往也会出现在该查询的结果集中,并会占据很靠前的位置,而事实上这个网页与用 户的查询主题有时并不太相关。(3) PageRank 算法偏重旧网页,因为新网页刚被放到 Internet 上不久,由于时间短暂, 许多其他网页还没有指向它,通过公式(1)计算 PR 值就很低。在搜索引擎返回的结
7、果中往往 就会排到较后的位置,可能正好与用户的需求恰恰相反,因为很多情况下用户想看到较新的 网页。2.3 PageRank算法的改进2.3.1TCPageRank算法网页间的链接反映的是一种认可关系,网页 A 中有链接指向网页 B,说明网页 B 的内 容与 A 相关或具有一定的价值,同一网页中不同链接指向的网页的内容与当前网页内容的 相关程度是有差别的。基于此思想,Ingongngam 等人提出了以主题为中心的 PageRank(Topic Centric,简称 TCPageRank)算法,该算法指出网页权值的分配应和网页内容的相似度成正比, 被链接的网页内容与当前网页的内容越相似分配到的权值
8、比重就越大。改进后的 PageRank 的计算公式为:PR(v) = (1 d ) + d * PR(u) *Wcontent / NuuBv(2)其中 Wcontent 代表网页 V 和网页 U 内容相似度所占的权重,Bv 为指向网页 v 的其它网页,Nu 是网页 u 中向外指出的链接数目,关于 Wconten 的计算会在下章详细介绍。在 PageRank 算法中被大量链接的知名网站会获取较高的权重,相对于某个特定的查询, 即使他们它们与查询微弱相关也会排在结果的前列,这种现象称为主题漂移。主题漂移现象 使得查询的相关性遭到很大的破坏。TCPageRank 算法根据网页内容的相关性来分配权值
9、可 以有效的解决主题漂移现象。该算法解决 PageRank 算法缺点(2)。2.3.2PageRank-Time算法戚华春等人提出了 PageRank-Time 算法,该算法考虑新网页,即考虑网页的发布日期。 把网页的发布日期引入 PageRank 算法,使在网络上存在比较长时间的网页慢慢沉下去,新 的网页能迅速浮上来。但由于现在很多网页是由程序自动生成的,并且大量的 HTML 网页 的格式不规范,很难从网页中提取到该网页的发布时间。因此把网页的存在时间通过搜索引 擎搜索的周期数来表征。这一转换的核心思想是基于这样一个事实:一般而言,搜索引擎的搜索周期为半个月到一个月,如果一个网页存在的时间较
10、长,那它将在每个搜索周期里都将被搜索到(在同一个搜索周期里不管搜索到该网页几次,都算作 1 次)。即页面的存在时间反比于搜索引擎搜索到 该页面的次数 T。网页的时间反馈因子 Wt:Wt=e/T 其中 Wt 为网页的时间反馈因子,T 为 一个网页被搜索引擎访问的周期次数;e 为常数,它的取值受到式(1)中 d 的影响,且也和搜 索引擎的搜索周期相关。因此改进后的 PageRank 算法的公式为:PR(v) = (1 d ) + d * PR(u) / Nu + e / TuBv(3)在该算法中引入时间反馈因子,使网页的发布时间长短影响网页 PR 值的大小,改进的 算法有利于旧网页下沉,新网页上浮
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于网页内容和时间反馈的 PageRank 算法改进 基于 网页 内容 时间 反馈 算法 改进

链接地址:https://www.31ppt.com/p-5197349.html