搜索引擎的信息覆盖率.ppt
《搜索引擎的信息覆盖率.ppt》由会员分享,可在线阅读,更多相关《搜索引擎的信息覆盖率.ppt(25页珍藏版)》请在三一办公上搜索。
1、搜索引擎的信息覆盖率评测模型研究,孟涛 09808049指导教师:李晓明教授2002年6月,引言,互联网信息资源数量的指数级增长、网络信息博物馆对网页资源的要求需要一套有效的办法评测搜集系统的搜集性能,本文的工作由此展开,网页搜集的不完全性,WWW有向图结构结构本身所致(入度为0或不存在路径)优先排序、搜集系统资源所限导致不断出现的新网页无法搜集,三类重要的信息覆盖率,数量覆盖率质量覆盖率可视信息覆盖率,模型建立,覆盖率=搜集网页数/实际WWW网页数覆盖率=样本覆盖数/样本容量模型图示,数量覆盖率:随机IP法,模型修正与误差分析,结果:5.72%缺点:无法区别该IP地址的网站大小,存在大量的无
2、效IP地址改进方法:利用链接关系作链接扩展,减小上述的不利影响修正结果:23.5%,数量覆盖率:广度优先法,试验结果与误差分析,局部角度,利用网页间链接关系结果:选取5组样本求覆盖率均值41.6%误差修正:大约10%的网页无法通过链接到达,对结果乘以90%处理得37.4%,误差修正原理,网页重要性评价因素,网页URL属性:域名长短,目录深度网页作为有向图的节点:链接表示着认可度的传递,通常入度越大越重要网页本身的内容:与查询用户宽主题查询词的匹配程度,两类重要的权值算法之一:PageRank,学术论文引用统计原理在WWW上的扩展PR(A)=,两类重要的权值算法之二:HITS(Hyperlink
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 信息 覆盖率
链接地址:https://www.31ppt.com/p-6575449.html