一个借助查询历史改善结果排序的文件检索系统的设计与实现硕士毕业论文.doc
《一个借助查询历史改善结果排序的文件检索系统的设计与实现硕士毕业论文.doc》由会员分享,可在线阅读,更多相关《一个借助查询历史改善结果排序的文件检索系统的设计与实现硕士毕业论文.doc(59页珍藏版)》请在三一办公上搜索。
1、北京大学硕士研究生学位论文题目:一个借助查询历史改善结果排序的文件检索系统的设计与实现姓 名: 学 号: 院 系:信息科学技术学院专 业:计算机系统结构研究方向:计算机网络与分布式系统导 师: 版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。摘 要随着网络的发展,网络上提供文件共享服务的服务器越来越多,共享的文件数量也随之增加。如何更好的检索、利用这些共享文件成为一个重要的问题。针对用户对文件检索的需求,本文在文件检索技术领域有如下贡献。1. 本文首先提出
2、了一个文件检索的模型,明确了在文件检索模型中检索对象、查询串、查询与检索对象的匹配方式三部分的含义。检索对象,即文件条目表示为六元组name, ext, size, date, site, path的形式,查询串表示为以空格分隔的字符串的集合,查询与检索对象的匹配则表示为查询串与文件条目的匹配串之间的匹配。2. 提出了对文件检索系统进行评测的指标。将查询结果视作集合时以查全率、查准率为评测指标。将查询结果视作有序序列时,分析了查询结果的相关性、连接下载速度以及结果的可用性等因素对排序的影响,并提出了对排序进行评测的指标排序指数。作者还提出对于两个排序策略进行比较时,应当在结果的每个页面内部应用
3、排序策略,而不是在全体结果集合上应用排序策略,并比较平均用户选取条目的页内排名。3. 通过统计、分析用户对文件搜索引擎的检索和对检索结果中下载地址条目的选取,作者发现了用户行为习惯中的两个重要规律:一、少数查询串占据了全部查询请求的大多数,具体而言,前20%的热门查询串占据了全部查询请求的80%;二、对全体用户而言,假设有n次不同的查询请求使用了同一个查询串,并且它们代表k类不同的查询意图。那么通常k3,因而在n较大的情况下,则n/k的值较大,即大量的来自不同用户的请求代表了相同的查询意图。4. 基于上文所述,作者设计并实现了一个真实的系统。该系统借助查询历史改善结果的排序。与一般基于用户历史
4、信息的检索系统不同的是,本系统借助的历史信息不局限于当前用户的历史信息,还包含提交了相同查询串的其他用户的查询信息。或者说,即使当前用户是第一次使用本系统,本系统也能利用其他用户的历史记录来改进结果的排序和筛选。作者最后还验证了其实际的效果。应用本方法后,平均用户选取条目的页内排名从原来的13.70名前进到了8.93名。试验结果表明文中所做的分析是正确的。关键词:文件检索系统,查询历史,检索模型The Design and Implementation of a File Index System which Improve the Order by Query History Abstrac
5、tWith the rapid expansion of the Internet, there are more sharing file servers. And the number of sharing files is increasing rapidly too. So its more important to retrieve these files easily.For the requirement of file retrieving of the users, we did the following jobs:1. We proposed a file index m
6、odel. The model is composed of the expression of an index object, the expression of a query, and how the query word matches the index object. The index object can be expressed as name, ext, size, date, site, path, the query string is expressed as strings separated by space, and the matching between
7、query and index object is realized by matching the query string and the matching strings of the file item.2. We also proposed the evaluation indicator for the file index evaluation. The precision and recall are useful when we evaluate the query result. But the result is not a set, but an ordered lis
8、t. So we indicated the factors in order: the relativity of the item, the connecting and download speed and the availability of the site. We proposed how to evaluate the order: average rank of chosen items. If we just want to compare two ranking strategy, we should not reorder all items in the result
9、 set but only reorder the items within each page and compare the average rank of chosen items within page.3. By analyzing the records of users queries and the file items that users chosen from a real file search engine, we discovered two lows. 1). Most query strings are repeating hot query strings.
10、80% query words are the top 20% hot query strings. 2) If there are n times of queries using the same query strings, and the total number of different intensions is k. Then k should be a very small number (usually, k4), and n/k is a large value if n is large enough. It means, lots of queries using sa
11、me query string are with the same intension.4. Based on the above work, we designed and realized a system, which is based on users queries history and improves the rankinge of the items. This system is not only based on the history of the current user, but also other users who submitted the same que
12、ry words. That means the system can improve the ranking for a usere, even hee/she is new to it. With the new system, the average chosen item within a page is improved from 13.70 to 8.93. Ite verified our research.Keywords: file search engine, query history, index model目 录第1章引言11.1研究背景11.1.1文件检索系统的发展
13、历史11.1.2文件检索系统的发展现状21.1.3目前遇到的问题31.2本文的研究内容41.3本文贡献41.4本文组织5第2章文件检索系统及相关研究62.1文件检索系统的基本使用方法62.2常规文件检索系统体系结构72.3文件搜索引擎与网页搜索引擎的比较72.4文件搜索引擎对查询结果的排序和过滤82.4.1排序82.4.2过滤82.5基于用户反馈信号的文件检索系统9第3章文件检索模型103.1检索对象的表示103.1.1文件服务器返回的原始信息103.1.2文件属性的演化113.1.3文件的最终表示123.2查询的表示方式133.3查询与文件的匹配过程133.4文件检索性能的评测指标133.5
14、排序准确程度的评测指标143.5.1影响排序的因素143.5.2对排序进行评测的方法153.5.3排序指数183.6比较排序策略的一个简便方法19第4章用户行为特点分析204.1查询串的特点204.2用户查询意图的特点224.3用户行为特点的启发25第5章系统体系结构与主要算法275.1系统体系结构275.2主要算法285.2.1用户点击日志的表示285.2.2计算文件条目之间的距离295.2.3对用户点击记录进行聚类345.2.4对查询结果集合进行分类36第6章系统实现与评测376.1系统设计体系结构图376.1.1用户行为收集部分376.1.2聚类部分386.1.3索引部分386.2其它实
15、现中的问题386.2.1记录用户对查询结果的选取386.2.2文件类型属性距离计算方法的实现396.3系统的评测环境416.4评测结果41第7章总结与展望437.1总结437.2展望437.2.1目录437.2.2压缩文件类型43参考资料45附录:文件类型列表47作者就读期间参加的科研项目和发表的论文50致谢51 图目录图 21 文件检索系统使用示例6图 22 常规文件搜索引擎体系结构图7图 23 基于反馈信号系统的标准模型9图 31 Serv-U FTP服务器接收LIST命令后返回的信息10图 32 文件检索性能评测示意图14图 33 理想检索系统排序方式16图 34 系统排序比较17图 4
16、1 用户查询串集中程度分析21图 42用户查询串分布的函数拟和22图 43查询串与查询意图种类比值分析25图 51 系统结构图27图 52 文件扩展名属性距离计算32图 53聚类示意图35图 61体系结构图37图 62 ext属性距离计算方法的实现40图 63系统试验效果比较42表格目录表格 11主要文件检索系统量化比较2表格 12主要文件检索系统查询结果数量示例3表格 21网页搜索引擎和文件搜索引擎比较8表格 31文件各属性信息说明12表格 32文件条目的最终表示形式12表格 33系统排序比较17表格 41用户查询意图抽样统计23表格 42查询串查询次数与用户查询意图种类比值23表格 43
17、查询意图统计分析24表格 51 文件条目各个属性数据类型30第1章 引言1.1 研究背景1.1.1 文件检索系统的发展历史万维网(World Wide Web,简记为Web)是因特网上最成功的应用,起源于1989年欧洲粒子物理研究室CERN。Web的最初计划是由CERN的物理学家Tim Berners-Lee于1989年3月提出的,第一个基于文本的原型于18个月后运行。除web外,网络上还存在着其它形式的服务,如FTP服务器提供的文件共享服务等。本文的研究对象就是文件共享服务。在FTP服务器出现多年后,又出现了P2P文件共享系统,比如Kazaa,天网maze等,他们同样提供了对文件的下载服务。
18、基于web的网页数量大量增加,推动了以网页为检索对象的搜索引擎的出现。而类似的,FTP和其他文件共享系统中共享文件数量的增加,也促使文件检索系统、尤其是文件搜索引擎的出现和发展。最早的文件搜索引擎是基于文本显示的Archie。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。可以通过远程登录到Archie主机来使用Archie服务器,用Archie作为登录名。一旦登录成功,一个Archie程序将自动执行,这时每次输入一条命令,告诉Archie想
19、查寻的内容,Archie将检索自己的数据库并显示检索的结果。如果用户对自己想要的东西并不太清楚,Archie还提供“whatis”服务项目,该服务提供成千上万个程序文件、数据文件和文档的简短说明。 WWW的出现改变了Archie在文件搜索方面的统治地位,在美观、方便的WWW页面上搜索FTP文件成为用户的自然需求,即人们需要有一种基于Web的FTP搜索引擎。在功能上,基于Web的FTP搜索引擎与Archie基本一样,都是对用户提交的查询串进行匹配找到可以下载的FTP站点文件的链接。1.1.2 文件检索系统的发展现状目前应用较为广泛的文件检索系统以表现形式分类主要有基于web的文件搜索引擎和内嵌于
20、共享软件的文件检索系统两种形式。一般FTP搜索引擎以web形式居多,P2P软件则以软件内嵌的形式居多。Web形式的著名的文件搜索引擎有:n 天网千帆文件搜索引擎()n 星空文件检索系统(n Philes ()n Alltheweb ()P2P文件共享系统有n 天网maze (),n kazaa()下面我们对一些著名的文件检索系统作一以简单比较:表格 11主要文件检索系统量化比较搜索引擎名称文件条目总数(条)站点数量(个)天网FTP搜索引擎13,000,00046065209,698,206没有统计没有统计没有统计76,039,149没有统计18,216,064238837,813,0402,6
21、83星空搜索没有统计没有统计天网maze文件共享系统160,000,000100,000从使用方式上讲,不论哪种形式的检索系统,基本上都是相同的。一般是用户在查询框中输入查询词,搜索引擎返回包含该查询词的文件条目信息。文件条目信息通常包括文件名称、大小、时间、下载地址等。从工作原理上讲,现在主流的文件搜索引擎采用了和web搜索引擎类似的系统:首先启动多个网络爬虫,对待检索的文件服务器进行抓取,得到全部文件的描述信息(如文件或目录的名称,时间、大小、路径等)。然后对全部ftp文件建立索引(通常是倒排表索引),索引建立完成后则可以启动服务。当用户提交查询给检索系统时,系统返回包含该查询词的所有文件
22、条目。1.1.3 目前遇到的问题从搜索引擎系统本身的结构上讲,文件搜索引擎和基于web的网页搜索引擎的结构非常相似。但从研究和搜索精度的角度来讲,文件搜索引擎和网页搜索引擎的差距是非常明显的。抛开商业、应用等因素,只从理论和技术等方面分析其原因,能够发现web上的网页和文件系统(此处以FTP为例)中的文件所能提供的信息量的差别是很大的。Web上的网页既可以看成是一个文本文档,又有着丰富的格式描述信息,还有彼此的链接关系。而文本检索本身已经比较成熟,此领域又有深入的研究。网页之间的链接关系又使图论在此能够得到深入的应用。相对于web上的网页,文件共享服务器能提供的文件信息则少的多。全部信息只是名
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一个借助查询历史改善结果排序的文件检索系统的设计与实现 硕士毕业论文 一个 借助 查询 历史 改善 结果 排序 文件 检索系统 设计 实现 硕士 毕业论文
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3933322.html