个性化检索中的相似用户群的获取与更新.doc
《个性化检索中的相似用户群的获取与更新.doc》由会员分享,可在线阅读,更多相关《个性化检索中的相似用户群的获取与更新.doc(52页珍藏版)》请在三一办公上搜索。
1、个性化信息检索摘要下一代搜索引擎的一个突出特点是个性化,个性化信息检索是以用户为中心的信息检索技术,它获取以多种形式表达的用户需求(包括显式的、隐式的以及相关用户的需求),并综合利用这些用户信息,提高信息检索系统的性能。作为个性化检索中的重要研究子课题,相似用户群的建立与更新的任务是,通过对用户检索和浏览历史的分析,建立兴趣相似的用户群,并随着用户信息和检索领域的变化对相似用户群进行更新。相似用户群的建立与更新任务面临的主要问题是,缺乏合理的任务划分和标准评测集,无法对相似用户群系统进行公正的评价。因此,本文通过对个性化检索进行合理的任务划分,将相似用户群划分为一个独立的子任务,并利用开发的语
2、料标注辅助系统,为其建立了标准评测集,使得可以对相似用户群的系统进行公正的评价和比较。在相似用户群的研究中,由于用户间共同评价过的网页较少,数据稀疏成为限制相似用户群建立效果的重要问题,因此,本文对相似用户群建立的研究主要集中在解决数据稀疏问题上。本文提出了基于相关性模型的相似用户群建立方法,采用相关性模型,利用相似领域中的相似用户,对当前领域中的用户查看数据进行扩充,以解决数据稀疏问题。同时,根据实际情况,随着领域的不同对相似用户群不断进行更新,以使相似用户群的建立更加准确。实验语料为标注者针对天网100G语料进行的检索行为和标注的答案,评测指标采用错检率、漏检率和系统性能损耗代价。此方法的
3、性能在测试语料集上比baseline方法提高了7.12%,说明基于相关性模型的相似用户群方法可以很好地解决数据稀疏,同时由于利用用户群兴趣挖掘单个用户兴趣,防止了用户兴趣判断的偏差,提高相似用户群建立的效果。关键词个性化检索;协作过滤;相似用户群;相关性模型AbstractAn important characteristic of next generation search engine is personalization. Personalized Information Retrieval (PIR) focuses on users. It captures users inter
4、est in different kinds (explicit, implicit interest and interest of similar users). These information of users are integrated and used to improve the result of information retrieval system.The establishment and update of similar users cluster is an important subtask of personalized information retri
5、eval. Its task is to establish clusters of similar users by analyzing users retrieval and browsing history. The clusters will also be updated with the change of users information and retrieval areas. The problem in this task is the lack of tasks division and standard evaluation dataset. Therefore, t
6、his paper defines four subtasks of PIR, which include the establishment and update of similar users cluster. The establishment standard evaluation dataset makes it possible to evaluate and compare the systems of user clustering. The data sparseness limits the performance of user clustering because w
7、eb pages rated by different users are rare. Therefore, the research of this paper focuses on solving the problem of data sparseness. This paper proposes a user clustering method based on relevance model. It uses users data in similar domains to expand the data of users in current domain by relevance
8、 model. The users clusters will also be updated with the change of retrieval domains. The retrieval information and labeled answers of users are used to establish the experimental dataset. The evaluation matrix includes false alarm rate, miss alarm rate and cost of detection. In the experiment, user
9、 clustering based on relevance model improves the result of baseline system by 7.12%. This result proves that the proposed algorithm can alleviate the problem of data sparseness. Whats more, mining users interest by its cluster can decrease the false information in users models and improve the resul
10、t of precision of user clustering. KeywordsPersonalized Information Retrieval;Collaborative Filtering; User Clustering; Relevance Model目录摘要IAbstractII第1章 绪论11.1 课题背景11.2 课题的研究目的和意义21.2.1 课题的研究目的21.2.2 课题的研究意义21.2.3 相似用户群研究的应用31.3 国内外相关研究41.3.1 相似用户的判断41.3.2 解决数据稀疏问题的研究71.4 本章小结8第2章 个性化检索任务划分及评测92.1
11、个性化检索的任务划分92.1.1 用户新兴趣发现92.1.2 用户兴趣跟踪112.1.3 相似用户群建立122.1.4 个性化检索142.2 语料标注的辅助系统142.2.1 系统介绍142.2.2 正确答案记录172.2.3 语料规模182.3 相似用户群的评测182.3.1 评测机制182.3.2 评测方法192.4 本章小结19第3章 用户兴趣发现与跟踪213.1 用户新兴趣发现213.1.1 基于向量空间模型的新兴趣发现方法213.1.2 基于TextTiling的新兴趣发现方法223.1.3 实验结果及分析243.2 用户兴趣跟踪253.2.1 实验方法253.2.2 实验结果及分析
12、253.3 本章小结26第4章 基于相关性模型的数据扩充方法研究274.1 话题跟踪研究简介274.2 相关性模型284.3 基于向量空间模型的相关性模型284.4 基于话题核心与新颖部分的话题跟踪294.4.1 话题核心的构建304.4.2 利用改进相关性模型调整话题的新颖部分304.4.3 话题模型的构建314.5 实验及结果分析314.5.1 实验语料及评测机制324.5.2 实验结果324.6 本章小结34第5章 基于相关性模型的相似用户群研究355.1 相关研究355.2 基于相关性模型的相似用户群建立385.2.1 用户数据扩充385.2.2 用户相似度计算395.3 实验及结果分
13、析395.3.1 实验语料405.3.2 实验结果分析405.4 本章小结42结论43参考文献44攻读学位期间发表的学术论文48哈尔滨工业大学硕士学位论文原创性声明49哈尔滨工业大学硕士学位论文使用授权书49哈尔滨工业大学硕士学位涉密论文管理49致谢50千万不要删除行尾的分节符,此行不会被打印。在目录上点右键“更新域”,然后“更新整个目录”。打印前,不要忘记把上面“Abstract”这一行后加一空行第1章 绪论1.1 课题背景由于Web信息的日益增长,人们不得不花费大量的时间去搜索、浏览自己需要的信息。搜索引擎是最普遍的辅助人们检索Web信息的工具,比如传统的搜索引擎AltaVista、Yah
14、oo和新一代的搜索引擎Google等。尽管商业搜索引擎已经取得了相当的成功。但要大部分搜索引擎是基于关键词匹配的方式进行检索的,导致检索结果中无关的网页过多并且没有考虑不同用户的个性差异和需要。由此可见,目前所广泛采用的信息检索技术无法满足不同背景、不同目的和不同时期的查询请求。举例来说,研究计算机和果树栽培的两个用户,在搜索 “苹果”时分别想查找“苹果电脑”和关于苹果栽培的知识。如果我们能够根据这两个用户的职业以及平时查询和浏览的内容为这两个用户建立不同的档案,就可以为他们返回不同的结果。个性化检索系统就是利用用户的注册信息以及浏览和查询历史等信息挖掘和预测用户兴趣,从而结合用户当前的查询关
15、键词,返回符合用户个人兴趣的检索结果。同时,物以类聚,人以群分,每个人都有自己的兴趣,而和他兴趣最接近的一些用户会组成一个用户群。比如有一些用户都对“飞碟”非常感兴趣,我们可以利用用户群在查询和浏览中的行为作为判断当前用户检索兴趣的依据,从而更加准确地把握用户的检索意图。因此,相似用户群的建立对提高个性化检索的性能有重要意义。同时相似用户群还可以用来预测用户的潜在兴趣,将用户可能感兴趣的信息推荐给用户。例如,某些用户都对“飞碟”有共同的兴趣,如果某一天出现了新闻“英国天空惊现UFO”,对“飞碟”感兴趣的很多用户都对这个新闻感兴趣,那么,系统就可以将这则新闻推荐给这些用户。这就是利用相似用户的兴
16、趣判断和预测单个用户的兴趣。利用这个原理进行个性化检索和信息推荐将能够更好地满足用户的个性需求。1.2 课题的研究目的和意义相似用户群建立的研究不仅对个性化检索和个性化推荐系统1有重要意义,而且具有重要的实际应用价值。1.2.1 课题的研究目的基于相似用户群的个性化信息检索的解决思路是协作过滤和信息社会化检索。主要方法是系统通过对用户按兴趣模式聚类来增强用户间的协同与协作。我们将从以下几个方面展开相关研究:(1) 相似用户群建立的评价以往研究中,由于缺乏有效评测系统,因此对相似用户群建立任务的性能缺乏公正的评价。本文将个性化检索划分成四个相对独立又相互关联的子任务,相似用户群的建立作为独立的子
17、任务,通过用户对每个检索对象提交的答案构建标准评测集,以便对相似用户建立的效果进行公正的评价。(2) 用户评价数据的扩充协作过滤中由于不同用户间评价过的网页较少,从而导致用户相似度计算的准确率不高。因此,如何解决数据稀疏问题,是一个重要研究课题。本文将利用用户对网页的点击代替用户的显式评价分数,同时基于改进的相关性模型,利用相似领域内相似用户的查看历史,对当前用户进行数据扩充,解决数据稀疏问题,提高相似用户群建立的效果。(3) 相似用户群建立策略以往的用户群建立工作大部分是对所有用户建立一个静态的相似用户群,但是实际中,用户在不同领域的兴趣是不同的,因此在不同领域其相似用户群也是不一样的。本文
18、探讨在每个领域中分别建立一个相似用户群,并对用户群进行动态的更新,以便使群内的用户兴趣尽可能一致。1.2.2 课题的研究意义相似兴趣用户群的建立主要可以起到以下几点作用:(1)提高个性化检索系统的性能。由于单个用户的查询和检索数据比较有限,而判断单个用户兴趣时常常会有偏差,导致对用户兴趣判断的错误累积现象。而通过用户群的整体兴趣判断单个用户的兴趣,可以防止用户兴趣判断的偏差。(2) 提高个性化信息推荐的效果。相似用户群建立后,可以将群中大部分用户感兴趣的信息推荐给其它用户,提供个性化推荐功能。评价问题是相似用户群建立中的重要问题。当前的很多研究都将相似用户群建立的任务依附于其它任务中,缺少专门
19、针对此任务的评测。本论文为相似用户群建立的任务构建合理的自动评测集语料以及对应的评测答案为后续针对此任务的研究奠定基础,对其它研究的评测方法也有重要的参考价值。1.2.3 相似用户群研究的应用相似用户群建立的研究,不仅具有重要的理论价值,而且有重要的实际应用价值。1.2.3.1 相似用户群在电子商务中的应用基于相似用户群的个性化服务方式通过对不同用户群体兴趣取向的挖掘和分析,制定适合此用户群体的产品的设计、开发以及市场营销策略。基于相似用户群的个性化电子商务具备如下优点:(1)面向群体用户,可以分析用户群体的兴趣,制定针对性的生产和销售策略。(2)个性化电子商务具备自适应的学习机制,从而能够辅
20、助电子商务系统识别商务趋势敏感变化并智能化地调整商品分配。1.2.3.2 相似用户群在电子政务中的应用电子政务主要应用于企业内部行政事务和业务企划的发布、数据和资源共享以及保密信息交互。基于相似用户群的个性化信息检索应用于电子政务的优点主要包括:(1)有益于企业高效快捷的内部管理。相似用户群建立起对应不同职能部门的相似用户群,自动挖掘与每个用户群管理和业务职能相关的信息。(2)海量数据的合理保存与维护,建立基于相似用户群对于海量资源的分类保存和快速精准的查询提供了良性平台。1.2.3.3 相似用户群在电子家务中的应用电子家务就是:“家庭事务的电子化,旨在提高家庭管理的水平和效率,是信息化建设的
21、重要目标。”。基于相似用户群的协作过滤可以记录家庭事务的核心需求,实时监控信息流,从而辅助电子家务系统智能化的信息推送,将用户从繁多的事务中解放出来。此外,相似用户群的建立还可以应用在数字图书馆23中,为用户提高个性化的检索和个性化推荐功能。1.3 国内外相关研究以往的相似用户群的研究主要集中在协作过滤领域。协作过滤4是指分析用户兴趣,在用户群中找到与指定用户的兴趣相同或相似的用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。协作过滤分为基于模型和基于记忆的协作过滤。基于模型的协作过滤方法,通过挖掘数据之间的关系建立需求模型,过滤后续的信息资源。其中常用的方法
22、包括贝叶斯网络方法5、聚类的方法67和aspect model方法8。基于记忆的协作过滤主要通过用户对项目打分的差别找到相似的用户或项目,然后对用户的兴趣进行预测。基于记忆的协作过滤分为基于项目的协作过滤910和基于用户的协作过滤1112两种。基于项目的协作过滤系统的核心问题是检测两个项目之间的协作相似性,然后利用用户对相似项目的兴趣预测用户对未评价过的项目的兴趣。基于用户的协作过滤主要研究如何建立和应用相似用户群。比如,两名具备相似知识背景的用户ua和ub,在获取知识时采用不同特征集合构成Profile,相似的知识背景使得系统相信ua和ub具备相同的需求趋向,从而将ua和ub感兴趣的反馈结果
23、互相推送,以达到协作式的检索或过滤功能,如图1-1所示。用户(a)反馈集:反馈(a)(i)用户(a)背景信息(a)用户(b)反馈集:反馈(b)(j)反馈(b)(k)用户(b)背景信息(b)协作过滤模型反馈(a)(i)反馈(b)(j)反馈(b)(k)图1-1 协作过滤样例Figure 1-1 Sample of collaborative filtering1.3.1 相似用户的判断基于用户协作过滤的核心思想是根据用户评分的相似性获得活动用户的若干最近邻,也就是相似用户群的建立,然后通过这些最近邻对项目评分的加权和来预测活动用户对项目的评分。其步骤如图1-2。所有用户与活动用户相似度计算选择近邻
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 个性化 检索 中的 相似 用户 获取 更新
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2396090.html