第十章-信息过滤与推荐技术.ppt
《第十章-信息过滤与推荐技术.ppt》由会员分享,可在线阅读,更多相关《第十章-信息过滤与推荐技术.ppt(50页珍藏版)》请在三一办公上搜索。
1、北京大学软件与微电子学院2009年度课程,1,第十章 信息过滤与推荐技术,2010年12月,最后更新日期:2009-10-10,北京大学软件与微电子学院2009年度课程,2,课前思考题,信息过滤的概念是什么?它和一般的信息检索、信息分类、信息抽取有什么区别?信息过滤的类型有哪些?基于内容的过滤和基于协作的过滤有什么不同?信息过滤的构成和各部分功能如何?信息过滤系统如何评估?,北京大学软件与微电子学院2009年度课程,3,提纲,信息过滤的基本概念信息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,4,提纲,信息过滤的基本概念信
2、息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,5,信息过滤的定义,从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态)。其他名称:Selective Dissemination of Information(SDI),来自图书馆领域。Routing,来自Message Understanding。本质上,Routing和IF还有所区别,它注重结果的排序Current Awareness,来自Data Mining。,北京大学软件与微电子学院2009年度课程,6,信息过滤系统
3、示意图,过滤器,User Profiles,用户,过滤数据,数据源,北京大学软件与微电子学院2009年度课程,7,信息过滤系统的特点,新信息的产生速度很快,人的兴趣变化速度赶不上信息的变化速度。可以说,人的兴趣变化比较缓慢,可以看成相对静态的和稳定的。信息过滤主要借用信息检索和用户建模(User modeling)两个领域的技术。用户的需求或者兴趣通常采用User Profile建模来表示。新信息到来的时候,根据用户的User Profile,有选择地挑出信息给用户。,北京大学软件与微电子学院2009年度课程,8,信息过滤系统数据流图,CollectionSelectionDisplay,Co
4、llection,Selection,Display,看上去很象IR!,北京大学软件与微电子学院2009年度课程,9,IF vs.IR(1),IF是可以看成广义IR的一部分,即和Adhoc Retrieval相对的一种任务模式。IR通常采用Pull模式,而IF通常采用Push模式。IF一般都借用狭义IR中的表示和计算方法。和Adhoc Retrieval相比:IR可以认为面向一次性的查询而使用,而IF是面向用户的长期需求的重复使用IF信息源动态,用户需求(采用User Profile来表示)相对静态;检索信息源相对静态,用户需求(采用Query来表示)动态变化IF用户要对系统有所了解,IR不需
5、要。IF一般要关注用户建模,涉及用户隐私问题。而IR一般不需要。,北京大学软件与微电子学院2009年度课程,10,IF vs.IR(2),Information Source change rate,Information need change rate,Filtering,Retrieval,北京大学软件与微电子学院2009年度课程,11,IF vs.IC(Info.Classification),IF可以采用IC中的分类算法。某些场合下人们所称的“信息过滤”实际就是一个IC问题。如不经过用户Profile调整的垃圾邮件过滤。IC中的Category通常不会变化,相对而言,IF的User
6、Profile会动态调整。,北京大学软件与微电子学院2009年度课程,12,IF vs.IE,Information Extraction是从无格式数据源中抽取相关字段的过程。比如抽取恐怖事件的时间、地点、人物等字段。IE中不太关注相关性,而只关注相关的字段。IF中要关注相关性。,北京大学软件与微电子学院2009年度课程,13,IF 的一些应用,搜索引擎检索结果的过滤:Google个人的邮件过滤新闻订阅和过滤浏览器过滤面向儿童的过滤系统面向客户的过滤系统和推荐系统,北京大学软件与微电子学院2009年度课程,14,提纲,信息过滤的基本概念信息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息
7、过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,15,IF分类示意图,北京大学软件与微电子学院2009年度课程,16,按Initiative of operation分,主动(Active)的 IF系统主动搜集信息,并将相关信息发送给用户通常采用Push操作会造成信息过载问题,所以该系统要尽力建立精确的User Profile。代表系统BackWeb被动(Passive)的 IF系统不负责为用户搜集信息通常用于邮件和新闻组信息过滤代表系统GHOSTS,北京大学软件与微电子学院2009年度课程,17,按Location of operation分,在信息源端过滤将用户的Profi
8、le发送给信息提供者,后者将和用户Profile匹配的信息回送给用户这种服务通常也称为Clipping service用户通常需要付费,代表系统:Dialog的Alert服务在过滤服务器端过滤信息提供者将信息发送给过滤服务器过滤服务器根据用户的Profile将匹配信息发给用户代表系统SIFT在用户端过滤是一个局部过滤系统如Foxmail或outlook的过滤功能。,北京大学软件与微电子学院2009年度课程,18,从过滤方法分,基于感知的过滤(Cognitive filtering)也称为基于内容的过滤(Content-based filtering)将文档内容和用户的Profile进行相似度计
9、算代表系统CiteSeer基于社会的过滤(Sociological filtering)也称为协同过滤(Collaborative filtering对某个用户的Profile进行匹配时,通过用户之间的相似度来计算Profile和文档的匹配程度基于社会过滤的系统常常称为推荐系统(Recommendation systems)社会过滤常常使用用户建模(User modeling)及用户聚类(User clustering)等技术。社会过滤一般不单独使用,常常和基于内容的过滤配合使用。代表系统:RINGO、GroupLens,北京大学软件与微电子学院2009年度课程,19,社会过滤的一个实际例子,
10、北京大学软件与微电子学院2009年度课程,20,Collaborative Filtering,ActiveUser,北京大学软件与微电子学院2009年度课程,21,从获得用户兴趣的方法分,显式方法用户填写表格或用户提交关键词代表系统:SIFT、BackWeb隐式方法记录用户的行为,包括:时间、次数、上下文、行为(保存、废弃、打印、浏览、点击)等。代表系统:GroupLens介于显式和隐式之间的方法文档空间方法:将用户标注过的文档作为正例,新来的文档和它们比较,选择相似度大的文档。代表系统:SIFTER显式和隐式相结合的方法Stereotypic inference:开始定义一些默认的Prof
11、ile,根据用户的过滤过程进行修改。代表系统:UM,北京大学软件与微电子学院2009年度课程,22,提纲,信息过滤的基本概念信息过滤系统的分类信息过滤系统的组成信息过滤系统的评估信息过滤的现状及发展趋势,北京大学软件与微电子学院2009年度课程,23,一般组成,北京大学软件与微电子学院2009年度课程,24,Data-analyzer component,靠近信息提供方从信息提供方获得或搜集数据分析文档并将文档转化成相应表示(如 布尔模型表示、向量空间模型表示等等)将上述表示传给过滤模块,北京大学软件与微电子学院2009年度课程,25,User-model component,显式或隐式地获得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十 信息 过滤 推荐 技术

链接地址:https://www.31ppt.com/p-2314349.html