大数据与推荐系统(大数据与推荐系统研究).docx
《大数据与推荐系统(大数据与推荐系统研究).docx》由会员分享,可在线阅读,更多相关《大数据与推荐系统(大数据与推荐系统研究).docx(13页珍藏版)》请在三一办公上搜索。
1、大数据与推荐系统摘要:随着大数据时代的来临,网络中的信息量呈现指数式增长,随之带来了信息过载问题。推荐系统是解决信息过载最有效的方式之一,大数据推荐系统已经逐渐成为信息领域的研究热点。介绍了推荐系统的产生及其在大数据时代的发展现状、推荐系统的领域需求和系统架构、大数据环境下推荐系统的挑战及其关键技术、开源的大数据推荐软件、大数据推荐系统研究面临的问题,最后探讨了大数据推荐系统的未来发展趋势。关键词:大数据;推荐系统;协同过滤Abstract:Inbigdataera,recommendationsystemisthekeymeanstotackletheissueofuinformationo
2、verload”.Recommendationsystemhasbeenwidelyappliedtomanydomains.Themosttypicalandpromisingdomainisthee-commence.Recently,withtherapiddevelopmentofe-commence,recommendationsystembecomesmoreandmoreimportantandispromotedasahotresearchfield.Thehistoryanddevelopmentofrecommendationsystem,itsdomainrequirem
3、entsandsystemarchitecture,itscharacteristicsandchallengesunderbigdataenvironment,itskeytechniques,opensourcebigdatarecommendationsystemswereintroduced.Andatlast,theopenresearchproblemsandfuturetrendsofbiddatarecommendationsystemwerediscussed.Keywords:bigdata,recommendationsystem,collaborativefilteri
4、ng1推荐系统与网络大数据随着科技与信息技术的迅猛发展,社会进入了一个全新的高度信息化的时代,互联网无处不在,影响了人类生活的方方面面,并彻底改变了人们的生活方式。尤其是进入Web2.0时代以来,随着社会化网络媒体的异军突起,互联网用户既是网络信息的消费者,也是网络内容的生产者,互联网中的信息量呈指数级增长。由于用户的辨别能力有限,在面对庞大且复杂的互联网信息时往往感到无从下手,使得在互联网中找寻有用信息的成本巨大,产生了所谓的“信息过载”问题。搜索引擎和推荐系统的产生为解决“信息过载”问题提供了非常重要的技术手段。对于搜索引擎来说,用户在搜索互联网中的信息时,需要在搜索引擎中输入“查询关键词
5、”,搜索引擎根据用户的输入,在系统后台进行信息匹配,将与用户查询相关的信息展示给用户。但是,如果用户无法想到准确描述自己需求的关键词,此时搜索引擎就无能为力了。和搜索引擎不同,推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为来对用户的兴趣进行建模,从而主动给用户推荐可能满足他们兴趣和需求的信息。因此,搜索引擎和推荐系统对用户来说是两个互补的工具,前者是主动的,而后者是被动的。近几年,电子商务蓬勃发展,推荐系统在互联网中的优势地位也越来越明显。在国际方面,比较著名的电子商务网站有AmaZOn和eBay,其中AmaZon平台中采用的推荐算法被认为是非常成功的。在国内,比较大型的电子商务
6、平台网站有淘宝网(包括天猫商城)、京东商城、当当网、苏宁易购等。在这些电子商务平台中,网站提供的商品数量不计其数,网站中的用户规模也非常巨大。据不完全统计,天猫商城中的商品数量已经超过了4000万。在如此庞大的电商网站中,用户根据自己的购买意图输入关键字查询后,会得到很多相似的结果,用户在这些结果中也很难区分异同,用户也难于选择合适的物品。于是,推荐系统作为能够根据用户兴趣为用户推荐一些用户感兴趣的商品,从而为用户在购物的选择中提供建议的需求非常明显。目前比较成功的电子商务网站中,都不同程度地利用推荐系统在用户购物的同时,为用户推荐一些商品,从而提高网站的销售额。另一方面,智能手机的发展推动了
7、移动互联网的发展。在用户使用移动互联网的过程中,其所处的地理位置等信息可以非常准确地被获取。基于此,国内外出现了大量的基于用户位置信息的网站。国外比较著名的有Meetup和Flickro国内著名的有豆瓣网和大众点评网。例如,在大众点评这种基于位置服务的网站中,用户可以根据自己的当前位置搜索餐馆、酒店、影院、旅游景点等信息服务。同时,可以对当前位置下的各类信息进行点评,为自己在现实世界中的体验打分,分享自己的经验与感受。当用户使用这类基于位置的网站服务时,同样会遭遇“信息过载”问题。推荐系统可以根据用户的位置信息为用户推荐当前位置下用户感兴趣的内容,为用户提供符合其真正需要的内容,提升用户对网站
8、的满意度。随着社交网络的兴起,用户在互联网中的行为不再限于获取信息,更多的是与网络上的其他用户进行互动。国外著名的社交网络有Facebook.LinkedInTWitter等,国内的社交网络有新浪微博、人人网、腾讯微博等。在社交网站中,用户不再是单个的个体,而是与网络中的很多人具有了错综复杂的关系。社交网络中最重要的资源就是用户与用户之间的这种关系数据。在社交网络中,用户间的关系是不同的,建立关系的因素可能是现实世界中的亲人、同学、同事、朋友关系,也可能是网络中的虚拟朋友,比如都是有着共同爱好的社交网络成员。在社交网络中,用户与用户之间的联系反映了用户之间的信任关系,用户不单单是一个个体,用户
9、在社交网络中的行为或多或少地会受到这些用户关系的影响。因此,推荐系统在这类社交网站中的研究与应用,应该考虑用户社交关系的影响。2推荐系统的产生与发展“推荐系统”这个概念是1995年在美国人工智能协会(AAAl)上提出的。当时CMU大学的教授RobertArmstrong提出了这个概念,并推出了推荐系统的原型系统WebWatchero在同一个会议上,美国斯坦福大学的MarkoBalabanovic等人推出了个性化推荐系统LIRAlo随后推荐系统的研究工作开始慢慢壮大。1996年,YahoO网站推出了个性化入口MyYahoo,可以看作第一个正式商用的推荐系统。21世纪以来,推荐系统的研究与应用随着
10、电子商务的快速发展而异军突起,各大电子商务网站都部署了推荐系统,其中AmaZon网站的推荐系统比较著名。有报告称,Amazon网站中35%的营业额来自于自身的推荐系统。2006年,美国的DVD租赁公司Netflix在网上公开设立了一个推荐算法竞赛NetflixPrizeoNetfIiX公开了真实网站中的一部分数据,包含用户对电影的评分2。Netflix竞赛有效地推动了学术界和产业界对推荐算法的研究,期间提出了很多有效的算法。近几年,随着社会化网络的发展,推荐系统在工业界广泛应用并且取得了显著进步。比较著名的推荐系统应用有:AmaZon和淘宝网的电子商务推荐系统、Netflix和MovieLen
11、s的电影推荐系统、Youtube的视频推荐系统、豆瓣和Last.fm的音乐推荐系统、GoOgIe的新闻推荐系统以及Facebook和Twitter的好友推荐系统。推荐系统诞生后,学术界对其关注也越来越多。从1999年开始,美国计算机学会每年召开电子商务研讨会(ACMConferenceonElectronicCommerce,ACMEC),越来越多的与推荐系统相关的论文发表在ACMEC上。ACM信息检索专业组(ACMSpecialInterestGroupOfInformationRetrieval,ACMSIGIR)在2001年开始把推荐系统作为该会议的一个独立研究主题。同年召开的人工智能联
12、合大会(The17thInternationalJointConferenceonArtificialIntelligence)推荐系统作为一个单独的主题。最近的10年间,学术界对推荐系统越来越重视。目前为止,数据库、数据挖掘、人工智能、机器学习方面的重要国际会议(如SIGMOD.VLDB.ICDEKDDAAALS1GIRICDM、WWW、ICML等)都有大量与推荐系统相关的研究成果发表。同时,第一个以推荐系统命名的国际会议ACMRecommenderSystemsConference(ACMReCSyS)于2007年首次举办。在近几年的数据挖掘及知识发现国际会议(KDD)举办的KDDCUP竞
13、赛中,连续两年的竞赛主题都是推荐系统。在KDDCUP2011年的竞赛中,两个竞赛题目分别为“音乐评分预测”和“识别音乐是否被用户评分二在KDDeUP2012年的竞赛中,两个竞赛题目分别为“腾讯微博中的好友推荐”和“计算广告中的点击率预测二3推荐系统的领域需求和系统架构如上所述,推荐系统在很多领域得到了广泛的应用,如新闻推荐、微博推荐、图书推荐、电影推荐、产品推荐、音乐推荐、餐馆推荐、视频推荐等。不同领域的推荐系统具有不同的数据稀疏性,对推荐系统的可扩展性以及推荐结果的相关性、流行性、新鲜性、多样性和新颖性具有不同的需求。不同领域推荐系统的需求对比见表1。尽管需求不尽相同,一个完整的推荐系统通常
14、都包括数据建模、用户建模、推荐引擎和用户接口4个部分,如图1所示。数据建模模块负责对拟推荐的物品数据进行准备,将其表示成有利于分析的数据形式,确定要推荐给用户的候选物品,并对物品进行分类、聚类等预处理。用户建模模块负责对用户的行为信息进行分析,从而获得用户的潜在喜好。用户的行为信息包括问答、评分、购买、下载、浏览、收藏、停留时间等。推荐引擎模块利用后台的推荐算法,实时地从候选物品集合中筛选出用户感兴趣的物品,排序后以列表的形式向用户推荐。推荐引擎是推荐系统的核心部分,也是最耗系统资源和时间的部分。用户接口模块承担展示推荐结果、收集用户反馈等功能。用户接口除了应具有布局合理、界面美观、使用方便等
15、基本要求外,还应有助于用户主动提供反馈。主要有两种类型的接口:Web端(Web-based)和移动端(mobile-based)o受篇幅限制,仅对用户建模和推荐引擎这两个重要模块进行详细介绍。3J用户建模用户模型反映用户的兴趣偏好。用户兴趣的反馈可分为显性反馈和隐性反馈。显性反馈包含两种方式:用户定制和用户评分。用户定制是指用户对系统所列问题的回答,如年龄、性别、职业等。评分又分为两级评分和多级评分。例如,在YahOONeWS中采用两级评分:喜欢(morelikethis)和不喜欢(lesslikethis)o多级评分可以更详细地描述对某个产品的喜欢程度,如GroupLens中用户对新闻的喜好
16、程度可评价为15分。NeWSDUde支持用户的4级反馈:感兴趣、不感兴趣、已知道、想了解更多,然后进行归一化处理。很多时候用户不能够准确地提供个人偏好或者不愿意显性提供个人偏好,更不愿意经常维护个人的偏好。所以,隐性反馈往往能够正确地体现用户的偏好以及偏好的变化。常用的隐性反馈信息有:是否点击、停留时间、点击时间、点击地点、是否加入收藏、评论内容(可推测用户的心情)、用户的搜索内容、社交网络、流行趋势、点击顺序等。在协同过滤推荐方法中,常常把用户的隐性反馈转化为用户对产品的评分。例如,GoogIeNeWS中用户阅读过的新闻记为喜欢,评分为1;没有阅读过的评分为0。DailyLeamer系统中用
17、户点击了新闻标题评分为08分,阅读完全文则评分上升到1分;若用户跳过了系统推荐的新闻,则从系统预测评分中减去0.2分作为最终评分。用户的兴趣可分为长期兴趣和短期兴趣。长期兴趣反映用户的真实兴趣;短期兴趣常与热点话题相关联且经常改变,从最近的历史行为中学习到的短期兴趣模型可快速反映用户兴趣的变化。常用的模型有向量空间模型、语义网络模型、基于分类器的模型等。由于用户的兴趣常受物品本身周期性、热点事件、突发事件的影响,变化性很大。所以,需要经常更新用户模型。3.2推荐引擎推荐引擎的基本推荐方法可分为基于内容的推荐和基于协同过滤的推荐。基于内容的推荐方法的基本原理是,根据用户以往喜欢的物品,选择其他类
18、似的物品作为推荐结果2。例如,现在有一部新电影与用户过去看过的某部电影有相同演员或者题材类似,则用户可能就喜欢这部新电影。通常使用用户模型的向量特征来描述用户的兴趣爱好,同样对于每个物品进行特征提取,作为物品模型的内容特征。然后计算用户模型的向量特征和候选物品模型的向量特征两者之间的匹配度,匹配度较高的候选物品就可作为推荐结果推送给目标用户。协同过滤技术是由DavidGoldberg在1992年提出的,是目前个性化推荐系统中应用最为成功和广泛的技术。国外著名的商业网站AmaZOn,国内比较著名的豆瓣网、虾米网等网站,都采用了协同过滤的方法。其本质是基于关联分析的技术,即利用用户所在群体的共同喜
19、好来向用户进行推荐。协同过滤利用了用户的历史行为(偏好、习惯等)将用户聚类成簇,这种推荐通过计算相似用户,假设被其他相似用户喜好的物品当前用户也感兴趣。协同过滤的推荐方法通常包括两个步骤:根据用户行为数据找到和目标用户兴趣相似的用户集合(用户所在的群体或簇);找到这个集合中用户喜欢的且目标用户没有购买过的物品推荐给目标用户。在实际使用中,协同过滤技术面临两大制约:一是数据稀疏问题,二是冷启动问题。协同过滤需要利用用户和用户或者物品与物品之间的关联性进行推荐。最流行的基于内存的协同过滤方法是基于邻居关系的方法。该方法首先找出与指定用户评价历史相近的该用户的邻居,根据这些邻居的行为来预测结果或者找
20、出与查询物品类似的物品。这样做的前提假设是,如果两个用户在一组物品上有相似的评价,那么他们对其他的物品也将会有相似的评价;或者如果两物品在一组用户上有相似的评价,那么他们对于其他的用户也将会有相似的评价。协同过滤算法的关键是找寻用户(物品)的最近邻居。当数据稀疏时,用户购买过的物品很难重叠,协同推荐的效果就不好。改进办法之一是,除了直接邻居之外,间接邻居的行为也可以对当前用户的决策行为构成影响。另外一些解决稀疏问题的方法是可以添加一些缺省值,人为地将数据变得稠密一些,或者采用迭代补全的方法,先补充部分数值,在此基础上再进步补充其他数值。此外,还有利用迁移学习的方法来弥补数据稀疏的问题。但这些方
21、法只能在某种程度上部分解决数据稀疏的问题,并不能完全克服。在真实应用中,由于数据规模很大,数据稀疏的问题更加突出。数据稀疏性使协同过滤方法的有效性受到制约。甄别出与数据稀疏程度相匹配的算法,以便能根据具体应用情况做出正确选择,是非常有价值的研究课题。常用的协同过滤方法有两类:基于内存的方法和基于模型的方法。前者主要是内存算法,通过用户与物品之间的关系来导出结果;后者需要找到一个合适的参数化的模型,然后通过这个模型来导出结果。基于用户的协同过滤鉴别出与查询用户相似的用户,然后将这些用户对物品评分的均值作为该用户评分结果的估计值。与此类似,基于物品的协同过滤鉴别出与查询物品类似的物品,然后将这些物
22、品的评分均值作为该物品预测结果的估计值。基于邻居的方法随着计算加权平均值方法的不同而不同。常用的计算加权平均值的算法有皮尔逊系数、矢量余弦、MSDo基于模型的方法通过适合训练集的参数化模型来预测结果。它包括基于聚类的兄57、贝叶斯分类器8,9、基于回归的方法10。基于聚类方法的基本思想是将相似的用户(或物品)组成聚类,这种技术有助于解决数据稀疏性和计算复杂性问题。贝叶斯的基本思想是给定用户A其他的评分和其他用户评分情况下,计算每个可能评分值(比如电影推荐中的15分)的条件概率,然后选择一个最大概率值的评分作为预测值。基于回归方法的基本思想是先利用线性回归模型学习物品之间评分的关系,然后根据这些
23、关系预测用户对物品的评分。Slop-one算法13在评价矩阵上使用了线性模型,使之能够快速计算出具有相对较好精确度的结果。最近一类成功的基于模型的方法是基于低秩矩阵分解的方法。例如,SVDU1和SVD+12将评价矩阵分解为3个低秩的矩阵,这3个矩阵的乘积能对原始矩阵进行某种程度的复原,从而可以评估出缺失值。另一种方法是非负矩阵分解口引,其不同之处在于,矩阵分解的结果不得出现负值。基于低秩矩阵分解的方法从评分矩阵中抽取一组潜在的(隐藏的)因子,并通过这些因子向量描述用户和物品。在电影领域,这些自动识别的因子可能对应一部电影的常见标签,比如风格或者类型(戏剧片或者动作片),也可能是无法解释的。矩阵
24、分解能够对两类变量进行交互关系的预测。Tensor分解模型则能够将这种不同类变量的交互预测扩展到更高的维度。然而,如果将因子分解模型应用到一个新的任务,针对新问题往往需要在原有因子分解基础上推导演化,实现新的模型和学习算法。例如SVD+、STEFPMC、timeSVD+、BpTF等模型,都是针对特定问题在原有因子分解模型基础上做的改进。因此,普通的因子分解模型具有较差的泛化能力。在模型优化学习算法方面,虽然对基本矩阵分解模型的学习已经有很多算法,如(随机)梯度下降、交替最小二乘法、变分贝叶斯和MCMC(MarkovchainMontoCarlo),但是对于更多的复杂分解模型而言,最多且最常用的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 推荐 系统 研究
链接地址:https://www.31ppt.com/p-4332823.html