基于用户行为相似好友推荐系统概要课件.ppt
CNNIC参赛作品原创性声明,本人郑重声明:所呈交的参赛作品,是团队的共同努力下,独立进行研究工作所取得的成果。本人完全意识到本声明的法律结果由本人承担。参赛作者签名:日期:,CNNIC参赛作品原创性声明 本人郑重声,2012-05-27,基于用户行为相似性推荐更适合交流的朋友设计与实现,1,参 赛 人,2012-05-27基于用户行为相似性推荐更适合交流的朋友设,主要内容,2,第3章 好友推荐理论依据第1章 问题背景主要内容第2章 相关,1.1课题背景及意义,推荐系统解决了什么问题信息过载,信息消费者和信息生产者都遇到很大挑战对于信息消费者来说,要在大量的信息中获取自己想要的信息很困难对于信息生产者来说,要留住用户,让自己的信息更被关注,也是一件很困难的事情推荐系统就是自动联系用户与用户、用户与物品的一种工具从某种意义上讲,推荐系统和搜索引擎是2个互补的工具,第1章 问题背景,3,1.1课题背景及意义推荐系统解决了什么问题第1章 问题背,4,1.3推荐系统的应用,电子商务Amazon被称为推荐系统之王国内的淘宝、当当也在积极使用推荐策略电影、视频网站在电影和视频网站中,个性化推荐系统也是一种重要的应用Netflix在2006年报开始举办著名的Netflix Prize推荐系统比赛Youtube作为美国最大的视频网站,拥有大量用户上传的视频内容Pandora、last.fm、国内的豆瓣电台都是个性化网络电台,但背后的技术却不一样个性化阅读Google Reader容许用户关注自己感兴趣的人,然后看到所有关注用户分享的文章,第1章 概述,4,41.3推荐系统的应用电子商务第1章 概述4,5,1.3推荐系统的应用,基于位置服务(LBS)在中关村闲逛时,肚子饿了,手机会给你推荐几家中关村不错的饭馆。微信、陌陌等会给你推荐附近的好友社交网络之好友推荐好友关系是社会化网站的重要组成部分国际上有3个著名的社交网站Facebook、LinkedIn和Twitter国内社交网站代表是新浪微博、校内网和腾讯好友网,第1章 概述,5,51.3推荐系统的应用基于位置服务(LBS)第1章 概述5,1.2推荐系统研究的内容,数据来源利用用户的行为数据利用用户标签数据利用上下文信息利用社交网络数据推荐算法的研究基于邻域的算法是推荐系统中最基本的算法,包括基于用户的协同过滤算法和基于物品的协同过滤算法隐语义模型是最近几年推荐系统领域最热门的研究话题基于图的模型推荐算法评价用户满意度预测准确度,包括评分预测TopN推荐覆盖率惊喜度,第1章 概述,6,1.2推荐系统研究的内容数据来源第1章 概述6,主要内容,7,第3章 好友推荐理论依据第1章 概述主要内容第2章 相关技术,本文主要使用到的相关技术,2.1CNNIC数据分析技术信息特征提取和用户使用电脑软件及浏览网页的行为特征的提取,以及数据预处理技术2.2 推荐系统及相似度研究理论相似度理论余弦相似性K-means聚类算法推荐系统的研究-协同过滤算法基于用户相似的协同过滤算法降维算法2.3B/S展示最后通过网站来展示推荐结果,第2章 相关技术分析,8,本文主要使用到的相关技术2.1CNNIC数据分析技术第2章,主要内容,9,第3章 好友推荐算法设计第1章 概述主要内容第2章 相关技术,基于内容的匹配用户人口统计学属性,包括年龄、性别、职业、毕业学校和工作单位等用户兴趣,包括用户喜欢的物品和发布过的言论等用户的位置信息,包括用户的住址、IP地址和邮编等基于共同兴趣的好友推荐前面介绍基于用户的协同过滤算法基于社交网络图的好友推荐最简单的好友推荐算法是给用户推荐好友的好友,10,给用户推荐好友,基于内容的匹配10给用户推荐好友,3.1现存好友推荐模型及缺点,1.根据好友之间的互动次数衡量两者的亲密度2.通过任意2个用户的手机交互次数进行推荐3.按照用户关注的blog或者用户去过的地方分析出用户兴趣模型进行推荐4.按照用户关系先建立完全子图,子图满足任何两个用户中都是具有友好关系的,接着子图之间按照共同用户数进行合并得出图中必然有用户之间还未建立的友好关系从而产生推荐5.基于社区划分和用户相似度来进行好友推荐6.根据用户长相来推荐,第3章 好友推荐算法的设计,11,3.1现存好友推荐模型及缺点1.根据好友之间的互动次数衡量,3.1现存好友推荐模型及缺点,第一个和第二个模型相同点是通过用户的交互次数,所以缺陷相同:两个用户因为做同样一件事情而产生的交互比较多但现实世界中他们并不熟悉。有的用户本身比较活跃,产生的交互也比较多,但并不代表他与每个人都亲密。第三个根据blog或用户行为模型,考虑了用户的行为,但缺乏用户的档案信息,也没有用户之间的关系。第四个根据用户关系建立完全子图,忽略了用户行为爱好,第3章 好友推荐算法的设计,12,3.1现存好友推荐模型及缺点第一个和第二个模型相同点是通过,3.2好友推荐化算法总体框架,第3章 好友推荐的算法设计,图32 好友推荐算法总体框架,13,3.2好友推荐化算法总体框架第3章 好友推荐的算法设计图3,14,数据收集与清洗从CNNIC数据集里提取数据,获取用户行为特征,清洗数据噪声相似度计算从三个维度生成用户特征向量,计算三个维度的相似度,通过加权获取最终的相似度。网页展示计算最终相似度并通过php网页展示推荐结果,3.2好友推荐化算法总体框架,第3章 好友推荐的算法设计,14数据收集与清洗3.2好友推荐化算法总体框架第3章 好友,3.3CNNIC数据清洗及数据预处理,本文通过CNNIC(http:/,第3章 好友推荐的算法设计,15,表33 CNNIC数据中的噪声类型及其特征,3.3CNNIC数据清洗及数据预处理本文通过CNNIC(h,3.4.1 用户档案信息相似度计算,用户档案信息是挖掘用户行为的一种重要资源。我们选取2个属性说明:,第3章 好友推荐的算法设计,16,3.4.1 用户档案信息相似度计算用户档案信息是挖掘用户行为,17,不同的职业用户的分布图,17不同的职业用户的分布图,3.4.1 用户档案信息相似度计算,这里采用K-means聚类算法我们从个人资料中选择四个特征:职业、学历、省份和城市,然后用k-means聚类。属于同一类的的用户相似权重比较高。我们会优先进行推荐。,第3章 好友推荐的算法设计,图34 计算子网中用户相似度,18,3.4.1 用户档案信息相似度计算这里采用K-means聚类,3.4.2 用户浏览网站相似度,基本思想:首先提取出所有用户浏览的网址,并计算出每个网址的浏览数量过滤掉访问网址比较少和网址特别多的网站计算出网址在用户访问网址的比例,构建出用户访问网址的向量通过余弦函数计算出用户之间的相似度余弦公式A和B分别是两个用户。,第3章 好友推荐的算法设计,19,3.4.2 用户浏览网站相似度基本思想:第3章 好友推荐的算,1. 将每个用户浏览的网址和软件提取出来,每个用户对应一个文本:2. 从文本里提取关键字:keyword.txt,20,数据预先处理,第3章 好友推荐的算法设计,1. 将每个用户浏览的网址和软件提取出来,每个用户对应一个文,统计每个关键字用户的数量:keyword_user_number.txt最终统计出来关键字有10多万个网址,也就是用户访问网址特征有10万多维,这是个很稀疏的矩阵。所以需要降维处理。,21,数据预先处理,第3章 好友推荐的算法设计,统计每个关键字用户的数量:keyword_user_numb,数据预处理,本文是对CNNIC在2012年8月12日至8月31日期间的5000个用户的电脑使用行为及用户的个人资料进行了统计分析。部分统计结果如表3-5所示。,22,第3章好友推荐的算法设计,表35 CNNIC部分网址的数据统计,数据预处理本文是对CNNIC在2012年8月12日至8月31,对关键字过滤,最终生成一个247个维度的向量:生成keyword_filter.txt,23,数据预先处理,第3章 好友推荐的算法设计,对关键字过滤,最终生成一个247个维度的向量:生成keywo,统计每个用户浏览的网址的频率:生成user_id_keyword.txt,24,数据预先处理,统计每个用户浏览的网址的频率:生成user_id_keywo,以下是用户向量矩阵:我们选择了差不多选择247个维度。保存为similarity_web.txt文本,25,相似度计算,以下是用户向量矩阵:我们选择了差不多选择247个维度。保存为,假设用户浏览网站相似度为s,对于用户个人信息聚类结果,我们设定同一类里面的用户相似度为u,不同类之间的用户相似度为v(u+v=1)用户浏览网站在总相似度计算中所占比重为c,那么用户个人信息相似度比例就为(1-c)所以,最终两个用户相似度计算公式为: s*c + (1-c)*u 假设用户属于同一个类 s*c + (1-c)*v 假设用户不属于同一类计算结果直接保存到数据库里,26,计算最终相似度,假设用户浏览网站相似度为s,26计算最终相似度,主要内容,27,第3章 好友推荐算法设计第1章 概述主要内容第2章 相关技术,4系统架构设计,本系统分为数据库、服务端和Web端三个部分数据库:采用MySQL数据库存取挖掘生成的相似度和网站数据服务端:主要是PHP服务程序与接口Web端:用PHP+HTML+CSS+jQuery搭建页面,第4章 好友推荐系统的实现,图41 系统业务逻辑框架图,28,4系统架构设计本系统分为数据库、服务端和Web端三个部分第,4.1数据库设计,数据库共有四张表:user/ user_similarity/ user_web/ webuser:存储demographic.csv文件的用户基本信息,第4章好友推荐系统的实现,图42 表user,29,4.1数据库设计数据库共有四张表:user/ user_s,4.1数据库设计,表user_similarity :存储用户经过基本信息和行为信息得到的形似度,第4章好友推荐系统的实现,图42 表user_similarity,30,4.1数据库设计表user_similarity :第4章,4.1数据库设计,表user_web :存储用户浏览网站的频率,第4章好友推荐系统的实现,图42 表user_web,31,4.1数据库设计表user_web :第4章好友推荐系统的,4.1数据库设计,表web :所有用户浏览的站点域名,第4章 好友推荐系统的实现,图42 表web,32,4.1数据库设计表web :第4章 好友推荐系统的实现图4,4.2服务端设计,服务端分为两层,分为数据库与数据处理层和接口层数据访问与处理层:主要负责与地层数据库的交互,传输数据到接口层接口层:将数据打包成xml或者json格式供前端php和js调用,第4章 好友推荐系统的实现,33,图43服务端设计示意图,4.2服务端设计服务端分为两层,分为数据库与数据处理层和接,4.3 Web前端设计,Web前端设计主要分为php脚本程序、js的Ajax程序和页面php脚本主要负责页面大数据的一次性传输js的ajax程序主要负责页面部分刷新数据的多次传输,第4章 微博信息传播可视化系统的实现,图44 Web前端设计示意图,34,4.3 Web前端设计Web前端设计主要分为php脚本程序、,4.4 系统页面展示,第4章 好友推荐系统的实现,35,接下来我们展示一下我们的推荐系统,4.4 系统页面展示第4章 好友推荐系统的实现35接下来我们,4.4.1 主页,第4章好友推荐系统的实现,图5-1 推荐系统首页图,36,4.4.1 主页第4章好友推荐系统的实现图5-1 推荐系统首,4.4.2 文档页,第4章 好友推荐系统的实现,图5-1 推荐系统文档图,37,4.4.2 文档页第4章 好友推荐系统的实现图5-1 推荐系,5.3 Demo page-select user,第4章 微博信息传播可视化系统的实现,图5-1 推荐系统首页图,38,5.3 Demo page-select user第4章,5.3 Demo page-recommend,第4章 微博信息传播可视化系统的实现,图5-1 推荐系统首页图,39,5.3 Demo page-recommend第4章 微,4.4.3 Demo page-recommend,第4章好友推荐系统的实现,图5-1 推荐系统首页图,40,4.4.3 Demo page-recommend第4章,5.3 Demo page-推荐,第4章好友推荐系统的实现,图5-1 推荐系统首页图,41,5.3 Demo page-推荐第4章好友推荐系统的实现,42,Demo page-推荐,42Demo page-推荐,主要内容,43,第3章 好友推荐算法设计第1章 概述主要内容第2章 相关技术,总结与展望,总结分析总结了现存的推荐系统存在的问题,并提出了一种新的解决这些问题的总体方案借用K-means聚类算法,有效解决了如何处理用户个人资料的相似问题。利用余弦相似度计算出用户浏览网站行为的相似性设计并实现了基于用户行为相似的好友推荐系统展望改进用户访问网站的相似度计算方式,将访问网站进行分类,将特征一般化,将会增大好友推荐的准确性。改进系统现有功能,进一步提高其可用性,并研究在真实用户环境下的使用效果,第5章 总结与展望,44,总结与展望总结第5章 总结与展望44,谢谢!恳请各位专家批评指正!,45,45,