数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt
《数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt》由会员分享,可在线阅读,更多相关《数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt(34页珍藏版)》请在三一办公上搜索。
1、数据挖掘之推荐算法入门(阿里大数据竞赛参赛经历),蔡珉星厦门大学数据库实验室2013级硕士研究生指导老师:林子雨http:/2014年11月1日,遇到的问题,目录,什么是推荐系统阿里巴巴大数据竞赛推荐算法入门,Part 1,什么是推荐系统,帮助用户从大量信息中找到自己感兴趣的信息。比如你今天想下载一部电影看看,但当你打开某个下载网站,面对100年来发行的数不胜数的电影,你会手足无措,不知道该看哪一部。推荐系统可以根据你以往的观影记录,为你推荐相关的电影。推荐可以两方面入手:基于内容的推荐-相关导演、演员的其他作品;基于协同过滤的推荐-找到与自己历史兴趣相同的用户群,推荐该用户群喜欢的电影。,什
2、么是推荐系统,什么是推荐系统,电影应用(豆瓣电影):,盗梦空间的推荐,推荐构成:导演、演员其他作品;同类型电影。,什么是推荐系统,音乐应用(虾米音乐):,推荐构成:喜欢的歌曲所属专辑的其他曲目;风格类似的曲目。,什么是推荐系统,电商应用(京东商城):,推荐构成:协同过滤、属性类似的商品。,推荐系统实践的推荐,什么是推荐系统,推荐系统的本质,通过一定的方式将用户与物品联系起来。,Part 2,阿里巴巴大数据竞赛,阿里巴巴大数据竞赛,7000+参赛队伍,凸显了如今大数据方向的热门,赛题介绍 在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务
3、就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。数据:行为日志:用户id、品牌id、用户对品牌的行为、行为时间。用户行为:点击、购买、加入购物车、收藏。,阿里巴巴大数据竞赛,比赛形式 设计一个推荐算法,基于算法和已有数据得出第五个月用户可能购买的品牌。训练集:用于建立模型;验证集:用于评估模型。例如可以用 1-2月 的数据作为训练集,3月的数据作为验证集,以此来检验算法的效果。然后再用 3-4月 的数据作为训练集,得出推荐结果。最终提交推荐结果,由系统给出分数。评估指标 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好。,阿里巴巴
4、大数据竞赛,参赛成绩:第60名 比赛时间较长,持续4个月,比较耗时间。后劲不足,没有达到预期的成绩。通过竞赛,对推荐算法的入门有了深入的理解与实践。,阿里巴巴大数据竞赛,Part 3,推荐算法入门,阿里大数据竞赛提供的数据:行为日志:用户id、品牌id、用户对品牌的行为、行为时间。用户行为:点击、购买、加入购物车、收藏。对数据的处理:提取特征 特征:推荐算法所考虑的因素,如 用户过去一个月对品牌的点击次数 用户过去一个月对品牌的购买次数 品牌过去一个月的总销量.,推荐算法,原始数据,处理后的特征数据,算法1:简单的推测规律点击次数多,购买可能性较大;加入购物车、收藏,购买可能性较大;最近有浏览
5、过的品牌,购买可能性较大;.,推荐算法,点击次数与是否购买的关系,算法1:简单的推测规律 首先将数据转化为特征值:点击次数 click加入购物车 is_cart收藏 is_fav几天前有浏览过 days 实现1:直接利用规律 if(this.days=10)then recommend(this);if(this.is_cart.,推荐算法,简单粗暴且有效,只要规律找的好,效果还是可以的,算法1:简单的推测规律点击次数 click加入购物车 is_cart收藏 is_fav几天前有浏览过 days 实现2:设定权值,并计算分值(通过验证集找到较优权值)W=w1*click+w2*is_cart
6、+w3*is_fav+w4*1/days 例如得到一个较有权值:w1=0.1,w2=0.2,w3=0.2,w4=0.5,推荐算法,简单有效,实现方便,有一定效果,算法2:逻辑回归(Logistic regression)Logistic regression(逻辑回归)是当前业界比较常用的机器学习方法,用于估计某事件的可能性。如某用户购买某商品的可能性、广告被某用户点击的可能性等。,推荐算法,公式定义将可能性限定在0和1之间,算法2:逻辑回归(Logistic regression)组成1:回归 回归是对已知公式的未知参数进行估计。如已知公式是y=a*x+b,未知参数是 a 和 b。我们现在有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 推荐 算法 入门 阿里 竞赛 参赛 经历
链接地址:https://www.31ppt.com/p-5360952.html