基于用户行为的数据分析与挖掘.ppt
《基于用户行为的数据分析与挖掘.ppt》由会员分享,可在线阅读,更多相关《基于用户行为的数据分析与挖掘.ppt(40页珍藏版)》请在三一办公上搜索。
1、房如华 2011.09.10,SACC2011,2,关于我,房如华,酷讯旅游网 BI部门,联系方式,房如华bluetent,SACC2011,北京酷讯科技有限公司,3,酷讯旅游网的BI团队,老公司的新部门 两个使命:,产品运营工作的“推进器”让网站变得更“聪明”,SACC2011,北京酷讯科技有限公司,4,小调查,有多少公司在使用自行开发的统计系统?,有多少公司已经开展了数据挖掘算法方面的实践?,SACC2011,北京酷讯科技有限公司,5,用户行为分析是道哲学题:,“你是谁?”,“你从哪里来?”,“你要到哪里去?”,SACC2011,北京酷讯科技有限公司,6,“你是谁?”,如何识别一个用户?,
2、按惯例,我们使用浏览器的cookie区分不同的用户 推荐使用Guid算法进行生成用户的唯一ID,如何识别一次访问?,生成访问的唯一ID,并使用cookie记录,在cookie中记录会话的最后更新时间,超过N(如30),分钟则认为会话结束,SACC2011,北京酷讯科技有限公司,7,“你从哪里来?”(1),用户的流量来源有多种划分,免费流量,付费流量 不同的来路网站,直接打开网址SEO/SEM,社会化网站付费广告,SACC2011,北京酷讯科技有限公司,8,“你从哪里来?”(2)为什么要关注流量来源?流量质量差异(以搜索引擎和自有流量为例进行对比),跳出率平均访问深度,SACC2011北京酷讯科
3、技有限公司,9,“你要到哪里去?”(1)网站的终极目标:促使用户形成转化效果,电子商务社会化媒体搜索引擎,支付订单一篇原创文章跳转至来源网站SACC2011北京酷讯科技有限公司,10,“你要到哪里去?”(2)在转化的过程中,用户会留下各种痕迹,页面访问路径,页面点击行为,页面结构化数据SACC2011北京酷讯科技有限公司,11,现在我们回到主题,基于用户行为的数据分析与挖掘的目标,根据用户的访问路径、页面点击、访问内容等信息,发,现共性,找促使网站产生更好转化效果的方法。,SACC2011,北京酷讯科技有限公司,12,工作流程,采集,清洗,统计,分析,挖掘,SACC2011北京酷讯科技有限公司
4、,13,数据采集(1),采集哪些数据?,网页浏览行为(Pageview)转化效果,用户在页面上的点击行为 页面元数据,SACC2011,北京酷讯科技有限公司,14,数据采集(2)如何采集?(以酷讯旅游网为例),网页浏览行为页面元数据点击行为转化效果,javascript异步采集,get参数携带字段值。将结构化数据树状存储。向DOM节点挂载onclick事件。通过统计中间页强制重定向。SACC2011北京酷讯科技有限公司,15,数据采集(3)定义数据的格式 以方便数据清洗和分析为第一要务 根据数据规模、维护难度选择不同的方案 选择数据的存储方式 t n分割的文本 关系型数据库 Hadoop 选择
5、合适的数据流向 拉从上游系统向数据分析引擎单向推送数据,保证数据分析引擎与上游系统是互相独立的,SACC2011北京酷讯科技有限公司,16,数据采集(4),常见问题 测量误差,因统计代码异步加载导致某些请求未被统计到,数据收集错误,中文字段的乱码,数据收集遗漏,字符串太长,超过了字段限制而被截断,我们会在数据清洗环节进行解决!,SACC2011,北京酷讯科技有限公司,17,与上游数据商的关系很重要 例:向数据表增加last update time字段CREATE TABLE logs(.,last_update_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP
6、ON UPDATECURRENT_TIMESTAMP,.),field1aaabbbccc,field2111222333,.,fieldnxxxyyyzzz,last update time2011-01-01 12:34:562011-01-01 12:34:572011-01-01 12:34:58,field1aaabbbccc,field2111222333,.,fieldnxxxyyyzzz,last update time2011-01-01 12:34:562011-01-01 12:34:572011-01-01 12:34:58,上游数据商的数据库,(蓝色为更新的数据),商
7、业智能数据库,说服上游数据商调整数据结构,能够形成双赢。SACC2011北京酷讯科技有限公司,数据清洗(1)什么是数据清洗?ETL=Extract,Transform,Load(提取,转换,加载)为什么要数据清洗?脏例:性别字段非男非女,IP字段包含字母 复杂“北京海淀酒店”=“北京市海淀区酒店”?不完整字段太长被截断,导致内容失去意义 高达75%的数据分析初始工作时间会花在这里。,北京酷讯科技有限公司,SACC201118,消重,弃,格式化,预处理,个角度进行数据分析。,SACC2011,数据清洗(2)常见的数据清洗工作示例,工作内容过滤,示例场景网站记录用户一些行为数据,通常,解决方案丢弃
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 用户 行为 数据 分析 挖掘
链接地址:https://www.31ppt.com/p-2407641.html