欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    基于用户行为的数据分析与挖掘.ppt

    • 资源ID:2407641       资源大小:2.39MB        全文页数:40页
    • 资源格式: PPT        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于用户行为的数据分析与挖掘.ppt

    房如华 2011.09.10,SACC2011,2,关于我,房如华,酷讯旅游网 BI部门,联系方式,房如华bluetent,SACC2011,北京酷讯科技有限公司,3,酷讯旅游网的BI团队,老公司的新部门 两个使命:,产品运营工作的“推进器”让网站变得更“聪明”,SACC2011,北京酷讯科技有限公司,4,小调查,有多少公司在使用自行开发的统计系统?,有多少公司已经开展了数据挖掘算法方面的实践?,SACC2011,北京酷讯科技有限公司,5,用户行为分析是道哲学题:,“你是谁?”,“你从哪里来?”,“你要到哪里去?”,SACC2011,北京酷讯科技有限公司,6,“你是谁?”,如何识别一个用户?,按惯例,我们使用浏览器的cookie区分不同的用户 推荐使用Guid算法进行生成用户的唯一ID,如何识别一次访问?,生成访问的唯一ID,并使用cookie记录,在cookie中记录会话的最后更新时间,超过N(如30),分钟则认为会话结束,SACC2011,北京酷讯科技有限公司,7,“你从哪里来?”(1),用户的流量来源有多种划分,免费流量,付费流量 不同的来路网站,直接打开网址SEO/SEM,社会化网站付费广告,SACC2011,北京酷讯科技有限公司,8,“你从哪里来?”(2)为什么要关注流量来源?流量质量差异(以搜索引擎和自有流量为例进行对比),跳出率平均访问深度,SACC2011北京酷讯科技有限公司,9,“你要到哪里去?”(1)网站的终极目标:促使用户形成转化效果,电子商务社会化媒体搜索引擎,支付订单一篇原创文章跳转至来源网站SACC2011北京酷讯科技有限公司,10,“你要到哪里去?”(2)在转化的过程中,用户会留下各种痕迹,页面访问路径,页面点击行为,页面结构化数据SACC2011北京酷讯科技有限公司,11,现在我们回到主题,基于用户行为的数据分析与挖掘的目标,根据用户的访问路径、页面点击、访问内容等信息,发,现共性,找促使网站产生更好转化效果的方法。,SACC2011,北京酷讯科技有限公司,12,工作流程,采集,清洗,统计,分析,挖掘,SACC2011北京酷讯科技有限公司,13,数据采集(1),采集哪些数据?,网页浏览行为(Pageview)转化效果,用户在页面上的点击行为 页面元数据,SACC2011,北京酷讯科技有限公司,14,数据采集(2)如何采集?(以酷讯旅游网为例),网页浏览行为页面元数据点击行为转化效果,javascript异步采集,get参数携带字段值。将结构化数据树状存储。向DOM节点挂载onclick事件。通过统计中间页强制重定向。SACC2011北京酷讯科技有限公司,15,数据采集(3)定义数据的格式 以方便数据清洗和分析为第一要务 根据数据规模、维护难度选择不同的方案 选择数据的存储方式 t n分割的文本 关系型数据库 Hadoop 选择合适的数据流向 拉从上游系统向数据分析引擎单向推送数据,保证数据分析引擎与上游系统是互相独立的,SACC2011北京酷讯科技有限公司,16,数据采集(4),常见问题 测量误差,因统计代码异步加载导致某些请求未被统计到,数据收集错误,中文字段的乱码,数据收集遗漏,字符串太长,超过了字段限制而被截断,我们会在数据清洗环节进行解决!,SACC2011,北京酷讯科技有限公司,17,与上游数据商的关系很重要 例:向数据表增加last update time字段CREATE TABLE logs(.,last_update_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATECURRENT_TIMESTAMP,.),field1aaabbbccc,field2111222333,.,fieldnxxxyyyzzz,last update time2011-01-01 12:34:562011-01-01 12:34:572011-01-01 12:34:58,field1aaabbbccc,field2111222333,.,fieldnxxxyyyzzz,last update time2011-01-01 12:34:562011-01-01 12:34:572011-01-01 12:34:58,上游数据商的数据库,(蓝色为更新的数据),商业智能数据库,说服上游数据商调整数据结构,能够形成双赢。SACC2011北京酷讯科技有限公司,数据清洗(1)什么是数据清洗?ETL=Extract,Transform,Load(提取,转换,加载)为什么要数据清洗?脏例:性别字段非男非女,IP字段包含字母 复杂“北京海淀酒店”=“北京市海淀区酒店”?不完整字段太长被截断,导致内容失去意义 高达75%的数据分析初始工作时间会花在这里。,北京酷讯科技有限公司,SACC201118,消重,弃,格式化,预处理,个角度进行数据分析。,SACC2011,数据清洗(2)常见的数据清洗工作示例,工作内容过滤,示例场景网站记录用户一些行为数据,通常,解决方案丢弃,使用cookie进行记录,如果用户禁用了cookie或清除过cookie,就会造成统计到的数据不完整。同一个用户,在一段很短的时间内,设定阈值,超过阈值的记录进行丢多次点击同一个按钮或者刷新同一个页面,如果不进行处理,则将会影响对数据分析阶段的数据准确性,给数据分析带来错误的结果。,用户搜索关键词存在乱码或者过长日志中会记录用户访问的IP地址,但是没有记录用户所在地,这样无,尝试判断编码格式,并进行转换通过内部的IP2City功能,将日志中的IP地址处理成城市,并对城市建,法通过数据分析确定用户的所属信 立省市区的父子关系。便于从多息,不利于城市以后的推广信息的推送。北京酷讯科技有限公司 19,20,数据统计(1)基于用户行为的数据,要统计哪些?(以酷讯旅游网为例)流量来源 用户行为 转化效果,免费流量 直接访问 SEO社会化媒体EDM付费流量 SEM 各种市场推广,页面点击行为访问路径 转化率 跳出率,CPA(Leads)数量及收入展示广告收入电话预订量SACC2011北京酷讯科技有限公司,21,数据统计(2),常用第三方流量统计系统,为什么我们还要做自己的数据统计呢?,各种个性化的需求,例:无法支持任意维度的统计,例:频道间的内部交叉流量无法识别,SACC2011,北京酷讯科技有限公司,22,数据统计(3),酷讯旅游网内部统计系统(labrador)简介,SACC2011,北京酷讯科技有限公司,23,数据统计(4),重要特性,支持流量的实时查看,最慢为小时级 支持频道间交叉流量的统计,对数据安全的考虑,浏览器安全证书:不可仿冒,不可抵赖 详细的审计日志,SACC2011,北京酷讯科技有限公司,24,数据分析,例一:,利用SQL Server Analysis Services 的 OLAP(联机分,析处理)解决方案,分析SEM投放的投入产出比,工作流程,建立事实表和维度表 创建多维数据集 进行ETL操作,SACC2011,北京酷讯科技有限公司,25,事实表和维度表(1),SACC2011,北京酷讯科技有限公司,事实表和维度表(2)事实表 Visits Leads 维度表 ChannelPageType 首次到达某频道的页面类型 CurrentDate 当前时间 EntryDate 此次访问所在Visits开始时间(该visits的第一次访问时间)GlobalPageType 首次到达酷讯的页面类型 Lead Domain 跳往下游网站的主域名 Keyword 搜索关键词,北京酷讯科技有限公司,SACC201126,27,创建多维数据集的过程,1.在数据库层新建事实表和维度表3.建立维度,2.建立度量信息4.将度量值与维度相关联,SACC2011北京酷讯科技有限公司,28,ETL流程图,清除上次执行时产生,的临时文件,E-抽取,T-转换,L-加载,SACC2011,北京酷讯科技有限公司,29,处理结果,SACC2011,北京酷讯科技有限公司,30,数据分析,例二:,分析不同城市用户邮件营销的开信、点击效果,工作流程 数据准备,进行ETL操作,SACC2011,北京酷讯科技有限公司,31,工作列表,数据准备,行政区划数据库,IP至城市对应关系的数据库,ETL,抽取:将开信日志和点击日志导入数据库,转换:将开信日志表和点击日志表中的IP转换成城市 加载:将转换后的城市和对应的email插入email和城市,对应关系表中,SACC2011,北京酷讯科技有限公司,邮件营销的分析结果,北京酷讯科技有限公司,SACC201132,33,数据挖掘,四种任务 聚类分析 预测建模 关联分析 异常检测,SACC2011,北京酷讯科技有限公司,34,聚类分析(1),发现紧密相关的观测值组群,使得同组的相似性越大,,不同组的差别越大,以达到较好的聚类效果,根据聚类得到的不同观测值组,做出决策树,为业务,部门提供决策支持,SACC2011,北京酷讯科技有限公司,35,聚类分析(2),一个决策树的例子,20%产生购物行为,人均利润20元,老用户 60%,80%未产生购物行为,人均利润-1元,发放电子代,金券,10%产生购物行为,人均利润30元,新用户 40%,90%未产生购物行为,人均利润-2元,结论:发放电子代金券的人均利润为60%*(20%*20+80%*(-,1)+40%(10%*30+90%*(-2)=2.4元,值得一做。SACC2011,北京酷讯科技有限公司,36,预测建模,以自变量函数的方式为目标建立模型 分类:预测离散的目标变量,例:在过去5年内,早上10点比下午4点的流量均高出,20%,可以预测未来一段时间也是这个比例。,回归:预测连续的目标变量,一元线性回归 多元线性回归 非线性回归,SACC2011,北京酷讯科技有限公司,37,关联分析,用户在预定机票的同时预定了什么?,SACC2011,北京酷讯科技有限公司,1.,2.,38,异常检测 识别其特征显著不同于其他数据的观测值(异常点,离群点)40.00%广州当地举办了什么活动?,35.00%,广州有无新的特价产品上线?,转化率,30.00%25.00%20.00%15.00%,北京上海广州,10.00%,8月1日,8月2日,8月3日,8月4日,SACC2011,北京酷讯科技有限公司,39,回顾 需要明确用户行为的衡量指标体系 用户行为统计 不同来源的流量质量差异明显 采集与清洗 数据存储的格式要利于查询 需要处理好与上游数据商的关系 将足够的资源投入数据清洗工作 分析与挖掘 数据分析的两个例子:SEM投入产出比、邮件营销效果,数据挖掘的四类工作,SACC2011北京酷讯科技有限公司,40,Q&A,SACC2011,北京酷讯科技有限公司,

    注意事项

    本文(基于用户行为的数据分析与挖掘.ppt)为本站会员(laozhun)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开