欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    腾讯、大讲堂59-数据蕴含商机挖掘决胜千里.ppt

    • 资源ID:2482277       资源大小:2.34MB        全文页数:39页
    • 资源格式: PPT        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    腾讯、大讲堂59-数据蕴含商机挖掘决胜千里.ppt

    ,腾 讯 大 讲 堂,第五十九期,研发管理部,数据蕴含商机,挖掘决胜千里,腾讯研究院 数据分析研究室SimonJiang/江宇闻2009-02-24,Agenda,数据挖掘是什么?,1,模型+算法,2,数据挖掘实践分享,3,心得与总结,4,从运筹帷幄到决胜千里,舌战群儒,草船借箭,巧借东风,火烧赤壁,赤壁怀古 苏轼羽扇纶巾谈笑间樯橹灰飞烟灭.,观日月之行,察天地之变,风,雷,电,雨,云,云多会下雨刮风会下雨下雨会闪电闪电会打雷,数据爆炸的时代,Data Mining,circa 1963,IBM 7090,600 cases,“Machine storage limitationsrestricted the total number ofvariables which could beconsidered at one time to 25.”,数据挖掘是,Data,Information,Knowledge,Wisdom,To find/discover/extract/dredge/harvest、Interesting/novel/useful/implicit/actable/meaningful、Information/knowledge/patterns/trends/rules/anomalies、In massive data/large data set/large database/data warehouse、,Data+context,Information+rules,Knowledge+experience,多学科的融合,Databases,Statistics,PatternRecognition,KDD,MachineLearning,AI,Neurocomputing,Data Mining,Agenda,数据挖掘是什么?,1,模型+算法,2,数据挖掘实践分享,3,心得与总结,4,几个基本概念,模型(Model)vs 模式(Pattern)数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出描述型挖掘(Descriptive)vs 预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的,也可以是手段,数据挖掘是一个过程,“from data mining to knowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996),数据挖掘方法论,CRISP_DM(Cross Industry Standard Process for DM)1998年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出SEMMASAS公司提出的方法Sample,Explore,Modify,Model,Assess在战略上使用Crisp_DM方法论,在战术上应用SEMMA方法论,工欲善其事必先利其器,数据清洗填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归数据集成多个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时,还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析数据离散化数据简化的一部分,但非常重要(尤其对于数值型数据来说),先来玩玩数据(EDA),探索性数据分析(Exploratory Data Analysis,EDA)探索性地查看数据,概括数据集的结构和关系对数据集没有各种严格假定主要任务数据可视化(a picture is worth a thousand words)残差分析(数据拟合+残差)数据的重新表达(什么样的尺度对数抑或平方根会简化分析)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)常见方法统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图,如饼图、直方图、散点图、箱尾图等模型,如聚类,数据挖掘=模型+算法,分类预测,关联规则,孤立点探测,聚类,Logistic Regression决策树神经网络,K-MeansK-ModeSOM(自组织图),AprioriFP-Growth,基于统计基于距离基于偏差,你使用过信用卡吗?,卡应该发给谁?哪些持卡人会拖欠?哪些拖欠的客户会还款?,影响,资产组合(Portfolio),1、根据历史,预测将来2、目标是一个分类变量3、预测结果是一个统计意义下的概率,1、哪些人可以发卡,额度是多少。2、持卡人拖欠的概率是多少3、该对谁催收,分类过程,训练集,分类学习,训练集,IF rank=professorOR years 6THEN tenured=yes,Jef is YES!,分类器,物以类聚,人以群分,人为地选取细分维度,客户价值地域活跃程度,维度灾难的发生,维度增长细分数目指数增长人脑仅能处理有限的维度,市场,聚类示意,基于欧氏距离的三维空间中的聚类基于质心的聚类算法(K-Means),A1,A2,B1,x,y,z,发现商品间的关联规则,buy(x,”diapers”)buy(x,”beers”),关联规则的量度,支持度:Support(A=B)=#AB/#N,表示A和B同时出现的概率期望可信度:Support(A)=#A/#N,表示A出现的概率置信度:Confidence(A=B)=Support(A=B)/Support(B)改善度:Lift(A=B)=Confidence(A=B)/Support(B),关联规则的度量,发现具有最小置信度和支持度的全部规则 X Y Z 支持度(support),s,事务中包含X&Y&Z的概率置信度(confidence),c,事务中包含X&Y的条件下,包含Z的条件概率,令最小支持度为50%,最小置信度为50%,则有A C(50%,66.6%)C A(50%,100%),顾客购买尿布,顾客购买两者,顾客购买啤酒,从算法到应用,数据挖掘厂商,Agenda,数据挖掘是什么?,1,模型+算法,2,数据挖掘实践分享,3,心得与总结,4,看看QQ的流失数据,每个月5001000万的老用户流失,一年老用户流失接近1亿,实际自然人流失状况虽然没有这么严重,但是仍然是一个惊人的数据。,客户流失是每个行业每天都在面对的问题,1、建立流失预测模型,回答客户是否要流失,何时流失的问题2、通过预测模型建立客户流失管理机制,更为有效地管理流失,而不是去防止流失,一切从目标出发,目标变量:即需要根据业务需求确定模型需要预测的对象,在QQ客户流失模型中即是在业务上对“流失”的定义。,沉默客户数在4月后区域稳定,模型选择连续沉默2个月作为流失的定义,目标变量的定义:Good:在表现窗口连续两个月有登陆的客户Bad:在表现窗口连续两个月都没有登陆的客户Intermediate:在表现窗口其中一个月有登陆的客户,打开观测用户的窗口,训练样本 测试样本观察窗口:2007年1月2007年3月表现窗口:2007年5月2007年6月Time Lag:2007年4月交叉校验样本观察窗口:2007年2月2007年4月表现窗口:2007年6月2007年7月Time Lag:2007年5月,观察窗口,表现窗口,Time Lag,M,M-1,M-2,M-3,M-4,M-5,M+1,M+2,M+3,1,观察窗口:形成自变量的时间段。,表现窗口:形成因变量的时间段。,2,3,Time Lag:预留给业务部门进行相应操作的时间段。,1,2,3,变化幅度特征变量 描述用户使用量上的变化幅度,勾勒出用户行为的特征,基本属性变量 描述用户的基本属性,产品使用行为特征 描述用户使用产品的情况,消息业务使用行为特征 描述用户使用消息业务的情况,音频业务使用行为特征 描述用户使用音频业务的情况,视频业务使用行为特征 描述用户使用视频业务的情况,客户在线的行为特征 从在线时长,登陆次数,登陆频率等角度研究用户的使用行为,归属地变化的行为特征 描述用户在某一时间周期内登陆所在地的变化情况,中间变量,比例特征变量 描述用户业务使用占比,基础变量,变量描述,行为趋势特征变量 描述用户的使用行为变化趋势,变量描述,黄沙吹尽始到金,基础变量和中间变量数目约为224个经过变量变换后的变量数目约为1700个,变量筛选,使用Logistic回归的Stepwise方法进行下一步拟合,卡方统计量 Chi Square,信息价值 Information Value,信息增益 Gain Index,单变量回归,偏相关分析 Partial Correlation,Lift曲线,ROC曲线,50%,75%,建立闭环的业务流程,Agenda,数据挖掘是什么?,1,模型+算法,2,数据挖掘实践分享,3,心得与总结,4,几点心得,参考文献,网络资源,Tecent Research,Question&Answer?,联系我们,RTX:simonjiang TEL:7999RTX:florayi TEL:8889RTX:jeavinqiu TEL:5909RTX:neilliao TEL:4232,Thank you!,

    注意事项

    本文(腾讯、大讲堂59-数据蕴含商机挖掘决胜千里.ppt)为本站会员(文库蛋蛋多)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开