大数据驱动的金融业务创新课件.pptx
,ArchSummit全球架构师峰会,深圳站2020,大数据驱动的金融业务创新百分点 首席架构师,未来的银行会是什么样?,未来的银行,全渠道,柜面,自助,客服,全业务,负债,资产,中间,智能,电子互联网,大数据主动,个性化方便,“Big Data”之“BIG”,BigBrother,1984:TheBig Brother iswatching,BigGovernment,政府对社会生活有深入干涉,Big Oil、BigSteel,1960年代,指代行业中的超级企业,“Big Data”之“BIG”大数据是信息化技术的自然延伸,它让我们从另外一种角度认识世界,IT时代业务数据生成和存储业务IT系统自动化现实业务,DT时代业务IT系统智能化大数据数据化现实世界,可穿戴设备 可穿戴设备甚至可植入设备将越来越多的出现在现实生活中 攻壳机动队(Ghost InThe Shell),信息化建设 全社会的信息化程度越来越高,越来越多的业务需要计算机应用,用户与这些应用交互产生大量数据,EugeneGoostman信息诈骗,人类要学会从比特流中解读他人,更要教会机器从比特流中理解人类,个性化推荐个性化医疗,RTB智能客服,信息网络 无处不在的网络将人和设备连接在一起,认识人、与人沟通的方法将发生本质性的变化,大数据时代需要将“人”数据化:“用户画像”Big Data=无处不在的数据,理论,用户画像感性认识,身长八尺,面如冠玉,头戴纶巾,身披鹤氅,飘飘然有神仙之概,像,目标用户画,方式,组织,标准,验证,用户画像的几个方面描述人、认识人、了解人、理解人,非形式化手段:文字、语音、图像、视频,形式化手段,结构化、非结构化,常识、共识、知识体系,依据:事实、推理过程 检验,大数据+洞察,大数据用户画像:定义用户画像是对现实世界中用户的数学建模,用户画像是描述用户的数据,是符合特定业务需求的对用户的形式化描述源于现实,高于现实,用户画像是通过分析挖掘用户尽可能多的数据信息得到的源于数据,高于数据,大数据用户画像:构建原则用户画像,形式化,业务知识体系,本体,Wiki:,本体是一种形式化的、对于共享概念体系的明确而又详细的说明本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达,本体和知识表示,本体,实例类,个体元素个体的集合,关系函数公理,类之间的相互作用一种特殊的关系永真断言,本体通常采用谓词逻辑作为描述语言(符号表示、形式化表现),朴素的知识表示方法:标签-模型模 型经验总结的用户特征,标 签用户特征的符号表现,现 实业务涉及的用户特征,用户画像可以用标签的集合来表示,化整为零每个标签都规定了我们观察、认识和描述用户的一个角度,化零为整用户画像是一个整体,各个维度不孤立,标签之间有联系,大数据用户画像:“标签体系”方法标签是某一种用户特征的符号表示标签体系,用户画像是特征空间中的高维向量,化整为零每个标签都是特征空间中的基向量,化零为整基向量之间有关联,不一定是正交的,用户画像和标签的数学描述标签是特征空间中的维度特征空间,大数据用户画像:验证用户画像是对现实世界中用户的数学建模,模型是否反应了现实,现实是否在模型中体现,逻,辑:可靠性,机器学习:准确率,索:查准率,搜,逻,辑:完全性,机器学习:召回率,索:查全率,搜,标签(体系)准不准?,标签(体系)全不全?,大数据用户画像:验证用户画像是对现实世界中用户的数学建模,模型是否反应了现实,现实是否在模型中体现,逻,辑:可靠性,机器学习:准确率搜 索:查准率,逻,辑:完全性,机器学习:召回率搜 索:查全率,标签(体系)准不准?,标签(体系)全不全?,无法同时满足,大数据用户画像:验证用户画像是对现实世界中用户的数学建模,模型是否反应了现实,现实是否在模型中体现,逻,辑:可靠性,机器学习:准确率搜 索:查准率,逻,辑:完全性,机器学习:召回率搜 索:查全率,标签(体系)准不准?,标签(体系)全不全?,无法同时满足,大数据用户画像:准确性验证,有事实标准数据+学习,可以验证结果,训练集+测试集,例,示 高、富 家住北京,无事实标准假设+实现,只能验证过程,计算过程是否合乎逻辑,例,示好人内心强大,实践检验证伪主义,试错、A/B Test、数据闭环、自我完善,实践,数字化洞察,风险防范,网点布局优化设计,网点定位和功能规划,运营管理客户访问 网点服务流量预测 优化改进,柜台资源配置优化,.,营销活动策划与支持,差异化广告投放与推广,跨渠道精准营销,搜索引擎关键词优化,社会关系营销,.,客户微观画像渠道交互分析与支持,高净值潜在客户挖掘数字化渠道客户体验设计优化,多维度客户细分.,休眠客户唤醒跨界产品研发,客户流失预测数字化创新产品优化改进,.,申请过线率提升,实时反欺诈,客户信用风险评价,客户个性化定价,押品价值自动评估,.,电子银行部分行,个人金融部,信用卡中心分行产品管理部门渠道管理部门,运营管理部分行,风险管理部,授信审批部信用卡中心,应用部门个人金融部,以客户为中心的数字化战略数字化营销,大,数,据,底,层,平,台,科技部/信息中心,大数据时代的金融应用框架:银行版,人口统计学,姓名 身份证号 手机号.生活信息用户基本生活类标签 用水、用电 天然气使用信息.位置信息 家庭、单位地址 一般生活半径 日常打车路径 航空航班记录自定义信息不同属性的自定义标签 白领 高收入人群.,生活关联关系,家庭关系 是否有子女 同事关系 朋友关系 社区生活圈子.金融关联关系用户在本行的业务关联 资金关联 雇佣关联 买卖关联 担保关系.社交网络关联关系用户社交网络图谱 粉丝数量 是否加V 微信朋友圈 社交网络影响力.,金融产品偏好,用户在我行的产品偏好 产品持有比例 产品持有金额.非金融产品偏好用户的兴趣爱好 喜欢高尔夫 经常看财经类新闻.行内渠道偏好用户对我行渠道使用 手机银行使用频率 微信银行使用习惯.行外渠道偏好用户全网渠道偏好 上网习惯 上网时长.,用户自身价值,用户自身的价值 是否有车 车的品牌型号 是否有房 房的大小、位置 年收入区间 是否企业高管 是否他行VIP.用户对我行贡献用户在我行的金融资产、交易为我行带来的贡献EVA客户综合价值钱包份额综合成本业务紧密度业务支持度.,近期需求信息,客户近期的需求(包含金融+非金融)近期是否准备结婚 近期是否生小孩 近期是否换工作 近期是否出行 近期是否想买理财.营销活动信息用户对营销活动、以及我行各类产品服务的关系忠诚度用户满意度用户流失概率营销活动接受程度营销活动活跃度.,用户风险评价,从行内、行外不同的维度对用户的风险进行评价 人行征信评分 百分点征信评分 信用风险等级 洗钱风险等级 综合授信额度 信贷违约记录 拖欠缴费记录 还款能力 违约概率.黑名单信息信用卡逾期黑名单小贷逾期黑名单欠费用户名单保险骗保用户名单最高法失信人名单公安欺诈名单.,事实标签,模型标签,预测标签,第一维:业务层次划分,第二维:标签应用深度,金融业用户画像体系:银行版支持应用场景用户基本属性 用户关联关系 用户兴趣偏好 用户价值信息 用户风险信息 用户营销信息,统一的产品类目和属性体系,产品数据集成,第三方数据,数据源,数据采集,数据管理,统一的用户画像标签体系,社区论坛,2.用户全渠道ID识别,用户数据集成,3.信息整合,4.分析建模,5.用户画像,企业网站,移动App,1.数据清洗,媒体数据接口,证券服务类应用,银行分析类应用,保险营销类应用,金融行业用户数据接口和应用,3.类别识别,4.品牌识别,5.属性识别,6.产品画像,1.数据清洗,2.文本建模,用户画像应用逻辑架构,API,Webservice,T+0,互联网渠道类系统门户网站手机银行,微信银行,数据交,换系统,数据源系统数据类系统信用卡核心交易系统信用卡风险关联系统,数据中转系统,大数据平台信用卡中心大数据平台,数据应用系统通知类系统短信平台电子邮件,营销类系统网上银行手机银行,数据仓库,OCRM系统ACRM系统,第三方数据,微信银行-分析类系统,数据文件T+1,大数据技,术,大数据管,理,大数据应,用,日志文件T+1,采集,实时接口,数据文件,实时,工具外联应用网关实时,OLAP系统报表系统数据类系统数据集市数据仓库,数据集成和应用架构,构建用户画像关键难题,精准描述用户特征,多渠道产品信息打通,用户数据挖掘建模,用户多渠道信息打通,实时采集用户数据,官网商城,第三方电商,第三方线下渠道,体验店/销售专员,客服,论坛社区,微信,微博,智能产品,用户标识,会员标识,邮箱银行卡,邮箱支付宝,用户名邮箱,手机固话序列号,手机固话序列号,用户名邮箱,手机固话,Cookie微信ID,用户名邮箱,固话,序列号MACIMEI,手机固话,手机固话,手机固话,序列号手机固话旺旺,序列号手机固话用户名,Cookie微信ID,Cookie微信ID,微信ID,微信ID,Cookie微信ID,微博ID微信ID,微信ID手机,一定能得到的标识有可能得到的标识,企业用户触点举例,用户A,用户B,用户C,用户全渠道ID打通图 中 有三类ID,ID间有相互联系 相互联系的ID反映出它们很有可能代表同一个用户低密级业务 可以仅使用多重ID中的任意一个 最大程度打通,跨平台一致体验高密级业务 使用特定ID,或者多种ID的组合 保证数据的准确和安全,.,.,.,.,客户基本信息客户收入支出信息,客户历史交易客户资金往来,客户风险等级.,事实标签,用户画像标签,原始数据,预测标签,模型标签,人口属性资金往来趋势,账户历史趋势产品购买次数,渠道使用频率投诉次数,.,人口属性消费能力,人群属性违约概率,用户流失概率用户近期需求,.,人口属性产品购买偏好用户关联关系,.,模型预测,用户价值 用户兴趣爱好渠道使用偏好 用户活跃度用户满意度 用户风险评分建模分析,统计分析客户持有产品客户渠道使用,使用模型/算法预测算法,.,时间序列SVR逻辑回归产品扩散模型分层贝叶斯,定价模型动态模型CLV模型流失预警模型RFM模型,机器学习,特征提取建模 EM特征选择建模 Bagging预测优化模型 AdaBoost推荐算法SlopeOne Content-basedApriori NBI二部图FPTree Heat DiffusionHybrid CF SVD矩阵分解相似度计算,欧氏距离 皮尔逊相似度Jaccard相似度 LSH局部敏感哈希余弦相似度分类、聚类算法,KNN 贝叶斯网络神经网络 SVM支持向量机文本挖掘算法TF-IDF TextRankVSM TopicModelCRF条件随机场.LDA,产出用户画像标签,用户性别标签产出流程示例,采集用户互联网行为用户采样,页面标签抽取用户标签扩散,用户行为建模用户行为建模,用户标签生成规则用户标签生成规则,应用,应用案例:客户流失预警模型框架,客户基础数据客户账户数据变化记录,客户业务变化情况数据客户属性数据,流失预警模型现有客户流失关键指标历史数据,特征函数选取,流失预警模型建立生成客户流失概率,流失客户挽回客户经理对可能流失客户进行挽回,生成可能流失客户名单根据业务实际情况调整阀值,应用案例:客户流失预警分析结果,性别(男)年龄年龄2金卡普通卡,钻石卡机关团购支付类型消费天数,0.078-0.0670.001-0.3240.310,-2.671-0.454-0.110-0.385,1.0810.9361.0010.7241.363,0.0450.0080.0000.3050.232,1.721-8.3766.529-1.0601.334,0.069 314.600-0.0080.635 0.346-1.3140.896 0.036-3.0120.680 0.020-19.326,0.0850.0000.0000.2890.182,0.9930.1890.0030.000,Coef,exp(coef)se(coef),z,Pr(丨z丨),男性流失的概率是女性的1.8倍。年龄和流失概率间呈现U型关系,两端易流失。普通卡流失概率白金卡流失概率。金卡、钻石卡、机构团购卡流 失概率白金卡流失概率,应注意白金卡客户的维护。,支付类型和流失概率间存在显著负相关系。通过模型可选择易流失群体进行维护,例如:年轻男性白金卡持有者。,流失分析,建立一系列可能影响用户流失的指标建模分析导致用户流失的原因,应用案例:客户流失预警模型应用流失预警,对高流失概率人群进,行标识和提醒结合用户价值筛选出应重点维护的易流失人群,休眠用户唤醒,对休眠用户进行识别通过营销、促销手段唤醒休眠用户,找到高价值潜在客户 找到精准营销切入点 营销方案制定与执行,数据准备与匹配,数据准备,探索性数据分析,特征变量选择,目标客户选择,目标客户分类,制定营销方案,营销方案执行,营销效果分析,历史用户指标分析,数据匹配,样本客户选择,用户行为分析,引子:高价值潜在客户挖掘(出国金融)业务目标通过大数据分析,找到存量客户中潜在的出国金融产品客户(高价值客户),达到潜在客户转化为真正客群的目的。解决方案,找到高价值潜在客户 找到精准营销切入点 营销方案制定与执行,数据准备与匹配,的客户与百分点数据进行匹配,得到公共用户;,2.剔除公共用户媒,体关注类标签过少的用户;3.将剩余用户作为分析基础。,1.将A银行北京分行 1.选择出国留学类金融,产品进行分析;2.对A银行北京分行从2013年6月至2014年,6月进行出国金融客户,通过生存分析模型,发现91%的客户在申请学校之前就已是A行客户;3.需要在用户申请学校,之前先联系到客户。,对出国留学金融客户群,进行分析,发现:1.出国前6-10个月,出国金融客户较为关注,经常逛留学社区论坛;2.出国前3-6个月,出国金融客户的注意力会偏向签证、机票等。,1.进一步对客户群进行,洞察和细分,了解同类用户的需求和关注重点;,学校所在目的地国家,2.与业务人员讨论,确,定营销短名单,以定制短信广告和柜面人工询问(短名单提前收工录入)的方式进行营销。,引子:高价值潜在客户挖掘(出国金融)解决方案,基于全网海量异构的用户数据,采用统计(SUM、Top N、)、算法(AR、PageRank、)、建模(CLV、RFM、Cox)等方法,生成用户标签及标签值,用户标签层次,用户数据,商品(内容)数据,人口属性,人群属性,消费能力,消费意图,预测,模型,用户价值人口属性,活跃度人群属性,忠诚度消费能力,影响力 消费偏好 上网偏好,事实,人口属性,会员信息,购物行为,上网行为,原始,网站行为,会员信息,消费行为,DSP行为,产品手中,网站受众,产品定价,商品画像,类目模型,标签模型,商品信息,类目信息 标签信息,HTML,分类信息,商品信息,模型预测,建,模,统计分析,模型预测,文本分析,建,模,