大数据-宗露华为大数据产品及金融行业实践.ppt
华为金融行业大数据实践分享,大数据是华为ICT战略的重要支柱,Source:Huawei corporate presentation,全球8个研究所,保持1000+的研发投入;拥有社区Committer、IEEE Fellow等世界级数据挖掘和人工智能专家;截止2016年12月,华为大数据取得专利190+,其中发明公布136件,发明授权 54件。,Professional Service,Big Data Analytics Platform,Data Center Infrastructure,Core Network,IP+Optical,FBB,Enterprise Network,MBB,Things(M2M Module),People(Smart Device),EnterpriseApps,SDP,BSS/OSS,3rdPartners,Content&App,3rd ISVs,华为大数据:IDC中国大数据MarkerScape领导者第一,IDC观点:华为公司大数据的竞争优势在于:大数据作为公司重点战略,公司内部有持续发展的规划,网罗全球高端专家,持续进行高研发投入,为公司打造了持续创新的能力。华为聚焦大数据平台层,秉承开放、合作、共赢的理念,以技术合作和人才培养为支撑,携手合作伙伴打造大数据生态。截至2016年12月,华为FusionInsight大数据平台主要商业合作伙伴超过200家。当前行业数据处理规模最大的即公共安全、银行业以及运营商,这几个领域对于大数据平台的性能要求最高。华为在这三大领域积累了700多个案例,证明了产品的稳定性、可靠性以及安全性。华为同时也是活跃的开源社区贡献者。华为是OpenStack董事与白金会员,Completed Blueprints贡献全球第一,综合贡献在中国厂商中排名第一,Hadoop社区贡献全球第三,Docker开源社区综合贡献排名全球第三。2016年华为创建了社区项目Apache CarbonData,发布了实时反欺诈平台FarmerRTD。,华为是大数据生态建设的倡导者和践行者,Top 2,Top 4,Databricks,Cloudera,Intel,Huawei,Meituan,Appier,Alpine Data,Hortonworks,Huawei,Cloudera,NTT,Altiscale,Intel,Yahoo,2015年10月,华为贡献大数据挖掘隐私保护增强技术(PET),将PET技术应用于大数据领域,助力产业发展。2016年6月,华为将CarbonData贡献给社区,成为全球第一个由中国企业提出,被Apache社区接纳的开源组件。,20152016年统计数据,Gartner DMSA 魔力四象限报告,华为FusionInsight,云化、开放、融合的大数据平台,数据集成Porter,Sqoop批量采集,大规模并行处理数据库Apollo DB,Flume实时采集,Oozie作业调度管理,Kafka消息管理,FtpOnHDFS文件传输,管理平台Manager,大数据分析,关系型数据库服务:RDS,运维管理,配置管理,故障管理,性能管理,安全管理,Hadoop生态发行版 HD(HDFS、MapReduce、HBase、Hive、Solr、Spark、Storm、Flink、Elk、CarbonData 等核心组件),数据洞察 Miner(图分析引擎、机器学习、数据标签),大数据云服务,数据智慧 Farmer(实时决策引擎 Farmer RTD),数据接入服务:DIS,数据分析服务:MRS、DWS、Stream、M-OLAP,人工智能服务:MLS、NLP,HD:全新数据格式Carbondata,同时满足多种业务需求,高效率,高性能,存储灵活,兼容,MPPDB:帮助企业构建高性能、PB级新数仓,完备的SQL能力,应用平滑迁移开放平台性能业界最佳弹性伸缩支持PB级数据处理,Miner:一站式图形化大数据洞察平台,全流程;多维度;高性能;开放,Farmer:实时应用使能器,助力企业实时决策,平滑微服务化;易运维;高可用性;业务人员直接写规则,FusionInsight HD,Redis,RTD DB,MQ 消息队列,ALB 接入负载均衡,Container 容器池,RTD执行,RTD编排,数据服务管理,自定义应用1,自定义应用N,FusionInsight Farmer,HDFS,OBS,Batch(YARN),Spark,Hive,MapReduce,TensorFlow/MXNet,模型文件解析运行引擎,Yarn,HDFS,Elk,X86,GPU,COTS,GPU,芯片,ATLAS,FPGA,CPU,Hadoop Data Lake(数据第二数据平面),AI平台(训练+推理),Docker Container,算法仓库,模型仓库,HBase,Loader,Storm/Flink,MLstudio机器学习平台,notebook,特征工程,模型训练,Weave图引擎,知识管理,图计算,图存储,金融行业AI解决方案总体架构,语音API语音识别语音合成,文本API情绪分析机器翻译文字摘要,图像API人脸识别OCR识别图像识别,行业使能服务API,知识图谱API通用知识业务知识,图展示,Restful APIs,业务场景,智能客服,智能投顾,智慧预测营销,智能风控、征信,。,单据识别OCR,实时决策RTD,规则,模型,事件接入,流计算,KV引擎,生物识别,客户接触渠道,短信,网银,微信银行,手机银行,电话语音(IVR),移动互联,呼叫中心,排队机/叫号机,贵宾厅门禁,互联网,一网通,高柜/低柜,ATM,网点,远程银行,自助设备,PAD银行,掌上生活,推送,电邮,自助终端,VTM,POS,DM(RDB),ODS,企业级数仓(第一数据平面),EDW(GP/TD/LibrA),WebService,VM,NAS,T保险大数据建设历程,2013年,2015年,EDW,大数据应用,技术平台,批处理平台,FusionInsight HD,基于专用设备,实现结构化数据离线、实时计算,引入企业版Hadoop,开放技术与通用设备,构建企业内统一数据平台,基于Hadoop,企业内统一的批处理平台,离线计算与分析能力,2016年,2017年,数据集市,人工智能AI,机器学习ML,基于GreenPlum,构建数据仓库,承担企业数据批量加工,基于Oracle,建立财务、资产、审计、绩效、风险、ACRM等集市,客户数据ATM,基于Hadoop,提供目标客群确定、目标客群提取功能,数据平台类,营销类,反欺诈类,产险/寿险IDS,基于Oracle,对产险/寿险业务数据实现T+0实时供出,引入MPP架构的分布式数据平台,开放技术与通用设备,实现结构化数据批量加工,FusionInsight Weaver,业务运营类,引入企业版图分析引擎,开放技术与通用设备,构建企业内关系分析平台,打假通(车险),基于Weaver,通过图计算和关系分析,发现理赔时的骗保案件,LBS业务,基于Hadoop,提供根据用户当前位置做产品精准推荐,智能运维,基于Hadoop,从业务系统收集日志,实时分析,发现异常情况,给出告警,集团标签系统,知客系统,自动核保,基于Hadoop海量数据处理和实时计算能力,实现与历史数据关联检查功能,人管预考核,基于Hadoop,实现业务人员考核,包含实时推送预考核结果,流平台,基于Hadoop,企业内统一的流处理平台,数据实时计算,新数据仓库,基于Hadoop,集团内新数仓/集市平台,卸载GP的财务、审计应用,基于Hadoop,基于Hadoop,工具软件,车险理赔定损,基于ML,医疗单据识别,基于AI,Python/R,数据架构研究:烟囱式数据应用-企业统一大数据平台-深化大数据应用-数据智能,智能客服,基于AI,打假通业务场景,业务场景:保险理赔案件中存在欺诈和骗保行为,需要通过技术手段快速和有效识别。当前使用手工查找复杂关联关系,耗时耗力且易遗漏关键信息;当前只能对个案风险进行评估,串案和团伙不易被侦测。方案要点:通过图计算和关系算法分析,发现理赔案例中的骗保行为和案件:同地多案、同号多案、可疑时间、可疑三者、同车多案、复杂串联案件。核心技术:大数据、图分析引擎(Spark,GraphX,Miner(Weaver))大数据方案:利用华为大数据技术+华为图分析引擎+可视化界面展示支持十亿结点千亿边。客户收益:1、打假业务人员人工表格方式-图形化展示,提升分析效率2、人工表格方式找案件关联,很难做多层扩展-案件自动关联,多层关联和扩展,找串案、窝案3、单人分析-对案件人工标注,多人协作打假,根据输入数据,构建多源异构信息的复杂网络,打通数据边界,根据拓扑结构与信息传递过程识别异常模式,判断欺诈案件、犯罪团伙,点击规则,双引擎问答系统:自动化的检索系统&精准的知识图谱,Spark,人工坐席界面,TopN答案,标记,数据处理,过滤,规则化,搜索问题,工单,已有知识库,新聊天记录,Lucene,问题初筛,相似模型,排序算法,相似度排序,可执行引擎,工单问题,Tensorflow/Mxnet,构建知识库,离线排序算法,排序模型,SVM,CNN,知识图谱问答系统,图数据库,知识图谱,工单,已有知识库,Spark,数据处理,知识表示,标记,问答检索系统,基于图引擎构筑企业级知识应用,数据接入,知识获取,知识表达,知识计算,知识应用,交易数据,用户数据,商户数据,社交数据,网上银行数据,FusionInsight Hadoop(HDFS/Hive/HBase),FusionInsight Miner知识建模(统计、分类/聚类、关联、关系抽取、图挖掘、打标签),Spark,读数据,并计算,FusionInsight Weaver,OWL本体语言,基于OWL表达的图数据导入,搜索、路径、匹配、推理(Plugable),入库(Plugable),分析计算接口层,知识存储,查询、遍历(Plugable),推荐,营销,问答,1,2,3,4,5,6,在知识的获取过程中,可以利用华为的Miner进行建模,也支持其他建模工具,只需要知识的结果遵循OWL标准,即可按照标准格式入库到Weaver。,基于图计算和知识图谱技术,构筑企业级相关关系网和知识库,在金融反欺诈、反洗钱、营销、智能客服等场景下,对业务变革影响越来越突出,甚至在IT运维管理方面也有不错的创新实践。,风控,实时风控需求与挑战,风控方案总体架构,数量不断增长的电子银行欺诈已经成为全球增长最快的“产业”之一。电子银行欺诈不仅会造成用户直接的经济损失,也会动摇客户对银行的信心,影响银行的信誉。现有系统的实时性不足,且无法支撑高并发的业务压力。,客户挑战,解决方案,华为FusionInsight Farmer RTD实时反欺诈平台提供了实时决策引擎,通过PL/SQL定制化反欺诈规则,支持多租户。Farmer RTD是高效、可靠、易用的实时发欺诈框架,响应时延小于50ms、支持10000+TPS并发、满足1000+规则同时运行关键组件:Farmer RTD,客户价值,构建统一的实时反欺诈平台,同时满足电子渠道(零售)、信用卡等多个维度的实时反欺诈业务。已经上线400+反欺诈规则,高并发的情况下,规则总运行时间小于50ms,实现了用户完全无感知的实时反欺诈。,实时反欺诈实施效果,手机银行,网上银行,电话银行,ATM机,实时反欺诈平台,财务处理,拦截登记,卡片冻结,Farmer RTD,已经选择华为大数据的金融机构,谢谢,