大数据解决方案.pptx
,大数据解决方案,1.项目背景理解,IBM 大数据平台解决方案,当前业务面临的挑战,数据问题,慢,缺,重,散,繁,差,企业内数据定义缺失;数据项缺失;数据属性不完整;企业外部数据无暇顾及;,数据在多个系统中重复采集、重复存储;,系统数据无法关联、共享,数据整合困难;系统林立,数出多门;,数据时效性差,使用者无法及时获得所需信息;,数据使用不方便,方法繁琐;手工报表多;,数据质量差,数据不完整,数据不一致;,没有准确数据支撑难以进行深度分析决策缺乏可靠依据,IT如何推动公司运营变革,2、服务管控模式逐步完善夯实基础管理管控思路由简单支撑向精细服务转型全面优化信息化服务流程实现分级服务,保险行业经过多年的发展,整个行业的变革越来越快,市场竞争环境也日益激烈。保险公司想要在残酷的竞争中占得先机,就必须考虑产业的融合,并在价值链中占得有利的位置。,1、由被动的IT支撑向主动的以数据为核心的IT服务转型以大数据为核心组织IT服务能力持续完善基础支撑能力拥抱互联网架构体系全面云化,大数据思考,根据Gartner的定义,大数据的特征具体涵盖了3V的内容:数据量庞大(Volume):从PB扩展到ZB;IT系统、互联网、物联网等每天都在产生大量新生数据,过去的两年间产生的数据占到了所有数据的90%数据变化快(Velocity):数据变化与处理的频度由天加速到秒/毫秒;订单、支付、欺诈、微博、监控视频、传感器、信令每时每刻都在不停的产生数据数据多样(Variety):数据种类繁多:数据库表,格式文本,自然语言文本,电子表格,声音,图片,视频,大数据应用价值可以从公司侧和客户侧体现,客户:精准服务及时响应智能应用,透明管控,围绕大数据应用,促使公司实现科学运营、价值创造以及透明管控,一方面能使得公司侧感知到大数据带来的管理、决策、运营效率和质量的提升;另一方面,能够使客户感知到大数据带来业务开发的智能、服务及时以及与需求匹配的精准。,科学运营,价值创造,企业:开发便捷分析及时决策支持数据准确,客户,2.大数据平台需求理解,IBM 大数据平台解决方案,大数据平台的关键需求,角色,流程,数据应用,数据分类,结构化了企业架构中四大架构的关键要素,以及要素间的承接关系,形成了一套规范、清晰的定义,从而为大数据平台的方案设计建立了更明确的指导依据和验证方法。,柔性架构的大数据平台企业架构方法论和云计算技术让建立柔性架构成为可能,基于企业架构元模型,建立柔性的架构需要实现业务、应用、数据、技术四个架构层面的解耦。业务应用/数据:业务活动在业务架构和应用架构(大数据平台)间具有承上启下的作用,可从业务类型和业务活动类型两个维度划分,前者体现业务差异,后者更多体现数据平台能力要求,且可以稳定地分为决策类、管理类、执行类和分析类四种,因此业务与IT的解耦可从四类业务活动支撑实现。应用数据:应用和数据共同承接了业务,数据实体也承接了应用交互,因此二者解耦的核心是数据实体。这可以通过建立稳定的、弹性的企业企业级大数据模型、数据整合与存储区域,保证未来应用对数据操作的可扩展,以及屏蔽了应用对底层数据直接访问的数据服务加以实现。应用/数据技术:系统组件承接了应用和数据,因此要实现该层面的解耦,需要解决系统组件对应用的依赖,可通过建立应用开发平台、数据交换平台和数据管控平台来实现。同时基于云计算的弹性扩展和虚拟化技术实现系统组件与基础设施的解耦。,大数据平台能力需求分析决策类业务活动,决策就是为达到某一目标而在若干个可行方案经过分析、比较、判断,从中选择并赋予实施的过程据诺宾斯泰(Robenstein)将决策过程定义为五个步骤大数据平台的核心是数据,从数据生命周期看,大数据的生成、获取、整合、服务、应用、归档各个步骤分别有着不同的目标,并面临不同的问题从决策类活动过程和数据生命周期两个维度,对大数据平台的决策类活动的支撑能力需求进行分析,通过优化技术选择满足约束条件的最优方案,4V,产生,应用,获取,整合,服务,归档,应用,通过仿真技术进行各种方案的预演与细化,整合,案例类、规则类知识支撑规则制度信息查询,实时/准实时数据捕获客户行为捕获企业/用户互联网数据捕获,应用,服务,获取,整合,大数据的存储和管理海量数据的快速分析,海量数据的快速获取,归档,整合,服务,应用,归档,获取,整合,服务,应用,归档,获取,服务,归档,实时/准实时数据捕获互联网数据捕获,冷数据的近线访问,快速的数据服务执行简便的数据服务使用,非结构化数据的挖掘和分析,快速的数据转储和归档,高可用的数据支撑,建立柔性的架构支撑个性化应用开发支撑,最终用户自定制的数据服务,与生产系统在功能和数据分工上清晰合理,与生产系统的及时交互决策执行业务活动中的数据支撑,大数据平台能力需求分析分析类业务活动,分析类活动是通过对数据的深入分析,力求取得更深刻业务洞察的过程,参考DM-CRISP数据挖掘方法论,包括业务理解、数据理解、数据准备、数据建模、模型评估和模型部署六个步骤,4V,产生,应用,获取,整合,服务,归档,应用,整合,应用,服务,获取,整合,归档,整合,服务,应用,归档,获取,整合,服务,应用,归档,获取,服务,归档,模型评估,应用,整合,获取,服务,归档,历史数据探查和分析,海量数据的快速获取方便准确的数据抽样能力,探索数据可方便归档和恢复,非结构化数据、实时数据的获取海量数据的获取,非结构化数据与结构化数据的整合流数据概要数据与结构化数据的整合海量数据的处理能力,非结构化数据分析能力海量数据分析能力,支撑不同分析的数据宽表,宽表数据归档,丰富的数据挖掘算法建模过程中的模拟仿真仿真结果的优化计算调用API进行模型训练能力,丰富的数据计算和可视化,分析模型能够导出为可直接使用的评分条件,如SQL,评估数据能够嵌入到模型评估中,通过外部调用发现已经退化的模型,模型分析结果的快速回写,模型评估数据集的提取,模型分析结果嵌入到生产系统中,模型分析源数据的预处理与获取,大数据平台关键能力需求应用开发与运行,当前总部BI系统的数据应用需求包括业务部门的计划性业务支撑需求和大量的临时性支撑需求,以及IT部门自身规划中的计划性支撑需求;省公司经分系统也需要支撑来自业务部门和IT部门的大量支撑需求,同时要完成集团下发的IT规范要求未来省公司数据集中后,大数据平台将必须承担省分公司和总部的全部数据应用服务需求,数据应用需求急速增长,总公司IT增长缓慢,省公司IT投入有限,平台开发方面:如何支撑急速增长的数据应用需求平台执行方面:如何保障海量大并发的数据访问需求和海量数据处理的性能要求,大数据平台将面临两大挑战,IT人力紧张IT系统扩容难IT投入效益难保障,大数据平台关键能力需求更直接的决策支持,未来大数据平台,当前BI系统,结构化决策:库存控制半结构化决策:套餐设计非结构化决策:产品外观设计,知识库(事实知识、规则知识、案例知识),模型的建立基于预先假设模型所需数据事先确定已知模型是静态的模型的数学形式很完善,但往往不能符合实际业务情况,DWD,DWA,ODS,DM,DM,DM,非结构化数据,3.大数据平台定位分析,IBM 大数据平台解决方案,前期初步确立的大数据平台目标技术架构,目标架构:拥抱互联网、运用云计算技术,建立开放的基于SOA架构的中国企业集中化云数据服务支撑平台,面向全国各级经营主体和总部集中平台提供大数据、分布式、实时智能数据服务支撑与客户响应,并注重公共数据、公共能力的一点沉淀与全网共享,实现基于特定对象、特定需求的个性化自主定制、灵活组件组装,高效实现一级系统多维应用多级支撑,围绕三个维度:透明管控、科学运营、价值创造强调开放灵活:基于开放业务组件、应用开发平台、公共应用模型等构建,灵活支撑个性化应用开发、部署和推广实施五项管控:数据模型与标准、数据质量、数据安全、元数据、数据生命周期推行五个一点:一点源头采集、一点加工转换、一点存储、一点分析挖掘、一点服务提供,数据模型标准管控,基于技术架构目标,加入大数据平台建设的驱动力,分析类系统应该建立多少数据库,多少种数据库,保证数据从省分及时向集团提供准确唯一数据,现存问题,在一个框架下有效支持5级体系的个性化开发和共性开发,提供多种形式数据服务提供方式,并有效执行,数据应用,数据服务,数据交换采集,数据整合,数据存储,数据管控,新兴技术,流数据处理架构和体系,桌面云管理技术,IaaS、PaaS,SaaS,DaaS等云管理技术,内容数据处理架构和体系,提供多厂商、多系统的统一开发平台,大数据平台应具备的技术支撑能力,10,9,6,2,数据捕获,数据服务,大数据产生,知识沉淀,数据消亡,清晰的整合层次和加工时效海量数据、非结构化数据、实时流数据等多样化的存储与管理Gartner于2012年7月提出大数据管理中:“列式存储数据库、云计算和内存数据库在未来5年内将是3个最重要的技术”,数据价值,1,0,4,数据整合,3,数据处理,14,业务信息,8,系统支撑,5,数据分析,11,数据冷却,13,数据归档,示意,12,近线存储,7,数据展示,大数据生命周期,时间,大数据平台将借助云计算的快速可扩展性、标准化服务、自助服务等特征,强化大数据的获取、处理、整合、分析、服务等技术支撑能力,促进敏捷化、个性化的数据应用开发,最终助力IT对业务转型的推动。,海量数据的识别和快速装入数据分布流转互联网数据和客户行为捕获实时/准实时数据捕获,大量数据服务需求的快速开发支撑快速数据服务执行简便的数据服务使用清晰的数据服务目录数据服务使用记录,针对海量数据的高性能数据分析实时数据的即时分析非结构化数据的智能分析(如网页的标引、结构化解析,视频、图片的模式识别等)高级分析算法,海量冷数据(包括实时、非结构化、结构化)的存储和管理策略冷数据的透明访问冷数据与热数据的统一支撑操作型和分析型数据的统一归档快速的数据转储和归档,数据的展现策略个性化应用开发支撑共享应用快速部署对外部系统的支撑信息提炼以及对业务的支撑知识的组织、沉淀、管理和应用,3V,大数据平台与周边系统的关系,大数据平台与省分系统和总部系统的关系主要体现在功能分工协作和数据交换两大方面,此处将大数据平台作为一个黑盒子,重点关注数据平台与外部系统的关系。,大数据平台,总部系统,省分系统,功能分工与协作生产系统只保留与生产直接相关的、数据稽核(比对)相关的统计报表,其它全部整合到分析平台上。直接相关可以从流程和数据两方面考察,一系列连续业务活动,使用相同数据的应用功能直接相关(耦合度高),如结算中的话单数、成本查询,需要放在结算系统。不直接相关的统计、分析类应用,由大数据平台通过数据服务,并在D域中统一建立应用进行支撑。数据交换一般情况下,D域中的分析类应用系统中不单独存储数据,系统所需的和系统产生的数据都存放在数据平台的数据集市中。其中如果系统使用的数据较少,可以部门/省分数据集市;但如果系统涉及的数据很多,则需存放在应用集市中生产系统使用的数据全部存放在生产系统中,当需要与大数据平台发生共享数据时,则通过数据交换进行。具体交换周期模式可以是实时、准实时和分批交换大数据平台的数据整合策略是根据业务需求,按照数据模型定义和数据存储周期的要求,集成生产系统中所需的部分私有数据和共享数据,而不是全部获取和集成生产系统的共享数据集(SID)尽管是数据中心业务职能管辖范围,但SID不属于大数据平台的管辖范围,只是大数据平台中的一个数据源,且SID与大数据平台的数据交换是双向的,数据读取,数据交换,数据交换,大数据平台在Cloud的位置,大数据平台:外围关系:数据来源与生产系统的ADB,SID等;服务对象:数据应用、反馈生产系统;核心内容:数据管理、数据组织、数据管控、数据服务;承载关系:IaaS统一承载构架;PaaS数据集与SID和ADB并列;PaaS技术服务集:互为补充;PaaS业务服务集:单独形成面向分析业务服务集;,大数据平台针对异常复杂的大数据管理,而云计算为大数据管理提供了坚实的技术支撑。Cloud以数据为核心向上提供标准的封装服务,以业务(流程)解耦为前提支撑生产经营、数据加工分析等应用。概括的说,Cloud 是大数据平台的载体,为其提供了基础运行环境。,4.大数据平台总体架构设计,IBM 大数据平台解决方案,总体逻辑架构图,总部系统,基于企业大数据平台生态系统框架,总体架构可分为系统平台和参与人两大部分,其中系统平台可分为大数据平台、总部IT系统和省分IT系统,参与人可分为企业内部用户、外部用户、系统建设厂商,省分系统,图例,逻辑库,物理库,数据流,控制流,数据整合与存储,DW/DM,ODS,Cloud-i(资源),统一 IaaS服务接口,数据服务,数据管控,数据应用开发平台,标准化API,分析模型,SDK,工具软件,数据获取,非结构化数据,总体逻辑架构图,数据应用,应用开发平台,数据整合与存储,数据获取,大数据平台,生产系统,数据服务,应用集市,总部系统,备份文件,备份文件,备份文件,备份文件,省分系统,备份文件,备份文件,备份文件,备份文件,数据管控,数据归档,近线区,归档区,明细类数据,快照类数据,日志类数据,元数据,快照类数据,日志类数据,参数类数据,元数据,明细类数据,参数类数据,前置机,前置机,图例,逻辑库,物理库,部门集市,ODS,EDSB,部门集市,应用集市,EASB,接入适配,数据交换层,数据处理层,传输路由,标准策略管理,交换管理,平台管理,监控告警,作业管理,处理逻辑定义,获取管理层,非结构化数据,流数据,数据抽取,数据转换,数据装载,省分集市,省分集市,省分集市,知识库,DWA,DWD,部门集市,透传通道,ADB,SID,ADB,SID,总体物理架构图,IaaS,SaaS,PaaS,物理资源,实时流/批量ETL,海量分析平台,归档区资源池,虚拟化,中低端存储,高端存储,小型机,X86服务器,提供能够满足用户需求的各类应用程序,关注软件架构与服务,提供应用在基础设施中进行计算所需要的各类服务,提供系统运行所需的计算与存储资源,SMP+MPP+Hadoop,小型机/X86 SMP集群,数据库资源池,网络设备,Compute Intensive Applications,Platform Management Console,Platform Enterprise Reporting Framework,Resource Orchestrator,Low-latency Service-oriented Application Middleware,Service Instance Manager(SIM),Enhanced MapReduce Processing Framework,DATA INTENSIVE,Platform Symphony Core,大数据平台方案设计关键点和相关方法论,高可用数据提供,数据全面性数据质量数据快速提供与分发,数据整合分区与定位,应该如何给大数据平台划分数据区,每个区的数据目标是什么应该分为哪些类数据整合区,有多少个数据库,每个数据库的定位是什么,必要性如何,数据存储成本与性能,海量、多样性、实时数据的高性价比的数据管理在线、近线、离线数据的管理策略易扩展的数据存储架构,支撑大数据业务战略的应用框架,自顶向下:五个一点要承接自底向上:从大数据4V特性,如何进行创新,真正实现IT对业务的推动,IBM 行业模型eTom与SIDIBM 数据治理方法论,DW2.0方法论企业信息工厂方法论维度建模方法论IBM BI方法论,维度建模方法论IBM BI方法论Hadoop实施方案,IBM 企业架构(EA)方法论IBM CBM业务组件模型,关键点,方法论,关键点描述,自助式应用开发,支持开发人员的敏捷化开发支持最终用户的自助式的查询、分析和挖掘,IBM BI方法论工行数据大集中经验,5.分项专题关设计思想及注点,IBM 大数据平台解决方案,数据获取方案设计思想和关注点,采集周期,数据传输,采集范围,数据模型,采集技术,采集方式,采集方式,联动机制,传输技术,选择企业现有数据模型+IBM行业数据模型+其它优秀实践,确立企业级逻辑数据模型结合逐步实现一点源头采集、覆盖MBO全域全景数据,满足横纵向、内外部众多数据源需要,根据系统中不同数据类型的时间串口(实时/准实时/日月)确定合理的数据采集周期根据管理要求,确定数据的采集周期要求,并执行,保证采集与源系统联动,避免源系统变化影响根据数据类型、数据量、数据时效等特性选择合适的传输技术和策略,确定数据采集和传输过程中的关键问题点,监控采集可能出现的问题。数据采集问题的排错机制和容错机制。,系统现状,管理需求现状,系统时间窗口,采集管控,采集监控,问题处置,选择合适的采集技术,保证数据原生态、时效要求针对结构化/非结构化、海量数据并发处理、实时数据处理等要求,确定统一的和标准的数据采集方式,数据分类,数据分布传输,数据整合与存储方案设计思想和关注点,数据整合,基于业界近期研究进展,讨论数据整合区域的基本划分层次明确整合数据区中应该有多少个逻辑/物理数据库,具体定位SA、ODS、DWD、DWA、DM数据集进一步细分的策略,实时中的建模策略、参照方法论等建设方法操作型/分析型数据数据、结构化/非结构化数据、实时/非实时数据等不同数据类型的功能划分和整合策略各个数据集/库中应该存放哪些数据,包括数据类分布和数据生命周期分布策略;数据在不同数据集间的复制策略,如数据集市是否全量保存DWD中的CDR,数据存储,大数据的3V特征,对数据存储与处理的要求,满足9621的支撑要求结构化数据、非结构化数据的特征分析,相应的存储管理策略,不同类型数据的共用机制非结构化数据的分类、标引等结构化信息的提取方法内存数据管理技术在实时流数据处理中的具体应用策略结构化/非结构化数据、实时/非实时数据等不同类型数据应该使用哪些软硬件平台,包括DBMS管理和处理能力要求,计算、存储、网络平台不同数据生命周期的数据清理机制、数据存储管理策略,数据在在线区、近线区、归档区的自动归档与自动恢复机制。,数据模型,明确应该存在几套数据模型,每类数据模型的定位和承接关系,统一模型和个性化模型之间的关系,如何满足省分5级/7级要求选择企业现有数据模型+IBM行业数据模型+其它优秀实践,确立企业级逻辑数据模型的主题域、数据分类和数据子类,数据模型,数据服务方案设计思想和关注点,方案设计,数据服务理解,数据服务内涵,必要性,可行性,服务层次,指对大数据平台中的各种数据进行封装,通过各种服务方式向不同应用系统提供数据服务,以满足用户的多样性数据请求。,将数据服务划分为3个层次,中层服务、底层服务开放给内部应用系统使用,高层服务向所有用户开放;数据应用基于数据服务,通过EAB取得数据,数据服务可复用部分数据交互进程,并依据数据标准、元数据提供服务;建立简单、易用的数据封装、服务开发向导,能够快捷的对数据进行封装,发布新服务;两层服务接入安全管理,以及对服务请求优先级管理,控制服务执行的数量,保障系统安全平稳的运行;高层服务请求需要进行语义转换,然后执行服务,中层、底层服务不需要语义转换,直接执行服务;,服务运行方式,数据服务目标,建立应用和数据之间标准化的访问接口,能够快速响应用户的各种数据请求,提升与外部系统实时的互动与信息共享能力;将数据与应用隔离开来,实现系统间的松耦合性,依托大数据平台能力,对各种数据请求作出快速响应,实现实时的信息共享;将各种接口技术及响应模式组合成多种服务方式,快速响应各种服务请求,用户可根据实际情况选择适合自己的服务方式;,与其它模块协作,服务功能划分,数据应用方案设计思想和关注点,应用技术架构,应用开发环境,应用管理平台,应用框架,细化补充,开放化,标准化,灵活性,集成开发环境,个性化支持,多厂商支持,应用推广能力,应用生命周期管理,选择“决策/管控/执行”三个层面作为第二维度进行细化结合国内外运营商框架/IBM参考框架,对框架从覆盖的业务范围上、运营型决策等方面进行了补充,基于对业界开发平台的分析,结合分析型应用的负载特点,采用Java组件化开发与商用工具相结合的方式进行应用构建应用技术架构按业界流行架构划分为三层:展现层、业务逻辑层、基础服务层,同时与M域PaaS分层保持一致展现层由Web UI开发组件、商用工具前端两部分整合业务逻辑层由业务逻辑组件、商用工具引擎两部分整合基础服务层可复用M域PaaS中4A等各类组件,个性化根据涉及的层次可能提出:应用个性化、数据服务个性化、数据模型个性化、数据标签/编码个性化应用开发平台提供各个层次的开发标准、可复用组件、开发工具、开发环境、测试环境等,开发/测试评估完成后,由运维团队统一进行部署应用开发平台通过桌面云实现多厂商支持与安全控制开发标准中规定应用设计标准以便于个性化应用快速推广,应用生命周期管理,提供发布申请、发布、监控、评价、下线等全生命周期管理,在评价方面进行较大扩展,可评价应用的使用量,可根据使用分析帮助进行应用扩展,数据管控方案设计思想和关注点,技术架构,管控开发环境,管控范围,全面管控突出重点,分布式,层次化,可扩展,集成开发环境,多厂商支持,应用推广能力,大数据平台数据流转的各环节都应该得到有效管控,包括数据采集、整合、存储、服务、应用等。从应用关注点上要突出数据质量应用,从数据对象上要关注大数据,从系统环节上关注云架构下的管控方式变化。,大数据平台中流转是分布式的,其数据管控技术应与之相适应进行分布式的管控信息采集,并尽可能实现数据管控本身云化部署。数据管控应分成管控信息的采集、整合存储、管控应用3个层次。由于大数据平台环境下数据和应用的扩展能力比较大,要求保证数据管控的可扩展能力。特别是适应大数据结构复杂且经常变化的场景。,管控各环节会涉及到多厂商的系统和数据环境。管控开发平台应提供各层次、各接口、各应用的开发标准、可复用组件、开发工具、开发环境、测试环境等,开发/测试评估完成后,由运维团队统一进行部署应用开发平台通过桌面云实现多厂商支持与安全控制,Q&A,谢谢你的观看,