大数据培训教程大数据的来源和动机课件.ppt
《大数据培训教程大数据的来源和动机课件.ppt》由会员分享,可在线阅读,更多相关《大数据培训教程大数据的来源和动机课件.ppt(78页珍藏版)》请在三一办公上搜索。
1、Be Internetional,大数据,盛名难负,Agenda,1.大数据的时代背景2.大数据时代的典型技术,1.大数据的时代背景,大数据浪潮兴起的主要脉络,2008年9月,NATURE,“SPECIALS:Big Data”12月,计算社区联盟,“Big Data Computing:Creating Revolutionary Breakthroughs in Commerce,Science,and Society”2009年10月,Toy Hey,“The 4th Paradigm:Data-Intensive Science Discovery”2011年2月,SCIENCE,“S
2、PECIALS:Dealing with Data”5月,EMC World2011,“Cloud Meets Big Data”6月,麦肯锡,“Big Data:The Next Frontier for Innovation,competition,and productivity”6月,IDC(Sponsored by EMC),“DIGTIAL UNIVERSE:Extracting Value from Chaos”2012年1月,达沃斯世界经济论坛,“Big Data,Big Impact:New Possibilities for International Developmen
3、t”3月,美国奥巴马政府,“Big Data Research and Development Initiative”5月,联合国,“Big Data for Development:Challenges and Opportunities”,美国政府的大数据计划具有很强烈的宣传符号色彩,3月29日:奥巴马政府以“Big Data is a Big Deal”为题发布新闻。宣布投资2亿美元启动“大数据研究和发展计划”以图增强收集海量数据、分析萃取信息的能力。与工业界、大学研究界、非营利性机构与管理者一起利用大数据所创造的机会。5月23日:在TechCrunch Disrupt大会上,透露了5项
4、将要颁布的重要联邦举措。其核心是政府开放数据计划,将政府数据和一些企业数据公开,以图改善美国人的生活方式,进而创造工作岗位。6个首先启动大数据计划的政府部门中,国家科学基金会的研究内容提到要“形成一个包含数学、统计基础和计算机算法的独特科学”,其他大多是应对挑战的数据工程类项目,如国防部高级技术研究局多尺度异常检测项目网络内部威胁项目INSIGHT(网络威胁自动识别)Machine Reading项目Minds Eys(机器视觉)项目VIRAT(军事图像分析与预警)XDATA(半结构化与非结构化数据的计算技术与软件工具),Obama Election TOP Contributor,麦肯锡的咨
5、询报告比较系统的确立了大数据的概念,更为深远的可能是“数据科学”的最终兴起,All the models are wrong,and increasingly you can succeed without them.-From Peter Norvig,GOOGLE,2007年,已故图灵奖得主吉姆.格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科研“第四范式”(The 4th Paradigm)的愿景。即相对于试验科学(第一范式)、理论科学(第二范式)、计算科学(第三范式)而言。数据科学继承了统计学的很多东西。强调后见之明(hindsight)或预见(foresight)而非洞察
6、(insight)强调相关关系(correlation)而非因果关系(causality)Correlation is enough and the end of theory!,*“Data Science”在字眼上最早由EMC提出。,BigData 是什么 用于承载所有的概念,BigData 的定义 盛名之下,其实难负广义的:大数据已经不再局限于技术领域。如今,大数据已成为一项业务上优先考虑的工作任务,因为它能够对全球整合经济时代的商务产生深远的影响。除了为应对长期存在的业务挑战提供解决方案之外,大数据还为流程、组织、整个行业、甚至社会本身的转型激发了许多新的方式。狭义的:BigData
7、泛指数据集的大小,产生的速度和数据类型超过了通常的数据库,数据管理软件在限定的时间范围内所能获取,存储,管理和分析的范畴。这是一个相对的概念,不能从绝对意义上指明某一个数值来定义,而且这个相对的标准根据所处的行业和客户的不同千差万别,市场曲线,2.大数据时代的典型技术,以GOOGLE为代表的互联网公司是大数据发展的始作俑者,大数据可以说发轫于GOOGLE于2003年陆续发表的一些技术论文-“The Google File System”“MapReduce:Simplified Data Processing on Large Cluster”“Bigtable:A Distributed S
8、torage System for Structured Data”,HDFS是GFS的开源实现Fackbook的HayStack解决了海量小文件(如图片)的存储问题,NoSQL(Not Only SQL)GOOGLE的BIGTABLEAMAZON的DYNAMOYAHOO的PNUTSACID vs BASEBasically availableSoft stateEventually consistent以弱一致获取高可用基于SPANNER的混合型数据库F1(用于GOOGLE的广告系统)融合兼有了BIGTABLE的高扩展性与SQL数据库的可用性和功能性,BigData的代表技术,Agile p
9、rovisioning Elastic compute power Scalable storage resources,Device management and analytics Geo location information Social business interactions,Data streams analysis High performance Infrastructure Ultra low response time Horizontal scalability,Hadoop,NoSQL,Streaming,Pure SQL and RDBMS approach B
10、etter horizontal scalability than traditional RDBMS Relative low hardware infrastructure,MPP DB,SQL On Hadoop,数据库的扩展,延伸和增强是Hadoop技术在目前企业市场最迫切,最可行和可落地的需求Hadoop 技术的可接受度是一个大问题MapReduce 运算模式与以往的方式大相径庭,具有比较陡峭的学习曲线以Hadoop技术为平台的系统的设计,开发,实施,运维,优化对于企业来说是巨大的挑战SQL 支持为大数据技术的落地打开了一扇大门成熟的社区和技术体系架构业界大量的数据依然是结构化数据,
11、1.海量数据集成预处理,2.历史数据管理系统,3.跨域探索性分析,+,CAP Theorem,你只能最多同时具备两个方面,分布式计算之MPP Shared-Nothing架构演进,完全共享例如:SMP服务器,DB,磁盘,MPP,注:蓝灰色表示共享资源,动态数据的实时分析流数据结构或非结构化动态数据流流计算实时对流数据进行分析计算,静态数据上的历史数据分析批处理模式查询驱动:静态数据提交查询依靠数据库,数据仓库,传统计算模式,流计算模式,Queries,Memory,Disk,Updates,Memory,Disk,Event Data,Queries,Alerts Actions,流计算,3.
12、互联网和大数据环境下的金融实践,这表明了什么?,商业模式的差异是巨大的互联网所有的模式都是以客户中心,流量,入口,体验至上(真正的以人为本),有两个案例1.XX行的警告短信2.某欧洲企业的前台,对于人的尊重,对比其他国内企业传统行业怎么赚钱怎么卖怎么盈利互联网不懂传统行业这是劣势,也是优势(经验是一种桎梏,守成也许适用,但是开拓未必),传统行业门口的野蛮人,整体趋势,脱媒和转型是中国金融业当前和未来的重要经营主题。金融深化加剧金融脱媒效应,中国金融业面临转型和分化。互联网金融的快速崛起和迅猛发展带来金融脱媒和互联网脱媒的双重挑战。在这种背景下更新转型思金融重构价值链,是中国银行业的重要变革方向
13、。,互联网的本质是通过技术手段,解决了信息不对称的问题,解决了“沟通”的问题,一切仰赖于信息封闭与不对称产生超额利润的模式与行业都会收到冲击与挑战,互联网法则,一.用户,个人用户,尤其是有黏合性的用户,基于社会、组织、商业活动关系构成的虚拟社区用户,自组织的有目的的群体用户二.赢者通吃三.分散合作+开放四.用户体验至上总则:信息对称、组织扁平、快速响应,互联网代表的是一种平民化思潮,互联网为金融带来了什么,极为低廉的交易成本(x86&Cloud)更有效的更快速的大数据分析方法(BigData&FastData)无组织的组织力量-极致与动态的个性群体(以客户为中心)新的自然垄断平台与生态环境(U
14、nified platform&Ecosystem)加上移动互联网之后更是如虎添翼,永远在线,模糊了线上线下的边界(Never offline)全新的商业模式和意识形态,互联网金融环境下中国金融业面临的挑战,除了数据本身的大规模增长以外,银行业面临的更大的挑战是大数据带来的业务挑战,这包括:微型企业贷款市场上,银行与互联网起家的小额贷款公司难以竞争;在互联网支付中,网银支付所占比重越来越低,这使得银行越来越难以知道客户的消费行为;互联网融资模式的出现,在未来可能会超过以银行为中心的间接融资和以交易所为中心的直接融资模式,这会使得银行逐渐被边缘化。,所有这些挑战,本质上是因为银行对于客户的了解程
15、度,数据的理解相对越来越弱,数据量大PB Level的挑战,互联网化带来的灵活敏捷性挑战,对于数据价值的认识与挖掘能力的挑战,互联网金融的主要表现形式,第三方支付平台支付宝,快捷支付,PayPal,square移动金融Orange+巴克莱,法国电信网+巴黎银行,中移动+浦发,M-PESA社交网络金融Facebook F币,Twitter+PayPal=Twitpay网络融资平台P2P,众筹,阿里小贷,鲶乡小贷,余额宝,以余额宝来分析,产品特点有活期存款的流动性,收益远高于活期,不设最低门槛的货币基金建行的观察通过制度规避监管风险通过客户筛选控制市场风险借助大数据降低流动性风险(海量taobao
16、数据的深度挖掘,支付宝支付规律,消费模式,实现实时流动性预估)建行的启示尽快推出类似产品强化“以客户为中心”的创新意识(用户想要什么样的理财产品)加大信息技术与银行经营管理的深度融合(复杂的流程通过技术自动化,简化),基于海量消费数据的动态定价能力是互联网金融的核心之一 风险的快速准确定价仰赖多源与维度的信息分析,Taobao基于大数据平台的数据运算与挖掘,Data Architecture of TaoBao-For huge data volume and huge transaction,Horizontal sharding in user centerUser login data(
17、90%log)and user master data(10%log)are separated,and stored to different db clusters,Online and offline data is separatedRead-write separation in trade centerChoose suitable partition keyRelieve the read bottleneck of master db,scale read nodesWrite only in one database for consistency.Deal with com
18、plex querySql is from complex to simpleMulti-table join-complex query on single table-query on primary key,Requests,PresentationSpring,Trade Center,Product Center,Comment Center,User Center,Tair distributed cache,Data Access Layer,HSF,Horizontal sharding in user center,read-write separation in trade
19、 center,CASE1,CASE2,CASE3,Add search in product center,TFS,TDDLShard db,shard table Support subset of sql:join is not supported now.Limited transaction:not cross database,special data sourcesRead-write separationTair Distributed cacheTFSDistributed storage for massive“small”file(1M).HSFHigh performa
20、nce service framework for the communication among modules,业务模型?,这是企业的隐私几乎所有的客户不愿意告诉其他人仰赖与对于业务的熟悉和创新仰赖于基于数据的建模数据标准和数据质量非常重要,并且是需要一开始就规划和建立的(大多数传统企业并不是这样)需要数据科学家数据分析人员数据建模人员模型开发人员,4.成功/失败 案例介绍,典型场景与案例,历史数据管理的现状与需求,1.历史数据时间跨度长、数据量大,目前做法主要是从备份系统获取数据,操作周期长,数据恢复、提取过程复杂,对于部分历史数据,可能难以提供。2.随着历史数据的日益增长,历史数据管理
21、应用己面临着数据备份恢复时间长、运维成本高、存储弹性扩展能力差、存储成本高、无法满足业务多维查询的问题;3.电子影像及文档服务平台则存在海量历史数据离线检索不便、数据备份恢复时间长的问题。同时,随着近年来业务的发展,产生了结构化数据与非结构化数据整合存储与联动查询的新需求。4.基于全量数据挖掘与建模的需求,历史数据HDS能力需求,应用场景描述,应用场景 1 历史交易明细查询,业务需求针对交易明细,放开给终端用户进行查询,面向普通用户和分行支持网银或者柜台进行在线查询,服务器响应时间要求为在线SLA或者异步方式针对特殊帐号,如taobao类海量交易帐号,可适当延长SLA具体查询类型用户帐号+查询
22、时间段基于单表或者少量表连接,应用场景 2 司法与审计查询,业务需求支持离线批量查询,查询类型多变,不固定格式有单独的审计数据库,如审计库无数据,需要在历史数据HDS中进行查询,或能导入至审计数据库针对特殊帐号,如taobao海量交易帐号,可适当延长SLA具体查询类型无具体类型 ad-hoc 查询,应用场景 3 应用日志分析,业务需求支持离线批量查询和分析,查询类型多变,不固定格式基于应用程序日志等日志数据进行用户行为,用户偏好等客户化分析为精准营销进行服务来自外部的半结构化,非结构化数据存储与分析具体查询类型复杂查询,多表关联,应用场景 4 数据导入导出,业务需求交易明细数据,加工后的数据,
23、公共处理的数据,轻度加工汇总的数据以及其他各类数据的高速导入导出能力与其他各类源数据库的交互能力高性能,大吞吐量并行导入导出,应用场景 5 数据模型与挖掘,业务需求海量历史交易数据的数据建模与挖掘,产生用户消费行为数据分析围绕以客户为中心的各类应用客户360视图客户细分客户生命周期管理宏观经济类,面向互联网背景的业务探索已经展开:服务营销,DDN专线连接一对一客户信息绑定(唯一识别)基本的功能账单、积分、额度。消费提醒(取代短信?)还款(微信支付?)信息推送(较少)未来LBS-想象空间太大语音-机器人客服几个数字3000千万持卡人已粉100万每年上亿条的短信费用呼叫中心成本,技术性探索也已未雨
24、绸缪:某商业银行案例(续),打通社会化大数据库,期待社会化数据内外通达如何把品牌价值透过网络杂音直击目标客户,并及时发现客户的需求做好精准服务是考验自身技术段位的如果把银行内部的客户号和新浪的微博号挂接起来,在一定程度上就可以做群体营销了。外部数据引入的动作很关键,把微博、QQ、邮箱等社交化的、能很快找到客户的方式能通达起来。跟传统的数据存储放一起,同等对待,建立一个更加立体丰富的数据库。基本信息、爱好信息、行为信息、分析信息互联网金融模式新浪微博开发平台上做了一个缴费应用“V缴费”,国外典型案例:摩根大通,已经开始使用Hadoop技术以满足日益增多的用途,包括诈骗检验、IT风险管理和自助服务
25、150PB在线存储数据、30,000个数据库和35亿个用户登录账号,Hadoop能够存储大量非结构化数据,允许公司收集和存储Web日志、交易数据和社交媒体数据。数据被汇集至一个通用平台,以方便以客户为中心的数据挖掘与数据分析工具的使用。,Banking Solutions Tree,Improve Company Performance,Customer Identification,Customer Attraction,Customer Retention,Customer Development,Entity ResolutionTarget Customer AnalysisEcono
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 培训 教程 来源 动机 课件
链接地址:https://www.31ppt.com/p-3873703.html