欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    《大数据实时处理技术以及其应用》课件.pptx

    • 资源ID:3872692       资源大小:2.16MB        全文页数:29页
    • 资源格式: PPTX        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《大数据实时处理技术以及其应用》课件.pptx

    ,大数据实时处理技术及其应用,Agenda,大数据的现状业务场景思考技术架构及其应用Q&A,关于京东,营销管理,供应商管理,仓储管理,财务系统,客户数据,网站前台,关于京东(续)京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平台,全面提升用户体验。,配送管理,3 V:速度、容量、类型 数据的来源更加丰富,商品、订单、社交 营销,数据间的关联性更加复杂,人与人,商品与商品,数据的价值,时效性,新商业模式,大数据时代,大规模数据处理更加容易,ETL/企业数据仓库(Hive/Pig/MR),数据挖掘/建模,(R、Mahout),搜索和推荐,日志存储,“Next Click”运营智能风险控制互动分析,一些场景需要进一步的考量,MapReduce批量处理=延迟较长无法满足用户的实时需求调度开销较大,大数据包括三部分,服务,模型 性能,大数据实时处理的思考,模型,海量数据,数据量大 并发数高,多个数据源整合,预定义好的数据模型,去规格化,数据任务依赖关系简单 推和拉的问题,拉比推好,大数据实时处理的思考(续),性能,高并发需求 大容量需求,GBTB 级后台数据处理吞吐,高速度需求,从数据产生到处理完成结果延迟要求到秒级 计算需要在短时间内完成,批处理预算 硬件支持,内存、CPU、网络,容错,水平扩展,大数据实时处理的思考(续),关联获取价值,维度按需定制互动分析、报表等完成价值交付与其他在线生产系统进行数据对接(数据反哺)计算即服务,大数据实时处理的思考(续)服务,生产数据库,企业数据仓库,大数据实时处理架构财务数据集市,采销数据集市,罗盘数据集市,分析挖掘数据集,数据缓冲区,企业消息总线,流式计算集群,实时数据同步,模型,日志系统,高速存取集群在线实时计算集群,持久 化,PUSH,PULL/PUSH,订阅,ELT,ELT,高速存取集群,ETL,报表应用,分析应用,推荐应用,.,数据推,送,中心,近实时分析集群,近实时计算,实时计算在线服务,离线计算,应用,分布式消息系统缓存集群,日志(用户行为、)批量同步消息队列,开源技术,FlumeScribeKafka,大数据实时处理技术 数据传输,Apache项目:http:/kafka.apache.org/一个分布式的发布/订阅消息系统 术语,Topics,消息分组,Brokers,消息存储,Producers,消息生产者,Consumers,消息消费者,Kafka,大数据实时处理技术 几个点,Sink,Agent,Agent,Storm等,Broker(Topic1),Broker(Topic2)HDFS,Zookeeper,解耦缓冲容错透明跨数据中心数据分发Flume,Kafka,HadoopHBaseCassandraMongoDBRedis,数据库Sharding 合适的就是最好的,大数据实时处理技术 存储 大容量低速存储 高速存储 KV存储 开源NoSQL数据存储,可加计算、不可加计算实时数据的实时计算实时数据的计算数据的实时计算,开源计算框架 Storm Impala,大数据实时处理技术 计算,Impala Cloudera公司贡献 一种通用的SQL查询引擎(Hive语法)与Hadoop整合在一起,HDFS DN,HBase,SQL AppJDBC/ODBC,HiveMetastore,HDFS NN,Statestore,Query PlannerQuery CoordinatorQuery Executor,HDFS DN,HBase,HDFS DN,HBase,SQLrequest,Query PlannerQuery CoordinatorQuery Executor,Query PlannerQuery CoordinatorQuery Executor,Mondrian,Mondrian),(OLAP),大数据实时分析,ImpalaHDFS,ImpaladDataNodeM1,ImpaladDataNodeM2,ImpaladDataNodeM3,HiveMetastore,HDFS NN,Statestore,元数据,缓存,IDEJDBC,ReportJDBC,ROLAPMondrian(OLAP)JDBC,大数据实时分析,明细事实表,聚合表1,聚合表2,聚合表3,基本概念 Streams(流),元组序列 Spouts 流的源头 Bolts Functions,Filters,Joins,Aggregations Topologies 优点 可扩展、容错、易用,在内存中执行,流式计算Storm Twitter开源的分布式处理框架,Spouts,Bolt,Topologies,Nimbus,主控节点,用于任务分配,集群任务监控等,Zookeeper,集群中协调,共有数据的存放(如心跳信息),Supervisor,对应一台物理机,用于启动worker,Worker,工作进程,负责启动task,以及通过zeromq进行tuple的分发,与,接收。,Task,工作线程,任务的处理,Storm的部署,Storm的应用模式,用户查询,大数据存储,数据视图集(批处理),数据流,Hadoop,Storm,数据视图集(实时处理)数据流,数据视图集(实时处理)数据视图集(实时处理),流式计算(续),流式计算(续),应用,事件收集器,Storm,前段展现,事件驱动实现,注意,内存泄露 消息堆积,算法模块拆分,流式计算(续),分析可视化数据可视化数据反哺计算即服务,仔细思考其价值,实时的统计:最流行广告CTR预测ETL:格式转换、重复值过滤、运营需求:资源调派,大数据实时处理技术 服务和应用 价值展现,对系统的压力,数据量,数据展现,数据读写和传输,解决方法,前端和后端解耦,缓存的应用,JS发挥前端的能力,压缩 排队,异步、非阻塞IO模型 线程池,事件驱动,后端更强劲,数据库集群:分库、分表、分区 NoSQL数据库:Hbase、MongoDB等,数据应用的问题,

    注意事项

    本文(《大数据实时处理技术以及其应用》课件.pptx)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开