物流大数据处理.ppt
物 流 大 数 据 处 理,物流,大数据,处理,采集,导入/预处理,统计/分析,挖掘,1,2,3,4,5,6,7,潘 果,淘宝数据分析挖掘实践及变革,百度大数据分析系统架构,京东大数据实时处理技术,物流大数据处理简介,1,2,3,4,目 录,【推荐】,用大数据能力找到商品之间的关系,【推荐】,用大数据能力找到商品之间的关系,你知晓大数据在哪些方面有应用?,3,1,3,2,架构化1950-1970,数字化,1970-1990,网络化1990-2010+,物联网大数据Something Big is HappeningNOW,移动互联网云计算,4,信息技术革命的小周期智慧化,5,1:1 Marketing,Nanotargeting和Retargeting,6,2,IBM IBM 2013,多渠道交通控制交易分析,智慧的医疗国土安全制造,金融电信欺诈和风险,日志分析搜索质量零售:流失、促销 Copyright 2011 Corporation,大数据在各行各业都可以获得应用,2,4,Copyright 2011 Corporation,IBM IBM 2013,获得突破性回报了解关于客户的一切,作快速大量地创新产品,和风险,利用工具化的资产,利用大数据能力可以帮助企业获得突破性回报,利用大数据独有的技术能力可视化和发现,Hadoop执行零延迟的操,数据仓库流计算,文本分析,整合和治理,多媒体内容,通过分析仸意大数据类型交易/应用数据,机器数据,社交媒体数据实时侦测欺诈,4,11,快,杂,大,大数据的新思维,13,多数据源的集成,浮动车GPS:20M/day,手机位置信息:18M/day,居民调查:80000户,视频/图像数据和元数据:100s of TB/dayGIS数据,供水系统,智能电网,睡眠质量,出租车运营数据:1M/day交通卡:19M/day高速路收费数据:0.5M/day社交网络情感分析,部分数据来源:BeijingTOCC,12,大数据的新方法学数据极大丰富前提下的新分析思维和技术,采样数据 全集数据多数据源的整合基于主观因果假设 相关关系,大数据+小算法+上下文+知识积累描述性分析 预测性和处方性分析实时性 绝对的精确性,数据,数据中介服务,生态系统,数据拥有者大数据的,数据中介,数据技术公司 数据产品和服务16,大数据系统的设计权衡,大体量,基于采样的查询实时性流计算,批量计算精确性,惰性数据的即席查询,Little data(个人计算)19,城市计算,增量计算内存计算,案例一:大数据分析系统架构的搭建,百度的数据规模,1001000PB 10100PB/天 千亿万亿 百亿千亿 十亿百亿/天 十亿百亿/天 100TB1PB/天,数据总量数据处理量网页索引更新量请求日志,离线,在线,离线分析与在线实验相结合,快速迭代是互联网产品的主要创新手段算法A算法B算法B通过反馈来验证算法优劣,搜索引擎的迭代,5%,5%,Online LearningA/B test策略,机器学习平台FeatureTraining,数据网页网页库倒排表Data Mining,想法,原型,系统,快速开发,测试,产品,部署运维,开发框架,互联网产品的迭代A/B测试,持续优化数据智能,验证,数据分析,应用引擎云测试,应用引擎,数据,架构技术,互联网服务enable数据智能,IT产业生产力的变化,60,70,80,90,00,10,硬件Mainframe,软件PC,Internet,Inf+人+数据Cloud,迭代的本质是让人参与系统进化,而Big Data为迭代指导方向,Infrastructure则加速迭代。软件+人,互联网服务的典型技术特点,超大规模,快速迭代,数据智能,软件基础架构,大数据,数据中心、网络、服务器,数据中心计算,云计算技术体系,Disk,Flash,Pipe,K/V,File,Table,统一存储体系 平衡大容量、高并发、低延迟 不同访问模式通过组合满足统一访问与传输,数据访问层,P2P,CDN,分布式存储,描述能力,数据流优化,控制流管理资源分配,优先级、并发控制隔离、安全,执行层,模型层,Map,Reduce,表示层,SQL-like翻译,Join,Select,Top,分布式计算,BC,D,A,实时存储与计算,kNN查询平台,向量计算引擎,流式数据处理引擎,PubSub引擎,机器学习算法平台,OLAP引擎,复杂事件处理引擎分布式数据结构超大规模数据仓库,图查询平台,实时检索平台,向量计算引擎,Vector,Layout,Map-,Shuffle,Operators/Checkpoint,SIMDProgram,复杂事件处理,average(price)trigger(?,b,c)filter(b),pattern(a-b-c),condition(func(a,b,c),流式计算模型window,step,bound,time,M=Stream,目标,1000PB 10亿维特征训练 100维条件查询 流式 触发式,海量高维、多维实时,更大、更复杂、更快!,数据智能,分布式存储与计算,大规模人工辅劣标注系统,人计算,向量引擎,MachineLearning算法,Web Contents,流式处理,Logs,PubSub,推荐系统智能交通,Apps自劢评估,商业智能,决策辅劣,关于京东,营销管理,供应商管理,仓储管理,财务系统,客户数据,网站前台,关于京东 京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平台,全面提升用户体验。,配送管理,大规模数据处理更加容易,ETL/企业数据仓库(Hive/Pig/MR),数据挖掘/建模,(R、Mahout),搜索和推荐,日志存储,“Next Click”运营智能风险控制互动分析,一些场景需要进一步的考量,MapReduce批量处理=延迟较长无法满足用户的实时需求调度开销较大,大数据包括三部分,服务,模型 性能,大数据实时处理的思考,模型,海量数据,数据量大 并发数高,多个数据源整合,预定义好的数据模型,去规格化,数据任务依赖关系简单 推和拉的问题,拉比推好,大数据实时处理的思考,性能,高并发需求 大容量需求,GBTB 级后台数据处理吞吐,高速度需求,从数据产生到处理完成结果延迟要求到秒级 计算需要在短时间内完成,批处理预算 硬件支持,内存、CPU、网络,容错,水平扩展,大数据实时处理的思考,关联获取价值,维度按需定制互动分析、报表等完成价值交付与其他在线生产系统进行数据对接(数据反哺)计算即服务,大数据实时处理的思考 服务,生产数据库,企业数据仓库,大数据实时处理架构财务数据集市,采销数据集市,罗盘数据集市,分析挖掘数据集,数据缓冲区,企业消息总线,流式计算集群,实时数据同步,模型,日志系统,高速存取集群在线实时计算集群,持久 化,PUSH,PULL/PUSH,订阅,ELT,ELT,高速存取集群,ETL,报表应用,分析应用,推荐应用,.,数据推,送,中心,近实时分析集群,近实时计算,实时计算在线服务,离线计算,应用,分布式消息系统缓存集群,日志(用户行为、)批量同步消息队列,开源技术,FlumeScribeKafka,大数据实时处理技术 数据传输,/一个分布式的发布/订阅消息系统 术语,Topics,消息分组,Brokers,消息存储,Producers,消息生产者,Consumers,消息消费者,Kafka,大数据实时处理技术 几个点,Sink,Agent,Agent,Storm等,Broker(Topic1),Broker(Topic2)HDFS,Zookeeper,解耦缓冲容错透明跨数据中心数据分发Flume,Kafka,HadoopHBaseCassandraMongoDBRedis,数据库Sharding 合适的就是最好的,大数据实时处理技术 存储 大容量低速存储 高速存储 KV存储 开源NoSQL数据存储,可加计算、不可加计算实时数据的实时计算实时数据的计算数据的实时计算,开源计算框架 Storm Impala,大数据实时处理技术 计算,大数据实时分析,明细事实表,聚合表1,聚合表2,聚合表3,基本概念 Streams(流),元组序列 Spouts 流的源头 Bolts Functions,Filters,Joins,Aggregations Topologies 优点 可扩展、容错、易用,在内存中执行,流式计算Storm Twitter开源的分布式处理框架,Spouts,Bolt,Topologies,Nimbus,主控节点,用于任务分配,集群任务监控等,Zookeeper,集群中协调,共有数据的存放(如心跳信息),Supervisor,对应一台物理机,用于启动worker,Worker,工作进程,负责启动task,以及通过zeromq进行tuple的分发,与,接收。,Task,工作线程,任务的处理,Storm的部署,Storm的应用模式,用户查询,大数据存储,数据视图集(批处理),数据流,Hadoop,Storm,数据视图集(实时处理)数据流,数据视图集(实时处理)数据视图集(实时处理),流式计算,流式计算,应用,事件收集器,Storm,前段展现,事件驱动实现,注意,内存泄露 消息堆积,算法模块拆分,流式计算,分析可视化数据可视化数据反哺计算即服务,仔细思考其价值,实时的统计:最流行广告CTR预测ETL:格式转换、重复值过滤、运营需求:资源调派,大数据实时处理技术 服务和应用 价值展现,对系统的压力,数据量,数据展现,数据读写和传输,解决方法,前端和后端解耦,缓存的应用,JS发挥前端的能力,压缩 排队,异步、非阻塞IO模型 线程池,事件驱动,后端更强劲,数据库集群:分库、分表、分区 NoSQL数据库:Hbase、MongoDB等,数据应用的问题,淘宝数据分析挖掘实践及变革,淘宝数据四阶段,被动响应,2007年前,主动变革2008-2010 优化完善2011-2012 引领驱动,2013-,数据系统变迁,2007年前数据库(集群)脚本简单调度数据报表,2008-2010Hadoop集群调度监控,实时日志传输数据门户多维分析,2011-2012Hadoop集群,DXP公有云实时Storm调度监控,实时日志传输实时数据库同步数据门户自助查询工具元数据管理,2013-数据驱动新模式探索,调度,监,控,业务库(Mysql),Log Server,外部数据,数据源,数据,计算平台,数据门户,多维自助查询平台,OpenAPI,数据平台架构数,据应,用,数据收集,DBSync,TT,DataX,Hive,HDFS,Hbase,实时计算,Storm,OceanBase,分布式集群,量子恒道,在云端接入,数据魔方,DXP数据交换平台,冷数据集群,数据应用格局,对外数据产品,数据魔方/淘宝指数,行业趋势人群特征成交排行市场细分,量子恒道,销售分析营销效果来源分析,搜索排行榜,对外数据产品,淘宝时光机,http:/回忆的感动,排行榜,对外数据产品-淘宝指数,对外数据产品-量子恒道,数据嵌入产品中,搜索匹配、排序 广告匹配、排序 推荐,商家后台数据 营销效果,直通车、展示广告、淘宝客,内部数据服务,淘数据门户,用户分析商家云图,活动效果分析例行数据报表,在云端,低门槛接入分布式集群周活跃用户1000+,内部数据服务,多维数据自助查询平台,数据仓库和索引技术结合随意组合维度秒级返回,日常数据需求管理,数据接口人,数据工具,天网调度,元数据管理,数据地图-定位、血缘分析 DataX异源数据传输,TimeTunnel实时日志传输 监控报警,生命周期管理,新的探索,金融服务,小微企业贷款个人消费贷款,全网精准营销,DMP、DSP、AD Exchange、RTB,无线与PC数据打通 数据交换,一些观点,数据处理是手段,数据应用是根本 云系统运维能力是核心竞争力 整合关联让数据价值指数级增长 数据可视化很重要,想大做小,迭代优化 关于隐私,隐私和服务的权衡,控制使用比控制收集更有效不针对具体个体,初识物流,物流信息技术,物流信息平台,概念,发展历程,物流的概念(Logistics),来源于二战军事(运输管理、仓储管理和库存管理)物流管理:除运输外的需求预测、采购、生产计划、存货管理、配送与客户服务等,物流信息技术,条码技术,射频技术,物流信息技术,EDI技术,GPS技术,物流信息技术,GIS技术,物流大数据来源,海量并行爆发式增长,物流大数据处理过程,处理过程,挖掘,统计/分析,导入/预处理,收集,识别、定位和感知,http:/,研究点:,物流信息平台的压力测试物流信息平台大数据在亚马逊平台的性能分析,整合:用服务去换取管理 科学拆分数据的数量优于质量 数据相关性优于数据逻辑性或因果性 公共平台解决网络(资源)与流程(服务)电商物流企业(物流仓储平台建设、物流信息平台建设),启示,发展趋势,大数据能否预言足球盛况?,拭目以待,Thank You!,