欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    《大规模数据分析系统的搭建》课件.pptx

    • 资源ID:3873222       资源大小:3.59MB        全文页数:36页
    • 资源格式: PPTX        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《大规模数据分析系统的搭建》课件.pptx

    ,大数据分析系统的建设,推销两个观点,数据系统 分层设计,为什么推销这两个观点?,数据系统,Whatis a datasystem?Asystemthatmanagesthe storageandqueryingof data.,Query=Function(Alldata).,Sometimesyouretrievewhatyoustored,Oftentimesyoudotransformations,aggregations,etc.,MapReduceisaframeworkfor computingarbitraryfunctionson arbitrarydata.,nathanmarz,theauthorofStorm,Mysql是数据系统,包括查询层(SQL)和存储层。,HBase、HDFS、NoSQL都至多算是存储层。,分层设计,垂直分层,时效性库,小时库,天级库,周库,水平分层,OLTP,OLAP SQL,NoSQL 为什么分层?减少设计复杂性,减少使用运维复杂性 资源效率使用最高,实时计算层(Storm)实时存储层(HBase),批量计算层(MapReduce)批量存储层(HDFS),输入数据,为什么推销这两个观点 小数据-大数据 大数据系统也是storage+query 大数据需要分层考虑输出数据,最近两个趋势,NewSQL,Interactive Analysis 说明了什么,NewSQL,NoSQL太过原始,SQL容量性能有限,Megastore:ProvidingScalable,Highly AvailableStoragefor InteractiveServices(Google2011)F1-The Fault-Tolerant Distributed RDBMSSupportingGoogles Ad Business(Google 2012),NewSQL,SQL,NoSQL,Interactive Analysis,Hive响应太慢,数据库容量性能有限,Dremel:InteractiveAnalysisofWeb-ScaleDatasets(Google 2010),Tenzing:A SQL Implementation On The MapReduceFramework(Google 2011)PowerDrill:Processing a TrillionCells per Mouse Click(Google 2012),说明了什么 大数据的开源社区正在向数据库厂商发起挑战 OLTP:难度会稍大,撬动更多的是mysql、postgresql的领地 OLAP:很有希望,成本昂贵稳定性要求低数据量大时效性低不是不可缺少的组件,今天的重点:,大数据分析,Oracle ExadataEMC Hawk,SAP HanaTajo,热词榜Amazon RedShiftTeradataEMC GreenplumIBM Netezza HP Vertica,Stado,citusdata,Impala,Stinger/Tenz,HPCC System,Pig/Hive,Salesforce Phoenix,大数据分析架构,RDBMS,RDBMS,OLAP DB,Static Report,Query Report,OLAP Reportand Analysis,Reportingand Analysis,ETL-2Dataware HouseETL-1,Business Intelligence,Datamart,Other,文本,分析,Data,Mining,StaticQueryOLAPAdhocData Mining,大数据分析发展趋势从上往下:,1.数据量越来越大,维度越来越多2.交互性越来越难做3.技术难度越来越大4.以人为主-以机器为主5.用户专业程度越来越高,越来越少,非结构化数据 非结构化数据进行结构化后,利用原有技术分析 直接文本分析,百度热搜词 static report用户query分析 query report搜索引擎 OLAP多维分析MapReduce上的调研作业 adhoc新闻聚类 data mining,OLAP技术难点,多维分析:rollup,drill-down,slicing和dicing 各类维度组合,并提供交互式响应,OLAP技术难点 解决手段,减少不必要的列读写,行列混合 列式存储,减少不必要的行读写 hyperdex 多维hash,infobright knowledgegrid,压缩,预先计算 块级别的 物化视图,减少不必要的列读写-行列混合,减少不必要的列读写 列式存储,减少不必要的行读写 多维hash,减少不必要的行读写 infobrightknowledge grid,预先计算,块级别的,对每一个数据块,提前计算好其max,min,sum,count等。物化视图,提前计算好需要的几个维度的rollup表,Adhoc技术难点,任意维度分析:存储优化,等同OLAP 交互式响应,MapReduce太慢 Impala,任意分析:简单的SQL可能并不好用 方便的查询分析编写环境和展现工具,数据可能导入OLAP做进一步分析,数据分析系统搭建 小系统,MS Excel(BI),MySQL/Postgres/Infobright,PentahoBI/SpagoBI,大数据分析系统搭建 商业版 Oracle BIEE+Oracle Exadata 其它产品,GreenplumSAP HANANetteza.,大数据分析系统搭建 开源版,开源还没有很成熟的产品来构建大数据下的,OLAP,短期解决 商业产品,交互性强,访问量大:转为查询请求放入SQL或,NoSQL中查询,交互性要求不高,访问量少的:转为利用,Hive/Impala来做,中等规模分析方案 HPCC Systems,谢,谢,Q&A,

    注意事项

    本文(《大规模数据分析系统的搭建》课件.pptx)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开