《大规模数据分析系统的搭建》课件.pptx
,大数据分析系统的建设,推销两个观点,数据系统 分层设计,为什么推销这两个观点?,数据系统,Whatis a datasystem?Asystemthatmanagesthe storageandqueryingof data.,Query=Function(Alldata).,Sometimesyouretrievewhatyoustored,Oftentimesyoudotransformations,aggregations,etc.,MapReduceisaframeworkfor computingarbitraryfunctionson arbitrarydata.,nathanmarz,theauthorofStorm,Mysql是数据系统,包括查询层(SQL)和存储层。,HBase、HDFS、NoSQL都至多算是存储层。,分层设计,垂直分层,时效性库,小时库,天级库,周库,水平分层,OLTP,OLAP SQL,NoSQL 为什么分层?减少设计复杂性,减少使用运维复杂性 资源效率使用最高,实时计算层(Storm)实时存储层(HBase),批量计算层(MapReduce)批量存储层(HDFS),输入数据,为什么推销这两个观点 小数据-大数据 大数据系统也是storage+query 大数据需要分层考虑输出数据,最近两个趋势,NewSQL,Interactive Analysis 说明了什么,NewSQL,NoSQL太过原始,SQL容量性能有限,Megastore:ProvidingScalable,Highly AvailableStoragefor InteractiveServices(Google2011)F1-The Fault-Tolerant Distributed RDBMSSupportingGoogles Ad Business(Google 2012),NewSQL,SQL,NoSQL,Interactive Analysis,Hive响应太慢,数据库容量性能有限,Dremel:InteractiveAnalysisofWeb-ScaleDatasets(Google 2010),Tenzing:A SQL Implementation On The MapReduceFramework(Google 2011)PowerDrill:Processing a TrillionCells per Mouse Click(Google 2012),说明了什么 大数据的开源社区正在向数据库厂商发起挑战 OLTP:难度会稍大,撬动更多的是mysql、postgresql的领地 OLAP:很有希望,成本昂贵稳定性要求低数据量大时效性低不是不可缺少的组件,今天的重点:,大数据分析,Oracle ExadataEMC Hawk,SAP HanaTajo,热词榜Amazon RedShiftTeradataEMC GreenplumIBM Netezza HP Vertica,Stado,citusdata,Impala,Stinger/Tenz,HPCC System,Pig/Hive,Salesforce Phoenix,大数据分析架构,RDBMS,RDBMS,OLAP DB,Static Report,Query Report,OLAP Reportand Analysis,Reportingand Analysis,ETL-2Dataware HouseETL-1,Business Intelligence,Datamart,Other,文本,分析,Data,Mining,StaticQueryOLAPAdhocData Mining,大数据分析发展趋势从上往下:,1.数据量越来越大,维度越来越多2.交互性越来越难做3.技术难度越来越大4.以人为主-以机器为主5.用户专业程度越来越高,越来越少,非结构化数据 非结构化数据进行结构化后,利用原有技术分析 直接文本分析,百度热搜词 static report用户query分析 query report搜索引擎 OLAP多维分析MapReduce上的调研作业 adhoc新闻聚类 data mining,OLAP技术难点,多维分析:rollup,drill-down,slicing和dicing 各类维度组合,并提供交互式响应,OLAP技术难点 解决手段,减少不必要的列读写,行列混合 列式存储,减少不必要的行读写 hyperdex 多维hash,infobright knowledgegrid,压缩,预先计算 块级别的 物化视图,减少不必要的列读写-行列混合,减少不必要的列读写 列式存储,减少不必要的行读写 多维hash,减少不必要的行读写 infobrightknowledge grid,预先计算,块级别的,对每一个数据块,提前计算好其max,min,sum,count等。物化视图,提前计算好需要的几个维度的rollup表,Adhoc技术难点,任意维度分析:存储优化,等同OLAP 交互式响应,MapReduce太慢 Impala,任意分析:简单的SQL可能并不好用 方便的查询分析编写环境和展现工具,数据可能导入OLAP做进一步分析,数据分析系统搭建 小系统,MS Excel(BI),MySQL/Postgres/Infobright,PentahoBI/SpagoBI,大数据分析系统搭建 商业版 Oracle BIEE+Oracle Exadata 其它产品,GreenplumSAP HANANetteza.,大数据分析系统搭建 开源版,开源还没有很成熟的产品来构建大数据下的,OLAP,短期解决 商业产品,交互性强,访问量大:转为查询请求放入SQL或,NoSQL中查询,交互性要求不高,访问量少的:转为利用,Hive/Impala来做,中等规模分析方案 HPCC Systems,谢,谢,Q&A,