HANA建模课程第一讲HANA架构简介ppt课件.pptx
课程 1 HANA 架构简介,实战讲解内容: 1)HANA基本概念以及架构: 列存储,行存储,内存计算,持久层,log层的概念, HANA instance的概念,系统表,定义,行表,列表 2 ) HANA引擎概述 3)HANA安装和卸载、 Admin, Operator基本操作 4 ) HANA Studio安装和卸载,客户端工具的安装实战目标: 1 ) 熟悉HANA体系结构和HANA开发工具,第一讲HANA架构简介,By 熊猫,2,3,硬件与数据库系统,现代化硬件上的理想数据库系统:内存式数据库,减少I/O缓存优化的内存结构,连续访问数据临近存储支持并行执行,利用多处理器的优势,现代化硬件上的理想数据库系统:内存式数据库,减少I/O缓存优化的内存结构,连续访问数据临近存储支持并行执行,利用多处理器的优势,未来优化方向,4,行业现状,企业资源计划系统(ERP)需要处理混合工作量OLAP:创建销售订单、进货出货凭证、发票等写优化OLTP :运营月度报告、可承诺量、库存量分析等读优化OLAP+OLTP系统因性能的顾虑而分离不便:OLAP数据并非最新数据,只是数据预先处理后的子集需要ETL工具来同步两个系统,系统冗余,程序复杂开发愿景 使用现代硬件和数据库系统将 OLTP 与 OLAP 数据结合在一起,创建一个单一数据源,实现实时分析,并简化应用程序和数据库结构,5,6,SAP HANA应用架构,HANA平台统一数据源HANAData service、SLT等数据抽取工具前端Excel、BOBJ展示工具将数据集市HANA中的数据展示,7,常见问题,SAP HANA是一个数据库,硬件还是一个解决方案?HANA是包括了硬件,数据库和解决方案的结合体。购买HANA包括了从合作伙伴放进行硬件采购和HANA license key的购买。客户可以安装HANA然后从sap系统或非sap系统抽取数据到HANA中,来开发报表。什么样的客户群会考虑HANA?制造业,地理,金融;还包括了处理大规模数据、报表需要大规模数据量、需要大量复杂计算的行业。 HANA的主要注重点就在于处理海量数据,并提供高性能的实时数据分析。HANA是如何在现代化硬件实现数据库系统的愿景呢?行、列式存储+内存式计算.,行式存储与列式存储内存地址,8,映射到内存,行式存储,列式存储,内存地址,内存地址,列式存储压缩,基于企业数据特点:列的使用相对集中列中的值基数不高列式存储的结构支持高效的数据压缩节省空间提升速度:内存传输CPU缓存字典编码,整数值比较快于字符值比较加快扫描和聚合,9,内存地址,内存地址,列式存储数据字典压缩样例,10,表Song待压缩的演唱者一列,排序,按照字典值排序,行ID和值ID对应表,字典,指向字典,倒排索引,HANA列式存储数据访问(1),11,Song,Select * from Song where Artist = Katy Perry,全表扫描,查找值ID=4,按属性值查找,利用倒排索引查询,HANA列式存储数据访问(2),12,按照行号搜索,列式表Song,流派字典,结果,HANA列式存储,加载状态:未加载部分加载:由于查询条件而加载入内存全部加载主存储(Main)+增量存储(Delta)数据并不直接修改而是插入新数据:并行化,减少锁,多版本控制主存储对值ID进一步压缩,对读取、计算性能优化增量存储不排序 、不对值ID进一步压缩,占空间较大增量融合(Delta Merge):额外的CPU、内存消耗可选优化方案:内存内融合、分区,13,Runtime InformationMerge StatisticsDelta Merge Analysis,Schema Size of Loaded TableUsed memory by tables,HANA列式存储并行化,利用多核处理器并行高速处理数据对不同列的操作、对相同列的不同部分为表的分区提供可能:水平分区目前表最大数目为20亿,14,行式存储与列式存储,以元组为单位在启动时加载入内存适合写操作,15,以属性为单位可以部分导入内存适合聚合操作(Max,Min,Count,Distinct,AVG),列式存储聚合计算,16,列式存储表,对列的读取可以单次读取完成,单次扫描聚合SELECT SUM(hits) FROM Song,结果 847,行式存储与列式存储,以元组为单位在启动时加载入内存适合写操作处理单个记录访问小批量整行的搜索(例如:配置表)行重建成本低,17,以属性为单位可以部分导入内存适合聚合操作(Max,Min,Count,Distinct,AVG)适合基于表中几个字段的搜索利用多核技术并行计算行重建成本高,两种引擎的区别存在于它们处理数据的方式:行式存储操作符用迭代器一次处理一行数据,而列式存储操作(如扫描,聚合等等)需要整列都放在连续的内存空间中,行式存储与列式存储元组重建,考虑一张表,每个字段的大小是34个字节,属性的个数为9,一个缓存段的大小为64个字节,一核CPU每毫秒处理2MB,则以行式存储和列式存储分别存储数据,重构一行所需要的时间? 1MB=1000KB, 1KB = 1000B,18,行式存储直接连续内存段34*9=306,需要5端缓冲段,5*64=320字节 所需时间=320/(2*106)=0.16微秒,列式存储跳跃获取需要9端缓冲段,9*64=576字节 所需时间=576/(2*106)=0.288微秒,常见问题,HANA只是一个列式数据库么?,不是的,HANA中既有行存储,也有列存储HANA中的列式存储是否还可以使用索引?,是的,HANA的列式存储对所有主键自动建立索引(倒排索引),对于经常访问到的非主键列也是可以建立索引的HANA是否可以控制哪些表置于内存中?,可以的,可以通过对表的设置来控制内存式数据库是否仍然依赖于硬盘?,是的,依旧需要硬盘支持备份和恢复,HANA持久层,20,Data:SQL数据, undo日志 其他诸如建模数据等信息将热数据维持在HANA内存中以获得最优性能Log:记录数据更改的信息(redo日志)在事物递交后写入持久层存储先于数据的更新、写入Savepoint:确保更改后的数据和日志写入持久层频率:默认5分钟 (由参数:savepoint_internval_s控制),HANA重启,21,1,Savepoint:Data & Undo日志 (Data Volume),2,Redo 日志(Log Volume),3,断电,Time,HANA主要组件,主要C+语言开发,运行在Linux操作系统NameServer:记录HANA 系统的拓扑结构XSserver:Web应用服务器Indexserver:最核心组件,处理数据库事务数据处理Preprocessor:文字处理Statisticsserver:收集监控信息,22,HANA分布式系统服务与持久层,23,Name Server(active)Index Server(Standby),Name ServerIndex Server,Name ServerIndex Server,Name ServerIndex ServerStatistics ServerXS Engine,Host,Host,Host,Standby Host,Data Disks,Log Disks,Data Disks,Log Disks,Data Disks,Log Disks,Data Disks,Log Disks,Data Disks,Log Disks,HANA 分布式系统Share Nothing的架构,Standby主机没有自己的持久层,HANA操作系统架构,24,SAP HANA生命周期管理安装,从SAP HANA SPS7开始,使用新工具hdblcm进行安装,原有安装工具hdbinst依旧存在Server:安装包包括:SAP Host Agent安装包,Delivery Units,Python runtime、支持包,语言包,ini配置文件包,二进制文件等压缩包安装流程:安装包检查硬件检查HanaHwCheck.py从前端或Batch模式接受安装参数(例如:SID,主机名等)检查系统配置及空间创建系统(OS用户,全局文件系统,标准/usr/sap/SID路径,软连接)解压缩安装包创建维护Profile文件配置OS参数配置用户环境变量文件(home路径下)调整ini配置初始化拓扑环境注册Sapstartsrv并启动HANA设置SYSTEM密码,导入Delivery Units并激活新功能,常见问题,HANA是否开放接口供其他应用访问?是的,目前HANA提供了很多的接口,常用的有为JAVA应用的JDBC,为C+,.NET的ODBC,以及基于Windows的MDX客户端的ODBO,当然还要对ABAP程序的接口,HANA 数据库连接HANA Studio,HANA Studio基于Eclipse平台目前仅支持Windows X86 32和64位,Linux X86-64位前提:JAVA JRE1.6或1.7需预先安装PATH环境变量需配置,使终端用户可以访问到Java runtime常用:Administration Console 系统管理员启动、停止Service,监控系统,配置系统SAP HANA Modeler建模相关人员SAP HANA Development开发人员创建模型,存储过程等,28,谢谢!,