大数据平台技术方案-大数据平台技术解决方案.docx
《大数据平台技术方案-大数据平台技术解决方案.docx》由会员分享,可在线阅读,更多相关《大数据平台技术方案-大数据平台技术解决方案.docx(182页珍藏版)》请在三一办公上搜索。
1、大数据平台技术方案(大数据平台技术解决方案)大数据平台技术方案目 录1.52.53.54.5第1章需求概述51.1背景概述51.2建设目标51.3需求理解71.4面临挑战91.5设计原则10第2章总体技术方案132.1软件架构132.2总体技术架构设计142.3功能组件完整性介绍182.3.1、数据集成组件( Data Hub)272.3.1.1、数据采集272.3.1.2、数据采集管理352.3.2、大数据计算存储平台( Hadoop Distribution)382.3.2.1、海量数据集中存储392.3.2.2、高效数据处理402.3.2.3、分布式应用协调452.3.2.4、计算资源分
2、配控制452.3.2.5、存储资源分配控制462.3.2.6、平台高可用性472.3.3、算法与分析工具 ( Artificial Intelligence)522.3.3.1、数据挖掘工具542.3.3.2、R统计分析572.3.3.3、Python统计分析582.3.4、数据资产管理 ( Data Governor)582.3.4.1、元数据管理602.3.4.2、数据标准与质量管理632.3.4.3、数据生命周期管理652.3.5、数据可视化( Vision)682.3.5.1、数据源682.3.5.2、智能报表692.3.5.3、仪表板712.3.5.4、自助分析732.3.5.5、多
3、维分析752.3.5.6、OFFICE插件762.3.5.7、移动可视化762.3.6、系统运维监控( Manager)772.3.6.1、安装部署782.3.6.2、集群监控792.3.6.3、服务管理822.3.6.4、主机管理842.3.6.5、告警管理872.3.6.6、版本管理892.3.6.7、日志管理912.3.6.8、多租户管理912.3.7、架构优化设计952.3.7.1、统计分析和精确查询952.3.7.2、Spark计算引擎结合分布式内存计算提供交互式统计分析能力952.3.7.3、多种索引支持与智能索引962.3.7.4、高并发、低延迟性能优化972.3.7.5、计算资
4、源有效管控972.3.7.6、API设计和开发工具支持982.3.7.7、接口开放性982.3.7.8、第三方工具生态圈整合1002.3.7.9、扩容、备份、恢复机制1012.3.8、功能优势说明1022.3.9、集群规划1032.3.9.1、集群划分1032.3.9.2、数据仓库集群1042.3.9.3、历史数据分析探索集群1042.3.9.4、开发集群1052.3.9.5、测试集群1062.3.9.6、集群容量说明1072.3.9.7、硬件配置建议1082.3.9.8、网络拓扑架构1102.4系统基本功能点1112.4.1、的发展紧随Apache社区1112.4.2、集群内所有组件的管理节
5、点均实现HA1122.4.3、提供完全基于WEB图形化的集群服务器角色,配置和状态管理1122.4.4、集群支持线性扩展1142.4.5、100%兼容标准SQL921152.4.6、支持分布式文件系统HDFS和HBase等主流数据库1192.4.7、支持多种计算执行引擎1202.4.7.1、内存计算框架1202.4.7.2、批量计算框架1222.4.7.3、流式计算框架1242.4.7.4、多维数据分析计算框架1252.4.8、支持异构数据库关联查询1272.4.9、支持大部分的机器学习和数据挖掘算法1282.4.10、支持图形化ETL1302.4.11、同时支持Solr和ElasticSea
6、rch1302.4.11.1、Elasticsearch1302.4.11.2、Solr1312.4.12、支持各种类型的数据1322.4.13、支持多租户1332.4.14、支持支持分布式存储数据加密1342.4.15、支持记录操作日志留存1352.4.16、支持自适应压缩算法1362.4.17、SQL支持各类函数1372.4.18、具备可视化分析能力1402.4.19、支持建立OLAP Cube1412.4.20、支持数据预警功能1422.4.21、支持多种数据类型的文件加载到大数据平台1422.4.22、支持复杂模型建模1452.4.23、数据上载速度快1492.4.24、SQL性能好1
7、602.4.24.1、NoSQL数据库单服务器扫描性能测试1602.4.24.2、文本文件中导入数据单机性能测试1602.4.24.3、Spark导入NoSQL数据单机性能测试1612.4.25、朴素贝叶斯分类性能好1622.5数据库功能支持1632.5.1、开发及应用接口1632.5.2、SQL语法兼容性1652.5.3、生命周期管理功能1682.5.3.1、热数据1692.5.3.2、冷数据1692.5.4、表分区功能1702.5.5、表压缩功能1702.5.6、大表索引管理1712.5.7、数据导入与导出1722.5.8、多级数据存储1732.5.9、半结构化与非结构化数据支持1742.
8、5.9.1、全文数据处理1742.5.9.2、安全可靠与运维能力1752.5.9.3、资源管理1752.5.9.4、系统容错性1772.5.10、单点故障消除1792.5.11、容灾与备份1802.5.12、在线扩容1811.2.3.4.第1章 需求概述1.1背景概述近年来,大数据相关技术发展迅速,大数据技术越来越成熟,已经有越来越多的企事业单位通过大数据技术为来创造更多的价值的同时,也为企事业单位带来了更高的性价比、和更易于扩展的超大规模数据处理能力。基于大数据平台技术,整合现有人口数据,接入公安的舆情数据,搭建处理能力更强,更易于扩展,性能更高的统一数据平台。不仅可以很好的满足高计算、高存
9、储、高负载的要求,更能够对海量的数据进行数据存储、清洗、加工、建模等,把先前无法利用的数据充分利用,提升对数据的认识,抓住机遇为华西医院平台建设做好最基础、最扎实的工作。1.2建设目标全市人口基础数据库大数据平台系统需要建设成为一个是一个高可靠性、高安全性、高性能、高可扩展性、高灵活性的先进系统,用来存储、管理、检索、分析、查询等操作,系统能够提供灵活应用提供可靠、安全、高效的保障,并能够为灵活的建立多种应用提供强大开发支持。系统需要提供对数据仓库类应用的支持,提供对数据分析、数据挖掘类应用的支持,能够存储、查询、分析海量全市公安局的历史数据,提供实时数据计算模块,提供并行分析算法包,可以替代
10、传统数据库系统的大数据管理软件系统、大规模并行数据挖掘软件工具包、R语言业务建模可视化工具、流式计算软件工具包、数据复制与资源管理等支持类软件工具包。 全市人口建设的大数据应用平台项目,要实现的具体业务目标为海量数据的低成本高效存储、加工、使用。支持各类结构化、半结构化、非结构化海量数据的低成本存储,快速批处理加工,各应用系统的在线数据查询、统计分析、数据挖掘等需求;为超长时间的海量历史数据存储和使用提供技术基础设施。支持将人口、环境、教育等数据导入导数据平台。同时必须支持蒙古文相关数据的分析、处理。 支持移动互联渠道场景的高并发低延时数据服务需求银行在移动互联渠道提供的客户服务逐渐丰富,客户
11、点击流量增长快速,客户的体验要求也在提高。大数据基础软件应能较好地支持移动互联业务场景高并发低延时的数据访问需求,包括通过流式计算框架对客户个性化场景营销、实时风险监测、银行流动性风险实时预警等需求实现提供技术平台支持。 支持业务数据分析团队自主数据探索和业务建模通过良好可视化支持的集成工具软件,业务数据分析团队可编写简易的R语言数据处理和可视化程序,自主探索分析业务数据,利用机器学习算法对业务数据建模和验证,利用成熟的量化模型算法支持更科学的经营决策。 建立人口与环境、教育等社会资源的模型,进行深度数据挖掘。 软件相关支持服务为更好发挥大数据平台的技术优势,同时确保系统平稳安全运行,需要提供
12、现场和非现场形式的产品业务培训和技术培训、运维支持、产品缺陷修复和产品升级、大数据技术架构咨询、应用开发指导等关联支持服务。将利用在行业内积累的的丰富经验,以及在大数据平台技术的积累的深厚的实力,协助华西医院建设以大数据技术为基础,融合开发、测试、生产的统一平台,利用大数据技术解决现有传统架构下面临的的计算瓶颈、存储压力、扩展问题、以及应用限制等问题。1.3需求理解通过对华西医院基础软件及服务建设需求的分析,以及我们对数据应用的理解,我们总结了如下数据应用和相关流程:1. 华西医院基础软件及服务数据处理平台是一个高可靠、高稳定、高安全、高性能、高可扩展、高易用性的基础数据存储、分析、管理、计算
13、平台。2. 平台将完成现有数据仓库类业务,另外也将完成历史数据存储、查询、分析类的应用。3. 数据处理平台需要定期、批量的接受公安局内部和外部各类系统所产生的数据,以批量的方式将数据插入至数据处理平台,插入数据后进行数据清洗、数据转换、数据格式统一、数据入库等操作。4. 数据处理平台也可能会定期从其他现有系统中抽取部分业务数据至平台中,为后期综合分析准备数据。5. 数据处理平台准备好数据后,将通过SQL、R语言等方式对数据处理平台中的数据进行数学分析、数据挖掘和机器学习,并将结果快速显示出来,尤其是对人口与环境、教育等社会资源的模型进行分析,进行数据深度挖掘和分析。数据处理平台对SQL支持的完
14、整程度将是选择平台的重要考虑之一。对SQL 2003标准的完整支持,包括对各种数据类型的支持,对各种复杂连接查询的支持,对相关子查询、嵌套子查询的支持、对操作符、函数的完整支持,会使得后期在数据处理平台的应用开发变得非常方便、并且平台将方便的与现有平台、现有应用进行对接,同时上层通过SQL完成的应用,通过JDBC/ODBC接口连接的应用可以不用做任何修改,这是数据处理平台对基础应用支撑。6. 需要对数据处理平台的数据进行建模,以完成相关业务模型操作和计算。7. 数据处理平台需要支持数据分析、数据挖掘、机器学习算法。平台需要提供对R语言和Python的支持,能够使用R语言所提供的5千多种算法,可
15、以通过算法灵活的对数据进行分析和挖掘,提供对业务有价值的结果。8. 数据处理平台需要提供通用的应用接口,以方便与现有应用、现有系统进行对接,完成系统集成。1.4面临挑战华西医院的数据增长迅速,已经达到TB级别,如果加上非结构化数据,未来几年的数据存储将达到几十TB,甚至上百TB的数据量级别,如何对这些海量历史数据资产进行有效的存储、管理、整合,并在此基础上进行快速共享、计算、分析,最终达到对业务的有效知道是本系统的建设关键。在华西医院项目基础软件及服务建设过程中,主要会面临以下挑战: 扩展性:当数据量达到一定限度之后,无论是数据存储、分析、查询,都会受到极大的限制,系统的横向扩展性的能力将是系
16、统建设的重要考量之一。价格: 系统的横向扩展,必然会带来软件、硬件成本的增加,以及后期升级、维护、扩展的成本的投入也是系统扩展面临的挑战。性能:数据动辄几十TB、甚至上百TB,面对如此海量的数据,若要进行高效的计算、分析,为业务提供有效的指导,必须要满足业务允许的时间要求。平台的易用性:华西医院项目基础软件及服务的数据处理平台易用性也是系统建设的关键问题,能否提供一个可简单、方便为上层应用使用的平台,或者可以将现有应用方便迁移到新建设的华西医院项目基础软件及服务数据处理平台也是面临的挑战。平台的易用性将直接影响到平台的建设、应用的建设,将直接影响工作成本。1.5设计原则系统在设计过程中除考虑满
17、足当前项目建设要求外,还应当满足后续系统平滑扩展升级要求,因此总方案设计遵循如下设计原则。 开放性引入业界开放的、成熟的标准,从而保证系统成为符合标准又不失灵活性的开放平台,为未来的系统的灵活开放奠定基础。需要支持业界开放的标准接口,如: SQL2003,PL/SQL等等,同时完全兼容开源的标准。 先进性基于统一的整体架构,采用先进的、成熟的、可靠的技术与软硬件平台,保证基础数据平台系统易扩展、易升级、易操作、易维护等特性。 基于业界热门的,且领先的Spark技术,极速提高平台的整体计算性能。 可扩展性随着新的业务需求的不断产生,支持基础数据模型、应用分析模型、前端应用的扩展性;支持在统一系统
18、架构中服务器、存储、I/O设备等的可扩展性。 可靠性制定并实施基础数据平台高可用性方案、运行管理监控制度、运行维护制度、故障处理预案等,保证本期系统在多用户、多节点等复杂环境下的可靠性。 高效性高效性包含两方面内容,一方面系统需要在规定时间内完成数据写入操作,并将数据写入对数据分析的影响降到最低;另一方面系统需要实现规划要求的数据查询和统计分析速度。 正确性数据质量贯穿基础数据平台系统建设的每个环节,基础数据平台系统通过合理的数据质量管理解决方案保证数据质量。 安全性按国家标准、行业标准、安全规范等实现数据安全管理。 可维护性系统要有统一的管理平台, 管理基础数据平台系统的各个环节,能对系统进
19、行相应的性能管理和日志监控。 易用性有良好的人机接口不灵活多样的展现方式,需要对最终用户提供适当的培训就可以方便地使用新的分析工具,从而减少IT人员的工作量,同时加强了集群监管的时效性。第2章 总体技术方案通过对华西医院基础软件及服务需求的理解,以及根据建设目标、设计原则的考虑,建议华西医院采用基于大数据基础平台的架构方案,来满足华西医院基础软件及服务建设的要求。2.1软件架构Apache Hadoop是针对大规模分布式数据而开发的软件框架,目前已经成为企业管理大数据的基础支撑技术。是解决企业数据中心大数据存储、大规模数据计算、快速数据分析的优秀基础数据平台。然而现有的Hadoop技术仍然面临
20、一些挑战:性能上,尽管Hadoop在100TB以上的数据上远远领先于传统数据处理技术,然而对GB到TB级数据的处理效率较低;其次,只有对海量的数据进行高效的分析及利用才能将大数据中存在的巨大潜在价值转换为实际的商业价值,这就需要完备的决策分析工具集运行在Hadoop架构之上;最后,亟需完备的企业级解决方案来加速大数据应用的广泛部署。企业级大数据分析平台是业界领先的处理企业级大数据场景的高性能一站式分析平台。它可以帮助企业快速建立一个统一的数据和计算平台,快速支持企业内部/外部数据的采集与集成、实现海量数据的存储、并提供极佳的数据计算与深度分析挖掘能力。在大数据平台之上,用户可以构建相应分析挖掘
21、应用,从而辅助企业及时洞察新的商机和潜在的风险,提升企业竞争力。大数据产品具有业界完整的SQL on Hadoop支持,实现完整支持SQL标准,增强分布式事务处理能力,全面支持MPP场景;突破实时处理计算框架,支持物联网实时业务分析;最完整的并行数据挖掘算法库,并原创前沿机器学习组件;一站式图形化的数据开发套件,可快速分析应用;它是企业级大数据场景的高性能一站式分析平台的优秀选择。2.2总体技术架构设计基于企业内部多年的大数据建设实践经验,针对开源Apache Hadoop/Spark框架进行了大量的修复完善及深度优化工作,并自主创新的众多功能和实用工具,易于使用者开发和管理。华西医院的数据来
22、源自多个方面,包括内部数据来源以及未来可能第三方数据接入。各类数据的来源方式多样化,包括关系型数据库数据、数据仓库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求,大数据平台提供多种针对性的接入方式以及工具,通过分布式消息队列Kafka接入实时数据;通过Sqoop全量或定时增量抽取同步关系型数据库;采用Kettle作为数据抽取管理工具,Kettle提供图形化的界面定义数据抽取规则,并可与其他工具相结合,完成数据抽取的工作流;同时,分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道;通过Flume提供海量日志文件的聚汇到HDFS的功能。大数据分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 平台 技术 方案 解决方案

链接地址:https://www.31ppt.com/p-4976151.html