xxxx化工产业大数据平台建设方案.docx
XXXX化工产业大数据平台建设方案Xxx科技有限公司二。二二年四月1项目概述31. 1项目概述31.2项目建设目标、效果31 .2.1项目目标32 .2.2项目效果32需求分析42.1现状分析42. 1.1信息化现状42. 1.2问题分析52.2 需求分析52.3 .111匕vr'n,T52.2.2 用户需求分析62.2.3 功能需求分析73总体架构93. 1总体框架93.2技术架构104建设方案124. 1建设思路与路径124.1.1高性能数据平台124.1.2建立标准规范体系124.1.3构建统一数据湖134.1.4数据资产化164.1.5数据共享开放-培育数据创新场景184.1.6应用支撑与业务协同194.2产业大数据基础平台204.2.1大数据基础平台204.2.2产业数据资产管理平台354.2.3数据服务524.3化工产业交易平台534.3.1平台应用内容534.3.2平台系统功能介绍544.3.3平台应用价值694.4数字园区管理704.4.1产品背景704.4.2用户人群/需求704.4.3园区服务商704. 4.4入驻企业715项目实施方案795. 1项目进度计划796运营和运维质保服务方案796.1 平台运营方案796.2 远程运维服务796.3 技术咨询服务796.4驻场运维服务807项目投资预算807.1总投资预算801项目概述11项目概述项目名称:化工产业大数据平台结合线上数据、线下数据、公共数据、产业链C端数据建设统一的大数据平台。面向工业园区提供大数据服务。通过大数据基础平台,提升大数据对园区发展的支撑作用,推进管理智能化。为满足对已有历史数据的采集和后续分析应用的需求,释放各个环节的大数据应用技术及数据资源,建立大数据基础服务平台,提供数据采集、数据分析、建模挖掘及综合管理等大数据基础工具服务;提供大数据共享交换实现各单位数据的整合共享,为企业管理及公众服务提供数据支撑。1.2项目建设目标、效果1.2.1项目目标基于客户,化工研究院等经济产业相关部门的信息化建设现状,以企业服务创新、决策科学为立足点,以需求主导、应用先行的原则,积极探索和建设客户产业大数据服务项目,让企业能够通过本平台在线享受优质企业服务,定向获取政府政策推送及解读,解决各类企业的多种诉求,为推进政府服务,激励企业创新提供有力支撑和保障,建立政企沟通互动的桥梁,对内提升政府服务,对外改善公共服务,达到建设服务型政府的目标。同时,利用大数据技术进行信息资源整合和数据分析处理,做到用数据说话,用数据决策,用数据管理,用数据创新,提升园区综合治理能力和推进数字经济持续发展。1.2.2项目效果2需求分析2.1 现状分析2.1.1 信息化现状1)目前园区未建立统一的信息资源数据库,譬如企业信息、地理信息、人口信息、车辆信息等基础信息库以及危化品库、应急物资库、环保信息库等专题数据库。2)园区企业信息建设自成体系,信息化水平低,缺乏远程、集中控制方式,同时业务系统封闭运行,软硬件各个系统相对独立,数据库也相对独立,不能实现信息资源共享,园区信息化资源需进一步整合;3)有建设相应的信息化或者物联网远程监测系统,日常消防安全管理和消防维保管理采用人工纸质记录的方式,工作效率比较低,对于企业消防安全隐患预警不足,同时园区内消防救援力量分布及救援物资储备等信息,静态化记录,与救援指挥系统、预案等缺少数据互联,缺少危化品处置支撑信息,指挥现场信息不透明,无法实现有效有序的指挥救援。4)园区企业信息建设自成体系,信息化水平低,缺乏远程、集中控制方式,同时业务系统封闭运行,软硬件各个系统相对独立,数据库也相对独立,不能实现信息资源共享,园区信息化资源需进一步整合。支撑系统信息化现状:1)园区地理信息数据方面,园区还未建立整个客户的完整地理数据库,地理位置信息有待提升智能化管控,需根据规自局相关城规数据和土规数据建成自然资源和地理空间基础信息库,进而为园区管理应用提供支撑;2)园区管委会还未建立资源目录共享交换平台并与园区内各部门、企业实现数据共享。同时需进一步对各部门企业相关信息资源进行统一编目管理,推进各委办局以及垂直管理部门数据资源整合,简化部门之间数据共享与交换的复杂度,形成跨部门、跨业务、跨系统的数据资源共享共用格局。2.1.2 问题分析建设本项目,具有以下重要意义:1)实现大数据资源统筹规划:全面把握城市信息资源状况、规划捋顺信息资源管理业务;2)实现大数据资源综合管理:实现多源、异构海量公共数据的统一存储、处理、共享,大数据资源常态化运维和更新;3)实现大数据资源开发利用:建设统一的大数据资源服务接口,促进数据开放和价值挖掘。2.2需求分析2.2.1业务需求分析2.2.1.1客户2.2.1.2化工研究院2.2.1.3市2.2.2用户需求分析2.2.2.1可拓展性需求系统需要支持结构化、半结构化、非结构化数据的统一管理和搜索。一个索引可由多个子集组成,分布在不同的节点上,实现分布式检索;索引的各个子集可在不同的节点上存储多个副本,索引子集多副本实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力。2.2.2.2平台处理能力需求系统需要支持PB级的海量数据搜索,支持海量用户的高并发访问(千万级用户、万级并发)。可根据应用的查询特点,将数据自动分区索引,充分发挥现代PC多核服务器、大内存的优势,采用并行索引,多路合并的方式,变随机读写为顺序读写,能够进行高速的索引创建,适应海量数据的集中索引和快速索引的应用需求。同时,分区索引还可以减少检索时的索引匹配范围,缩短检索响应时间。2.2.2.3平台可靠性需求系统需要采用扁平化设计,能够弹性扩展。节点之间完全对等,都可以对外提供服务。需要采用扁平化的架构设计,使整个系统没有单点故障,任何一个节点的故障都不影响系统对外提供服务;同时扁平化的架构能够使系统具有良好的扩展性,只需在线增加新的节点就可以提供系统的容量和对外服务能力。系统能够将硬件异常作为常见异常来处理。系统需要自动感知服务器的异常状态,并进行自我修复,不会因为单个节点的异常导致整个系统不可用。2.2.2.4可维护性需求系统需要提供可视化界面,将各项维护工作进行直观展现,提升维护的便捷性和直观性;同时利用短信、邮件等消息机制对运行过程中的故障、性能信息进行监控、预警,提升维护的及时性;利用信息采集、告警内容编辑等功能,结合数据搜索构建的健康度评估,提升维护的准确性。大规模部署的自动化和运行状态监控。2.2.3功能需求分析2.2.3.1分布式存储需求大数据分布式存储需要能够快速的存储不同类型和不同格式的海量大数据资源。数据源来自城市各种业务场景中各种类型的数据,包括结构化数据、非结构化数据和半结构化数据等类型,内容覆盖各种常规数据库、物联网实时数据、互联网数据等。2.2.3,2大数据基础支撑需求大数据基础支撑需要提供分布式数据处理环境,需要包括大容量的数据存储、分析查询和实时流式处理分析能力。通过对海量数据实时与非实时的分析挖掘,发现全新价值。能够提供的数据存储计算服务,须支撑对不同类型数据源的采集、存储、计算以及管理能力,实现在离线/实时等不同使用场景下的大数据服务,用以满足对大数据分析的基础服务需求。2.2.3.3数据资源集成需求大数据资源集成系统是能够将不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为用户提供全面的数据集成视图。构建统一的数据汇聚与整合功能,为各类数据资源采集与归集提供技术支撑与过程管理服务。针对政务垂直系统蕴藏着的丰富块公共数据资源的数据抓取基础运行环境服务和管理环境服务,基础运行环境包括提供API运行引擎、路由引擎、集群高可用与负载均衡引擎、安全引擎、发射逆向重构模型重建、按需适配数据接口,管理环境服务包括提供APl运行周期管理引擎、监控引擎、项目信息配置引擎、访问授权引擎、报表引擎、管理统计服务。需要能够通过表现层分析等技术手段实现已有封闭应用系统的数据及功能接口的重构。从而在保证原有数据结构不变动,原有网络架构不改变、系统代码不变更的前提下,提供大数据APl重构及封装技术,为实现的“互联网+政务服务”业务平台的建设开发提供更多有力支撑。能够提供基于跨部门、跨产业数据交换平台的数据交换服务,以支撑各委办局、本项目各产业服务之间信息资源的采集、传输、交换的工作,实现信息资源在全市范围内的交换与共享。数据交换服务需要支持数据库交换、文件交换、数据发布、数据订阅、数据源适配、数据抽取、数据清洗、数据转换、作业管理、交换日志、加密传输、断点续传、数据路由、流量控制、实时监控、审计告警、统计分析服务等Q2.2.3.4大数据应用支撑需求能够为大数据应用建设和开发提供支撑服务,包括数据服务接口、大数据查询检索、大数据可视化、数据模型算法和大数据分析挖掘服务等。提供的数据治理服务须包括数据质量的管理服务及元数据管理服务Q提供开展数据挖掘的软件环境服务,包括数据预处理、数据管理、模型训练、模型管理、模型评估。要求可针对海量数据提供集中模型计算,用以分析数据内在关系和价值。能够提供数据可视化的框架服务,整个框架中配备数据源管理、可视化引擎、可视化组件库、可视化组件二次开发、可视化设计器、事件与函数设计器、发布管理,可基于数据可视化框架服务实现数据源的导入、可视化呈现,并支持特殊可视化效果的二次开发。2. 2.3.5数据治理需求需要为大数据基础平台中数据资源提供综合管理,能够提供包括统一运维、资源目录、质量控制、元数据管控、数据标准管理、数据安全等功能。3总体架构2.1 总体框架产业大物8应用数字园区营商平台B2B化工交易平台化工品生产数据I化工品流通数据化工品消费数据原料(含半成昆)送口蜘生产厂家数雷商家采购、交易订单蜘ggsss原料(含半成品)库存数据生产过程蛔R仓储、物流(干线)数庭,行与偏好蛆原料(含半成品)交易物8半成品/成品库存数据进出口期R 金瞰据ift流向数Ig图3-1整体框架3. 2技术架构行政效能I氏生保漳I市域治理I管有环境API JSON多分析分析h M拿市脩构化依清事 II *ttW<tftM* -ISpark 分类 聚类 关联 SOI II文本分析机学习工JlTensorflow SParkM 山 B I NlPIMem 化Btt DevOPSMPP/RDSStormFHnkSparkZookeepcr SparkFASIFSHBASC分布 计,存 储Streaming , Ik曷产HlVEMapReduceHDFSNewSQLAM化/批flM>k A4til n*/华飨构化/非结构化采,实时SHtIl/Sq。PM*图3-2技术架构图数据源:数据接入,需要接入所有形态,所有类型和全域的数据源,数据源包括政务业务系统,关系型数据库,GPS数据、非关系型数据,物联网数据等。数据接入:数据接入方式包括ETL工具、CDC同步工具、APl程序、手工导入文件、使用开源SQooP/Flume导入等。计算存储:包括关系关系型数据库、NOSQL数据库、HadOOP大数据平台生态体系等。数据挖掘分析:包括数据建模分析工具,数据挖掘工具,深度学习平台等。数据服务:通过服务总线、APl网关、开发SDK等形式提供不同行业的政务数据资源目录开放下载和API订阅等数据服务,赋能业务系统集成、协作、吸引社会力量参与大数据挖掘、大数据应用建设;服务行政效能、民生保障、市域治理和营商环境、培育大数据产业聚集和创新。数据治理:数据全生命周期管理和治理,包括数据接入、元数据、数据对账、数据治理、数据标准、数据资产、数据安全、数据运维等。4建设方案4.1 建设思路与路径4.1.1 高性能数据平台建设数据融合平台,实现结构化、半结构化、非结构化、等资源的数据同步、多域数据集成、数据转换和数据加载。建设大数据基础平台,提供数据分布式存储、大规模离线计算、实时处理、数据智能检索、流式数据处理、数据安全保护和数据运维。建设数据运营平台,实现数据源管理、元数据管理、数据标准、数据资产管理、数据标签、数据服务功能。建设数据挖掘分析平台,提供数据预处理、可视化建模、模型评估和应用的一站式数据分析工具。4.1.2 建立标准规范体系1)持续完善标准规范体系主要包括总体标准、基础设施标准、数据标准、业务标准、服务标准、管理标准和安全标准,建设标准不是一蹴而就,需要持续长期投入人力和资源。2)加强重点产品标准编制编制产品标准,明确建设、数据、对接、运营、安全等各方面要求;编制数据治理系列标准,推动数据汇聚利用和共享开放;4.1.3构建统一数据湖数据湖 运营平台实BPr视 化多维分析曾鱼立检M助决氯 应用模型非年构化 分析 雅就分析 步效双 创新应用巾*喜加*即境K生保埠行或效危审圾治理京东第三方、共享、总线、目录结构化数据半结构化数据一非年-r法型测 界模沈成强准 清集增标元效邦、敷据标准、数据质量、敦邦资产、标条管理、指标管理、激加4维、效据安全图3-2统一数据湖分布计算机W学习实N计算1*统一数据湖主数据/ 参考数据阶段数据中心数据资源库Qk 厚 14 q*如识解4(一)入湖数据源(按数据所属)1)政府数据入湖海量异构的城市数据资源80%来自政务大数据,包括人口、法人、空间地理、经济、信用等主题数据;城市级数据接入汇聚可以智能地重建系统数据与功能接口,实现数据实时获取、精准融合和无缝集成,为政务、金融、通信、能源、医疗、交通等大数据重点行业中的数据开放、融合与增值创新提供高效的平台支撑。2)自有数据已经积累了10亿消费者、600万企业客户、22万入驻商家的商业数据,全国15个省、23个城市合伙人的落地的政务云数据。通过整合万象生态数据形成13大类目的产业、金融和物流类数据资源以及生态伙伴,能为电商产品精选、政务、金融、供应链、广告精准投放等各领域提供服务。3)行业产业数据联合生态伙伴构建社会数据资源池,涵盖国民经济70+产业链(上下游)及全市场数据供应商中最细分的1500细分行业,全国工商注册企业5400万+(包括企业基本信息、投资信息、年报信息、抵押信息、工商处罚信息、知识产权信息、司法裁决信息、资质荣誉信息、上市信息、深度财务信息等),除此之外还包括人群位置数据、人群消费及偏好数据、400万商品SKU数据、物流数据等。4)第三方生态企业数据:社会企业、互联网中拥有大量与人、地、事、物、组织等相关的数据资源,通过获取这些数据,将可以为政府提供重要的辅助支撑,是未来城市数据的重要组成部分。抓取海量的互联网信息资源,实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,最终形成数据积累。(二)入湖数据数据源类型包括关系数据库、大数据平台、业务系统库、部门前置机、数据服务总线、IOT物联网管理平台、视频共享平台、数据共享交换平台等。如果按照数据形态来分,可分为结构化数据,半结构化数据和非结构化数据。(三)入湖方式数据入湖以逻辑数据实体为粒度入湖,逻辑数据实体在首次入湖时应该考虑信息的完整性。原则上,一个逻辑数据实体的所有属性应该一次性进湖,避免一个逻辑实体多次入湖,增加入湖工作量。数据入湖的方式主要有物理入湖和虚拟入湖两种,根据数据消费的场景和需求,一个逻辑实体可以有不同的入湖方式。两种入湖方式相互协同,共同满足数据联接和用户数据消费的需求,数据管家有责任根据消费场景的不同,提供相应方式的入湖数据。物理入湖是指将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式。虚拟入湖是指原始数据不在数据湖中进行物理存储,而是通过建立对应虚拟表的集成方式实现入湖,实时性强,一般面向小数据量应用,大批量的数据操作可能会影响源系统。(四)入湖方式技术手段1)批量集成对于需要进行复杂数据清理和转换且数据量较大的场景,批量集成是首选。通常,调度作业每小时或每天执行,主要包含ETL.ELT和FTP等工具。批量集成不适合低数据延迟和高灵活性的场景。2)数据复制同步适用于需要高可用性和对数据源影响小的场景。使用基于日志的CDC捕获数据变更,实时获取数据。数据复制同步不适合处理各种数据结构以及需要清理和转换复杂数据的场景。3)消息集成通常通过APl捕获或提取数据,适用于处理不同数据结构以及需要高可靠性和复杂转换的场景。尤其对于许多遗留系统、ERP和SaaS来说,消息集成是唯一的选择。消息集成不适合处理大量数据的场景。4)流集成主要关注流数据的采集和处理,满足数据实时集成需求,处理每秒数万甚至数十万个事件流,有时甚至数以百万计的事件流。流集成不适合需要复杂数据清理和转换的场景。5)数据虚拟化对于需要低数据延迟、高灵活性和临时模式(不断变化下的模式)的消费场景,数据虚拟化是一个很好的选择。在数据虚拟化的基础上,通过共享数据访问层,分离数据源和数据湖,减少数据源变更带来的影响,同时支持数据实时消费。数据虚拟化不适合需要处理大量数据的场景。4.1.4数据资产化业务数据化数据资产化资产服务化数据资源图3-3统一数据湖数据来源与业务,数据通过存储、清洗、转换、分析、挖掘、标签化后,形成数据资产,数资产通过数据服务和共享等手段对应用进行赋能和创新应用培育Q从技术层面,是一套技术组件,一种解决方案-;业务层面,是组织战略下方法论、持续运营、闭环增进、共享创新的结合及过程。(一)业务数据化构建让数据快速适用于业务的持续运转机制,构建数据交换、数据接入、数据流通、数据存取等。(二)数据资产化1)数据接入通过统一的接入工具实现政府内、外部海量异构数据资源汇聚到大数据平台;支持数据采集、汇聚等多种方式,满足数据探查、数据定义、数据读取、数据对账。数据接入提供标准化、模块化、可适配的多源异构数据资源接入模式,为各部门或政府其他部门的数据抽取汇聚提供接口通道。2)数据处理面向具体的数据内容,建立标准化的数据汇聚适配接入模式,按照提取、清洗、关联、比对、标识、分发等规范流程进行转换处理,为上层的各类业务应用提供从数据组织到数据建模的支撑。3)数据治理对数据的标准化、专业化管理。包括元数据管理,数据质量管理,数据标准处理,数据资源目录等,实现对数据抽取、清洗、整合、存储、应用、服务的全治理流程的标准化管理功能,完成数据标准化存储,数据资产的有效组织和管理;4)信息资源库原始库:原始库是综合来自各部门机关负责的各种数据资源、支撑各项业务工作的公共数据集合,可以脱离任何业务而独立存在,与每一项业务相关。对不同来源的数据,按照数据的原始格式进行存储;资源库:借助专业数据治理工具和服务,依据国家以及省厅地市的相关标准完成元数据、数据内容的标准化;主题库:根据政务业务工作的主题以及应用的需求,从人、物、场所、组织、信息等方面对标准库的数据进行提取,形成支持应用的基础主题库;知识库:包括基础知识库、基础算法库、智能信息处理知识库、规则库、标签知识库等。业务库:包括业务生产库、业务资源库、业务知识库、标签业务库等;5)数据标签体系通过标签定义、标签维护、标签开发、标签应用等流程,对主要关注实体进行标签管理和标签服务。(三)资产服务化数据服务层对外提供数据服务能力,包括查询检索服务、比对订阅服务、模型分析服务、数据推送服务、数据鉴权服务、数据操作服务、数据管理服务。包括开放数据能力、算法能力、计算能力。(四)服务业务化服务推动业务持续创新、增加业务效能、降低运营成本、提高业务开发效益或直接在市场交易变现获利。4.1.5数据共享开放-培育数据创新场景数据共享开放平台包含两部分内容,数据共享平台和数据开放平台。数据共享平台汇集了政府、企业与社会的大量数据,是政府各部门进行数据交换的转换器,平台将各类异构数据进行统一处理,使各部门能够按照自身业务需求从平台中获取相应数据,避免了数据重复收集、重复存储的窘境,提升了政府部门工作效率,打破了各部门之间的数据壁垒,解决了各业务系统不能互通的难题;数据开放平台实现数据资源向社会开放,政务数据的开放打通政府部门、企事业单位和社会组织的数据壁垒,有序推进政府、市场与社会对数据资源的合作开发和高效利用,重构生产关系和价值链,打破数据壁垒、释放数据价值红利。4.1.6应用支撑与业务协同建设统一服务支撑平台,功能包括业务协同、消息集成、数据集成、服务集成、物联网协同、数据开放、资源目录、统一结算、中间件、电子证照、统一认证和基础地图服务。(一)业务集成提供API设计、开发、测试、管理、发布能力,具备API策略路由、统一接入、认证授权、请求验证、流量控制、API调用统计分析能力,以及协议转换、API编排、APl调度等业务处理能力。(二)消息集成针对企业级互联的专业消息组件,提供发布订阅、消息轨迹、资源统计、监控报警等消息云服务(三)数据集成提供多种数据源的快速集成能力。支持文本、消息、API、结构和非结构化数据等多种数据源之间的灵活集成(四)物联网集成使用MQTT标准协议连接设备,快速、简单地实现设备云端管理。能够连接设备和IT系统、大数据平台,将设备的运行状态等信息上传到IT系统或大数据平台中,通过物联网协同,大脑和末梢才能连接、控制、反馈和协调运作起来。(五)资源目录统一结算负责统计服务交易(调用)信息,为平台运维、绩效评估和数字产业运营提供支撑(六)统一认证统一身份与访问是贯穿整个全业务流程的身份访问管理系统,提供集中式的数字身份管理、认证、授权、监控和审计平台,保证合法的用户、以适当的权限访问受信任的系统和设备,并对异常访问行为进行实时预警和有效防范,助力企业和政府快速的实现数字化转型。为全生态场景应用、第三方用户提供统一访问入口和接入权限控制,提供应用开发、提高使用便利和效率。(七)基础地图服务为业务系统提供统一的公共基础设施,避免应用孤岛和提高业务开发速度。(八)其他组件服务与支撑应用协作的组件还包括应用中间件、电子证照、电子签章、区块链、统一结算等。4.2产业大数据基础平台在国家大力发展新基建的浪潮下,新基建为数字产业进一步发展建设创造了良好环境。4.2.1大数据基础平台数据存储计算平台基于对HadooP2.x/Spark生态进行整合、优化,提供分布式文件系统作为存储引擎、YARN作为资源管理框架、融合一系列大数据相关组件,为用户提供统一运维、海量存储、高可用、高性能、稳定易用的一站式大数据基础平台,并且为智能分析、可视化等平台提供数据和平台支撑,是整个大数据体系中不可或缺的基石。同时平台具备可视化开发界面和丰富的API,为用户二次开发提供强有力支撑。4.2.1.1基础设施4.2.1.1.1分布式文件系统HDFS分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用,成为海量数据存储的标准。4.2.1.1.2分布式列式数据库HBase不是一个关系型数据库,是一个面向列的实时分布式数据库,其设计目的是用来解决关系型数据库在处理海量数据时在理论和实现上的局限性。传统关系型数据库在上世纪七十年代为交易系统设计,以满足数据一致性(ACID)为目标,并没有考虑数据规模扩大时的扩展性以及系统故障时的可用性。虽然,多年的技术发展产生了一些对关系性数据库的修补(并行数据库),然而受限于理论和实现上的约束,扩展从来没有超过40个服务器节点。而HBase从一开始就是为实现Terabyte到Petabyte级别的海量数据存储和高速读写而设计,要求数据能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。4.2.1.1.3内存数据库RediS是一个开源的使用ANSlC语言编写、支持网络、可基于内存亦可持久化的日志型、KeyTalue数据库,并提供多种语言的APERedis是一个key-value存储系统,支持存储的ValUe类型相对更多,包括String(字符串)、IiSt(链表)、set(集合)、zset(sortedset一有序集合)和hash(哈希类型)。这些数据类型都支持PUSh/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-SlaVe(主从)同步。Redis支持主从同步。数据可以从主服务器向任意数量的从服务器上同步,从服务器可以是关联其他从服务器的主服务器。这使得Redis可执行单层树复制。存盘可以有意无意的对数据进行写操作。由于完全实现了发布/订阅机制,使得从数据库在任何地方同步树时,可订阅一个频道并接收主服务器完整的消息发布记录。同步对读取操作的可扩展性和数据冗余很有帮助。4. 2.1.1.4计算引擎 MapReduceMapReduce是一种高性能的批量处理的分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。数据量在TB和PB级别,在这个量级上,传统方法通常已无法处理数据。MaPRedUCe将分析任务分为大量的并行Map任务和Reduce汇总任务两类。Map任务运行在多个服务器上。目前部署的最大集群有4000个服务器。 GraphXSparkGraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 SparkSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是类似HadoopMapReduce的通用并行框架。Spark拥有HadoopMapReduce所具有的优点,但不同于MapReduce,Job中间输出结果可以保存在内存中,而不再需要读写HDFSo因此,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 FlinkFIink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。FIink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。FIink与所有常见的集群资源管理器(如HadooPYARN,ApacheMeSoS和KUberneteS)集成,但也可以设置为作为独立集群运行。Flink旨在很好地适用于之前列出的每个资源管理器。这是通过特定于资源管理器的部署模式实现的,这些模式允许Flink以其惯用的方式与每个资源管理器进行交互。Flink可以支持本地的快速迭代,以及一些环形的迭代任务。并且FIink可以定制化内存管理。4.2.1.1.5数据格式ParquentParqUet是面向分析型业务的列式存储格式,主要具备以下优势:(1)可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量;(2)压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如RUnLengthEnCOding和DeItaEncoding)进一步节约存储空间;(3)只读取需要的列,支持向量运算,能够获取更好的扫描性能。 AvroAVrO定义了一个数据格式,从设计上支持数据密集型应用,并且为多编程语言提供该格式支持。Avro主要为行存储,设计的主要目标是为了满足schemaevolution0 ORCORC的全称是(OPtimiZedRowColumnar),ORC文件格式是一种HadOOP生态圈中的列式存储格式,由HadOoP中RCfiles发展而来,比RCfile更大的压缩比,和更快的查询速度,支持事务(ACID),为hive而生。4.2.1.1.6Python语言支持支持本地Python访问原生Hadoop/Hive资源,调用Spark集群。4.2.1.2数据存储4.2.1.2.1数据导入平台坚持“能采尽采”的原则,涵盖了大范围的数据源。在总体上将数据源分为内部数据源和外部数据源,内容包含现阶段可以采集到的数据全量。内部数据源内部业务系统如业务数据库、视音频、文档等数据信息,外部数据指第三方社会数据和互联网数据(聊天信息、微博信息、微信信息)等Q4.2.1.2.2存储管理数据存储子系统满足存储多类型数据,包括结构化数据、半结构化数据和非结构化数据。可以将关系型数据库中数据经过加工后放入传统数据仓库数据区、将其他数据如日志数据、互联网数据、移动互联网数据或者流数据等有选择的存到大数据存储区或者传统数据仓库存储区。数据存储子系统提供业内广泛使用的高效分布式存储架构,可存储任意容量,任意数据类型的数据。系统的最大优势是支持不同文件对象化,不同对象策略化的策略存储机制;大文件归类到大对象,按照大对象存储策略存储HDFS;小文件归类到小对象,按照小对象存储策略存储到FaStDFS。另一大优势是支持通过可视化界面按策略分类查看分布式文件存储系统容量信息;支持通过可视化界面汇总查看用户调用APl接口访问文件存储系统的详情;支持查看对象被访问、租户访问APl次数T0P3的统计数据。支持通过可视化界面管理存储租户及租户访问资源路径、权限;支持通过可视化界面查看、检索存储租户。数据存储子系统还提供一款用于批量处理、分析及设计数据仓库的子系统。它支持SQL2003标准语法及ANSlSQL92,SQL99等标准,对OraCIePL/SQL、Mysql以及Teradata都有很好的方言支持,是HadooP领域对SQL标准支持最完善的产品;对AClD的支持,从而可以满足用户对数据处理中一致性和可靠性保障的需求。此外,本平台还拥有极为优异的大数据分析性能,比ApacheHadoop处理速度快15倍以上,比MPP处理速度快6倍以上,在TPC-DS和TPC-H基准测试中也胜于其他Hadoop和MPP产品。4.2.1.2.3接口访问系统支持标准数据访问接口,可使用第三方Bl及客户端工具连接访问系统。4.2.1.2.4兼容关系模型平台借助分布式数据仓库组件HIVE和查询引擎PhoeniX,能够很好地兼容标准的SQL操作语言。此外我们还补充了SQLonHadoop引擎,在HDFS分布式文件系统上提供基于MPP架构的计算引擎,ANSISQL的访问支持,具备功能齐全的、高性能SQL查询功能。并行查询功能应用到HDFS分布式存储数据上,为HadOOP带来TrueSQL支持和高性能的并行计算。4.2.1.2.5系统运维产品具备完整的系统运维功能。包括弹性扩展、安全、多租户、高可用等方面。Manager是为大数据量身定做的运维管理系统,支持可视化、向导式的统一部署安装、监控、告警、健康检测和管理运维能力,同时支持在线横向扩容能力。Manager支持通过WEB可视化操作方式,实现对机房、机架和服务器的图形化管理;支持对服务器CPU/内存/10/磁盘空间进行实时监控和告警。4.2.1.2.6高可用设计由于是分布式的数据库,其在数据存储上考虑了多副本冗余存储的机制,比如在一个集群内,A节点的数据会被切块按照库内的冗余算法,将数据镜像分别备份到B节点和C节点,这样当A节点宕机或出现故障时,B节点和C节点可启动备份镜像数据,分担A节点的应用请求,保证数据库集群对外提供服务不中断,以上是Datanode节点的高可用实现原理。产品支持数据以全量、增量、加密、压缩等形式进行在线或离线备份以及恢复功能Q4.2.1.2.7集群扩展平台支持按需在线动态增减节点,实现线性扩展;在线动态增减节点和其他组件时,对业务的影响最小。遵循了分布式数据库系统的设计原则,真正意义上实现了线性水平扩展能力。当数据量累积到一定程度时(可配置),平台系统会自动对数据进行水平切分并分配不同的服务器来管理这些数据。这些数据可以被扩散到上千台普通服务器上。这样,一方面可以由大量普通服务器组成大规模集群来存放海量数据(从几TB到几十PB的数据);另一方面,当数据峰值接近系统设计容量时,可以通过增加服务器的方式来扩大容量。该动态扩容过程无需停机,平台系统可以照常运行并提供读写服务,完全实现动态无缝无宕机扩容。4.21.2.8安全中心存储计算平台提供统一的安全管理服务Securityo平台采用高可用的通道安全身份认证方式:支持Kerberos等安全认证工具,可配置权限策略,对HadOoP生态圈的各类服务组件进行授权,包括HDFS、HBASE.HIVE、YARN、STORM、SOLR等,实现安全审计功能;同时支持基于RBAC的用户权限管理模式,确保系统免受恶意攻击和安全威胁。另外平台支持基于ranger的数据细粒度访问权限控制,可以轻松的通过配置策略来控制用户权限。4.2.1.3数据计算4.2.1.3.1数据仓库提供企业级数据仓库解决方案,提供SQL/PySpark/Scala等计算能力,满足海量数据ETL以及交互式查询需要;具有海量数据存储、高效数据处理能力,日均存储和处理数据能力可达PB级别。4.2.1.3.2模型管理 算法库数据计算子系统提供了丰富的分布式统计算法以及机器学习基础算法库,包括数据预处理,数值分析,提供常用数学统计的数据检测功能,对数据类型为离散变量的字段进行数据检测算法,特征工程相关分布式算法以及基础的分类、聚类、回归、预测、协同过滤等分析算法,方便数据分析人员对数据进行多维度的统计分析与挖掘的相关工作,同时,系统提供不少于10种模型的建模能力。 可视化数据挖掘建模数据计算子系统基于Web的IDE环境,提供丰富的B/S用户接口,界面友好易操作,只需简单地拖拽算法即可快速创建流程。系统支持同时训练多个分支流程,使得分析人员在一个工程中即可快速比对建模效果、调整优化模型。此外,分析人员可通过多样化、简洁易懂的可视化分析报告评估、对比训练结果,快速做出准确选择。 模型管理数据计算子系统提供丰富的模型管理和应用功能,包括对已产生的模型进行分目录、分类管理;对模型进行多版本管理,方便用户一键快速引用模型;模型可另存为可执行文件、发布为Web服务及进行授权管理。4.2.1.3.3数据开发