xxxx化工产业大数据平台建设方案.docx
《xxxx化工产业大数据平台建设方案.docx》由会员分享,可在线阅读,更多相关《xxxx化工产业大数据平台建设方案.docx(79页珍藏版)》请在三一办公上搜索。
1、XXXX化工产业大数据平台建设方案Xxx科技有限公司二。二二年四月1项目概述31. 1项目概述31.2项目建设目标、效果31 .2.1项目目标32 .2.2项目效果32需求分析42.1现状分析42. 1.1信息化现状42. 1.2问题分析52.2 需求分析52.3 .111匕vrn,T52.2.2 用户需求分析62.2.3 功能需求分析73总体架构93. 1总体框架93.2技术架构104建设方案124. 1建设思路与路径124.1.1高性能数据平台124.1.2建立标准规范体系124.1.3构建统一数据湖134.1.4数据资产化164.1.5数据共享开放-培育数据创新场景184.1.6应用支撑
2、与业务协同194.2产业大数据基础平台204.2.1大数据基础平台204.2.2产业数据资产管理平台354.2.3数据服务524.3化工产业交易平台534.3.1平台应用内容534.3.2平台系统功能介绍544.3.3平台应用价值694.4数字园区管理704.4.1产品背景704.4.2用户人群/需求704.4.3园区服务商704. 4.4入驻企业715项目实施方案795. 1项目进度计划796运营和运维质保服务方案796.1 平台运营方案796.2 远程运维服务796.3 技术咨询服务796.4驻场运维服务807项目投资预算807.1总投资预算801项目概述11项目概述项目名称:化工产业大数
3、据平台结合线上数据、线下数据、公共数据、产业链C端数据建设统一的大数据平台。面向工业园区提供大数据服务。通过大数据基础平台,提升大数据对园区发展的支撑作用,推进管理智能化。为满足对已有历史数据的采集和后续分析应用的需求,释放各个环节的大数据应用技术及数据资源,建立大数据基础服务平台,提供数据采集、数据分析、建模挖掘及综合管理等大数据基础工具服务;提供大数据共享交换实现各单位数据的整合共享,为企业管理及公众服务提供数据支撑。1.2项目建设目标、效果1.2.1项目目标基于客户,化工研究院等经济产业相关部门的信息化建设现状,以企业服务创新、决策科学为立足点,以需求主导、应用先行的原则,积极探索和建设
4、客户产业大数据服务项目,让企业能够通过本平台在线享受优质企业服务,定向获取政府政策推送及解读,解决各类企业的多种诉求,为推进政府服务,激励企业创新提供有力支撑和保障,建立政企沟通互动的桥梁,对内提升政府服务,对外改善公共服务,达到建设服务型政府的目标。同时,利用大数据技术进行信息资源整合和数据分析处理,做到用数据说话,用数据决策,用数据管理,用数据创新,提升园区综合治理能力和推进数字经济持续发展。1.2.2项目效果2需求分析2.1 现状分析2.1.1 信息化现状1)目前园区未建立统一的信息资源数据库,譬如企业信息、地理信息、人口信息、车辆信息等基础信息库以及危化品库、应急物资库、环保信息库等专
5、题数据库。2)园区企业信息建设自成体系,信息化水平低,缺乏远程、集中控制方式,同时业务系统封闭运行,软硬件各个系统相对独立,数据库也相对独立,不能实现信息资源共享,园区信息化资源需进一步整合;3)有建设相应的信息化或者物联网远程监测系统,日常消防安全管理和消防维保管理采用人工纸质记录的方式,工作效率比较低,对于企业消防安全隐患预警不足,同时园区内消防救援力量分布及救援物资储备等信息,静态化记录,与救援指挥系统、预案等缺少数据互联,缺少危化品处置支撑信息,指挥现场信息不透明,无法实现有效有序的指挥救援。4)园区企业信息建设自成体系,信息化水平低,缺乏远程、集中控制方式,同时业务系统封闭运行,软硬
6、件各个系统相对独立,数据库也相对独立,不能实现信息资源共享,园区信息化资源需进一步整合。支撑系统信息化现状:1)园区地理信息数据方面,园区还未建立整个客户的完整地理数据库,地理位置信息有待提升智能化管控,需根据规自局相关城规数据和土规数据建成自然资源和地理空间基础信息库,进而为园区管理应用提供支撑;2)园区管委会还未建立资源目录共享交换平台并与园区内各部门、企业实现数据共享。同时需进一步对各部门企业相关信息资源进行统一编目管理,推进各委办局以及垂直管理部门数据资源整合,简化部门之间数据共享与交换的复杂度,形成跨部门、跨业务、跨系统的数据资源共享共用格局。2.1.2 问题分析建设本项目,具有以下
7、重要意义:1)实现大数据资源统筹规划:全面把握城市信息资源状况、规划捋顺信息资源管理业务;2)实现大数据资源综合管理:实现多源、异构海量公共数据的统一存储、处理、共享,大数据资源常态化运维和更新;3)实现大数据资源开发利用:建设统一的大数据资源服务接口,促进数据开放和价值挖掘。2.2需求分析2.2.1业务需求分析2.2.1.1客户2.2.1.2化工研究院2.2.1.3市2.2.2用户需求分析2.2.2.1可拓展性需求系统需要支持结构化、半结构化、非结构化数据的统一管理和搜索。一个索引可由多个子集组成,分布在不同的节点上,实现分布式检索;索引的各个子集可在不同的节点上存储多个副本,索引子集多副本
8、实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力。2.2.2.2平台处理能力需求系统需要支持PB级的海量数据搜索,支持海量用户的高并发访问(千万级用户、万级并发)。可根据应用的查询特点,将数据自动分区索引,充分发挥现代PC多核服务器、大内存的优势,采用并行索引,多路合并的方式,变随机读写为顺序读写,能够进行高速的索引创建,适应海量数据的集中索引和快速索引的应用需求。同时,分区索引还可以减少检索时的索引匹配范围,缩短检索响应时间。2.2.2.3平台可靠性需求系统需要采用扁平化设计,能够弹性扩展。节点之间完全对等,都可以对外提供服务。需要采用扁平化的架构设计,使整个系统没有单点
9、故障,任何一个节点的故障都不影响系统对外提供服务;同时扁平化的架构能够使系统具有良好的扩展性,只需在线增加新的节点就可以提供系统的容量和对外服务能力。系统能够将硬件异常作为常见异常来处理。系统需要自动感知服务器的异常状态,并进行自我修复,不会因为单个节点的异常导致整个系统不可用。2.2.2.4可维护性需求系统需要提供可视化界面,将各项维护工作进行直观展现,提升维护的便捷性和直观性;同时利用短信、邮件等消息机制对运行过程中的故障、性能信息进行监控、预警,提升维护的及时性;利用信息采集、告警内容编辑等功能,结合数据搜索构建的健康度评估,提升维护的准确性。大规模部署的自动化和运行状态监控。2.2.3
10、功能需求分析2.2.3.1分布式存储需求大数据分布式存储需要能够快速的存储不同类型和不同格式的海量大数据资源。数据源来自城市各种业务场景中各种类型的数据,包括结构化数据、非结构化数据和半结构化数据等类型,内容覆盖各种常规数据库、物联网实时数据、互联网数据等。2.2.3,2大数据基础支撑需求大数据基础支撑需要提供分布式数据处理环境,需要包括大容量的数据存储、分析查询和实时流式处理分析能力。通过对海量数据实时与非实时的分析挖掘,发现全新价值。能够提供的数据存储计算服务,须支撑对不同类型数据源的采集、存储、计算以及管理能力,实现在离线/实时等不同使用场景下的大数据服务,用以满足对大数据分析的基础服务
11、需求。2.2.3.3数据资源集成需求大数据资源集成系统是能够将不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为用户提供全面的数据集成视图。构建统一的数据汇聚与整合功能,为各类数据资源采集与归集提供技术支撑与过程管理服务。针对政务垂直系统蕴藏着的丰富块公共数据资源的数据抓取基础运行环境服务和管理环境服务,基础运行环境包括提供API运行引擎、路由引擎、集群高可用与负载均衡引擎、安全引擎、发射逆向重构模型重建、按需适配数据接口,管理环境服务包括提供APl运行周期管理引擎、监控引擎、项目信息配置引擎、访问授权引擎、报表引擎、管理统计服务。需要能够通过表现层分析等技术手段实现已有封闭应用
12、系统的数据及功能接口的重构。从而在保证原有数据结构不变动,原有网络架构不改变、系统代码不变更的前提下,提供大数据APl重构及封装技术,为实现的“互联网+政务服务”业务平台的建设开发提供更多有力支撑。能够提供基于跨部门、跨产业数据交换平台的数据交换服务,以支撑各委办局、本项目各产业服务之间信息资源的采集、传输、交换的工作,实现信息资源在全市范围内的交换与共享。数据交换服务需要支持数据库交换、文件交换、数据发布、数据订阅、数据源适配、数据抽取、数据清洗、数据转换、作业管理、交换日志、加密传输、断点续传、数据路由、流量控制、实时监控、审计告警、统计分析服务等Q2.2.3.4大数据应用支撑需求能够为大
13、数据应用建设和开发提供支撑服务,包括数据服务接口、大数据查询检索、大数据可视化、数据模型算法和大数据分析挖掘服务等。提供的数据治理服务须包括数据质量的管理服务及元数据管理服务Q提供开展数据挖掘的软件环境服务,包括数据预处理、数据管理、模型训练、模型管理、模型评估。要求可针对海量数据提供集中模型计算,用以分析数据内在关系和价值。能够提供数据可视化的框架服务,整个框架中配备数据源管理、可视化引擎、可视化组件库、可视化组件二次开发、可视化设计器、事件与函数设计器、发布管理,可基于数据可视化框架服务实现数据源的导入、可视化呈现,并支持特殊可视化效果的二次开发。2. 2.3.5数据治理需求需要为大数据基
14、础平台中数据资源提供综合管理,能够提供包括统一运维、资源目录、质量控制、元数据管控、数据标准管理、数据安全等功能。3总体架构2.1 总体框架产业大物8应用数字园区营商平台B2B化工交易平台化工品生产数据I化工品流通数据化工品消费数据原料(含半成昆)送口蜘生产厂家数雷商家采购、交易订单蜘ggsss原料(含半成品)库存数据生产过程蛔R仓储、物流(干线)数庭,行与偏好蛆原料(含半成品)交易物8半成品/成品库存数据进出口期R 金瞰据ift流向数Ig图3-1整体框架3. 2技术架构行政效能I氏生保漳I市域治理I管有环境API JSON多分析分析h M拿市脩构化依清事 II *ttWk A4til n*/
15、华飨构化/非结构化采,实时SHtIl/Sq。PM*图3-2技术架构图数据源:数据接入,需要接入所有形态,所有类型和全域的数据源,数据源包括政务业务系统,关系型数据库,GPS数据、非关系型数据,物联网数据等。数据接入:数据接入方式包括ETL工具、CDC同步工具、APl程序、手工导入文件、使用开源SQooP/Flume导入等。计算存储:包括关系关系型数据库、NOSQL数据库、HadOOP大数据平台生态体系等。数据挖掘分析:包括数据建模分析工具,数据挖掘工具,深度学习平台等。数据服务:通过服务总线、APl网关、开发SDK等形式提供不同行业的政务数据资源目录开放下载和API订阅等数据服务,赋能业务系统
16、集成、协作、吸引社会力量参与大数据挖掘、大数据应用建设;服务行政效能、民生保障、市域治理和营商环境、培育大数据产业聚集和创新。数据治理:数据全生命周期管理和治理,包括数据接入、元数据、数据对账、数据治理、数据标准、数据资产、数据安全、数据运维等。4建设方案4.1 建设思路与路径4.1.1 高性能数据平台建设数据融合平台,实现结构化、半结构化、非结构化、等资源的数据同步、多域数据集成、数据转换和数据加载。建设大数据基础平台,提供数据分布式存储、大规模离线计算、实时处理、数据智能检索、流式数据处理、数据安全保护和数据运维。建设数据运营平台,实现数据源管理、元数据管理、数据标准、数据资产管理、数据标
17、签、数据服务功能。建设数据挖掘分析平台,提供数据预处理、可视化建模、模型评估和应用的一站式数据分析工具。4.1.2 建立标准规范体系1)持续完善标准规范体系主要包括总体标准、基础设施标准、数据标准、业务标准、服务标准、管理标准和安全标准,建设标准不是一蹴而就,需要持续长期投入人力和资源。2)加强重点产品标准编制编制产品标准,明确建设、数据、对接、运营、安全等各方面要求;编制数据治理系列标准,推动数据汇聚利用和共享开放;4.1.3构建统一数据湖数据湖 运营平台实BPr视 化多维分析曾鱼立检M助决氯 应用模型非年构化 分析 雅就分析 步效双 创新应用巾*喜加*即境K生保埠行或效危审圾治理京东第三方
18、、共享、总线、目录结构化数据半结构化数据一非年-r法型测 界模沈成强准 清集增标元效邦、敷据标准、数据质量、敦邦资产、标条管理、指标管理、激加4维、效据安全图3-2统一数据湖分布计算机W学习实N计算1*统一数据湖主数据/ 参考数据阶段数据中心数据资源库Qk 厚 14 q*如识解4(一)入湖数据源(按数据所属)1)政府数据入湖海量异构的城市数据资源80%来自政务大数据,包括人口、法人、空间地理、经济、信用等主题数据;城市级数据接入汇聚可以智能地重建系统数据与功能接口,实现数据实时获取、精准融合和无缝集成,为政务、金融、通信、能源、医疗、交通等大数据重点行业中的数据开放、融合与增值创新提供高效的平
19、台支撑。2)自有数据已经积累了10亿消费者、600万企业客户、22万入驻商家的商业数据,全国15个省、23个城市合伙人的落地的政务云数据。通过整合万象生态数据形成13大类目的产业、金融和物流类数据资源以及生态伙伴,能为电商产品精选、政务、金融、供应链、广告精准投放等各领域提供服务。3)行业产业数据联合生态伙伴构建社会数据资源池,涵盖国民经济70+产业链(上下游)及全市场数据供应商中最细分的1500细分行业,全国工商注册企业5400万+(包括企业基本信息、投资信息、年报信息、抵押信息、工商处罚信息、知识产权信息、司法裁决信息、资质荣誉信息、上市信息、深度财务信息等),除此之外还包括人群位置数据、
20、人群消费及偏好数据、400万商品SKU数据、物流数据等。4)第三方生态企业数据:社会企业、互联网中拥有大量与人、地、事、物、组织等相关的数据资源,通过获取这些数据,将可以为政府提供重要的辅助支撑,是未来城市数据的重要组成部分。抓取海量的互联网信息资源,实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,最终形成数据积累。(二)入湖数据数据源类型包括关系数据库、大数据平台、业务系统库、部门前置机、数据服务总线、IOT物联网管理平台、视频共享平台、数据共享交换平台等。如果按照数据形态来分,可分为结构化数据,半结构化数据和非结构化数据。(三)入湖方式数据入湖以逻辑数据实体为
21、粒度入湖,逻辑数据实体在首次入湖时应该考虑信息的完整性。原则上,一个逻辑数据实体的所有属性应该一次性进湖,避免一个逻辑实体多次入湖,增加入湖工作量。数据入湖的方式主要有物理入湖和虚拟入湖两种,根据数据消费的场景和需求,一个逻辑实体可以有不同的入湖方式。两种入湖方式相互协同,共同满足数据联接和用户数据消费的需求,数据管家有责任根据消费场景的不同,提供相应方式的入湖数据。物理入湖是指将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式。虚拟入湖是指原始数据不在数据湖中进行物理存储,而是通过建立对应虚拟表的集成方式实现入湖,实时性强,一般面向小数据量应用,大批量的数据操作可能会影
22、响源系统。(四)入湖方式技术手段1)批量集成对于需要进行复杂数据清理和转换且数据量较大的场景,批量集成是首选。通常,调度作业每小时或每天执行,主要包含ETL.ELT和FTP等工具。批量集成不适合低数据延迟和高灵活性的场景。2)数据复制同步适用于需要高可用性和对数据源影响小的场景。使用基于日志的CDC捕获数据变更,实时获取数据。数据复制同步不适合处理各种数据结构以及需要清理和转换复杂数据的场景。3)消息集成通常通过APl捕获或提取数据,适用于处理不同数据结构以及需要高可靠性和复杂转换的场景。尤其对于许多遗留系统、ERP和SaaS来说,消息集成是唯一的选择。消息集成不适合处理大量数据的场景。4)流
23、集成主要关注流数据的采集和处理,满足数据实时集成需求,处理每秒数万甚至数十万个事件流,有时甚至数以百万计的事件流。流集成不适合需要复杂数据清理和转换的场景。5)数据虚拟化对于需要低数据延迟、高灵活性和临时模式(不断变化下的模式)的消费场景,数据虚拟化是一个很好的选择。在数据虚拟化的基础上,通过共享数据访问层,分离数据源和数据湖,减少数据源变更带来的影响,同时支持数据实时消费。数据虚拟化不适合需要处理大量数据的场景。4.1.4数据资产化业务数据化数据资产化资产服务化数据资源图3-3统一数据湖数据来源与业务,数据通过存储、清洗、转换、分析、挖掘、标签化后,形成数据资产,数资产通过数据服务和共享等手
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- xxxx 化工 产业 数据 平台 建设 方案
链接地址:https://www.31ppt.com/p-6799524.html