数据采集处理项目技术方案.docx
《数据采集处理项目技术方案.docx》由会员分享,可在线阅读,更多相关《数据采集处理项目技术方案.docx(44页珍藏版)》请在三一办公上搜索。
1、数据采集处理项目技术方案(总41页)-本页仅作为文档封面,使用时请直接删除即可-内页可以根据需求调整合适字体及大小-xxx大数据库中心数据库投资商和企业数据采集处理项目项目编号:巳t技术方案xxx有限公司二。一七年六月目录1引言项目背景错误!未定义书签。项目目标建设原则参考规范名词解释2云数据采集中心需求概述总体设计7核心技术及功能3大数据计算平台需求概述总体设计数据模型设计4数据运营数据挖掘分析数据分析处理的主要工作数据分析团队组织和管理5安全设计6风险分析7部署方案8实施计划9技术规格偏离表10售后服务承诺11关于运行维护的承诺12保密措施及承诺13培训计划1引言项目背景XXX大数据中心建
2、设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决 项目实施过程中的困难和问题,便于招商部门准确掌握全省招商数据,达到全省招商项目 数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充分发挥 大数据优势,加强对企业投资项目、投资轨迹分析,评估出其到XX投资的可行性,为招 商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据寻商、数据 引商、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项目可统计、可监 管、可协调、可管理、可配对、可跟踪、可考核。本次数据运营服务主要是为大数据平台制定数据运营规范及管理办法,同时为“企业 数据库”提供数据采集
3、、存储与分析服务,并根据运营规范要求持续开展数据运营服务。项目目标制定招商大数据运营规范及管理办法。制定招商大数据相关元数据标准,完成相关数据的采集、整理与存储。根据业务需求,研发招商大数据招商业务分析模型,并投入应用。根据运营规范及管理办法的要求持续开展数据运营工作。建设原则基于本项目的建设要求,本项目将遵循以下建设原则:前瞻性和高标准 整个项目要按照企业对大数据应用的需要的高要求和高标准建 设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前 瞻性。经济性和实用性整个项目以现有需求为基础,充分考虑未来发展的需要来确定 系统的架构,既要降低系统的初期投入,又能满足服务对象的
4、需求,同时系统设 计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软件应 提供完备的整合方案。先进性和成熟性 为了确保项目具有较长的生命周期,应充分考虑到管理创新、 技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业 务需求。高性能和安全性规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系 统的稳定,向各类服务对象提供可靠的服务。具有安全性,在系统 遭到攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。参考规范GB/T 20269-2006信息安全技术一信息系统安全管理要求GB/T 20984-2007信息安全技术一信息安全风险评估规范GB/
5、T 22239-2008信息安全技术一信息系统安全等级保护基本要求GB/T 22240-2008信息安全技术一信息系统安全等级保护定级指南GA/T 388-2002B计算机信息系统安全等级保护管理要求GB/T 8567 -1988计算机软件产品开发文件编制指GB/T 11457-1995软件工程术语GB/T 11457-2006信息技术软件工程术语GB/T 软件工程 产品质量 第1部分:质量模型GB/T 软件工程 产品质量 第2部分:外部度量GB/T 软件工程 产品质量第3部分:内部度量GB/T 软件工程 产品质量 第4部分:使用质量的度量GB/T 14394-2008计算机软件可靠性和可维护
6、性管理GB/T 17544-1998信息技术 软件包 质量要求和测试名词解释S2DFS:简单存储分布式文件系统(Simple Storage Distributed File System)D2B:分布式数据库(Distributed Database)JSS:作业调度服务(Job Scheduler Service)DCS:数据计算服务(Data Computer Service)MPS:消息处理服务(Message Process Service)SDS:流数据处理服务(Stream Data Service)DMQ:分布式消息队列(Distributed Message Queue)JG
7、S:作业生成服务(Job Generation Service)ACS:自动清理服务进程(Automatic Cleaning Services)HTTP:超文本传输协定(HyperText Transfer Protocol)SMB:服务器信息块协议(Server Message Block)2云数据采集中心需求概述根据规划,云数据采集中心的建立至少满足1至2年内的数据存储和计算规模, 需要满足:数据采集范围包括但不限于世界500强、全国500强、行业20强企业相关数 据。总数据容量至少达到30T。总体设计整个云数据采集中心分为三部分:硬件资源层、软件平台层、软件应用层。硬件资源层主要指实体
8、硬件设备,包括用来存储数据的光纤阵列柜和存储服务器,用 来作统计、分析以及搜索用的计算服务器,用来部署分布式消息(DMQ)/WEB/APP软件的 WEB及消息服务器,用来部署用PostgreSQL关系数据库软件的应用数据库服务器,用 来部署作业调度服务进程(JSS)的作业调度服务器。作为数据通信用的全千兆三层交换 机等等。其中光纤阵列柜主要用来存储统计分析后的粗颗粒度数据。存储服务器用来部署 分布式文件系统和分布式数据库,同时存储非结构化和结构化(台标图片,电商图片等 等)和结构化数据(行为数据,索引数据,log数据,清理后的细颗粒度数据等等)。计算 服务器主要用来完成数 据的清理、统计、搜索
9、等计算任务。为了节省成本和减少通信代 价,建议存储服务器和计算服务器合二为一,所以该服务器同时具有计算和存储数据的功 能,前 期也可以考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。由于 云数据采集中心需要面对多种宽带用户(电信、移动、联通),所以,数据中心 的对外 的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司间的通信性能高 速和可靠。软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主体 部分,在核心技术章节会对“分布式文件系统(S2DFS)”、 “分布式数 据库 (D2B)”、“分布式消息服务(DMQ)” “作业调度服务进程(JSS)、数
10、据计算服务进程(DCS) ”主要部分加以详细的描述。软件平台层的所有服务器都统一部署的64位操作系统CentOS (也可以选择RHEL x64);其核心软件或者进程有:分布式文件系统(S2DFS)、分布式数据库(D2B)、 作业调度服务进程(JSS)、数据计算服务进程(DCS)、作业生成服务进程(JGS)、 消息处理服务进程(MPS)、流数据处理进程(SDS)等等。WEB及应用服务器软件 Apache&Tomcat,消息队列软件分布式消息(DMQ)。还要实现整个云数据采集中心的资 源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及UI表达层,功能实现需要基于软件平 台层的支撑,后期设
11、计和实施的主体。该层的主要功能应用有:数据采集应用、数据统计 应用、云数据采集中心的资源监控及调度。通过公共数据网(电信、联通、移动)和HTTP协议,把采集的海量文本、图片数据以 及用户行为数据存储在云数据采集中心里,以供后期分析计算用。云数据采集中心整体架构图云数据采集中心网络结构图核心技术及功能分布式文件存储技术(1)传统存储技术面临的问题:构建成本高:大容量及高网络带宽的高端存储系统架构昂贵。文件系统功能和性能差强人意:难以实现全局命名空间的文件共享、文件系统难以扩展,容易形成瓶颈。扩展性困难:技术存在瓶颈(Scale-up架构决定的)、扩展成本无法 控 制。可用性问题:潜在的单点故障,
12、数据恢复困难,代价高。应用目标差异:主要面临运营商、金融行业的OLTP应用、很少针 对海量 的流数据,或者非结构化数据进行设计和优化。异构设备繁杂:不同时期、不同公司、不同操作系统的异构设备纷繁复杂,无法整合,资源利用率极低。分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技 术架 构。主要为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提供海量的存 储平台,以集群的方式提供线性横向扩展能力。分布式文件系统是一种构建于通用x86部件之上的高可用、高可靠、高可扩展的新 型分布式文件系统。应用分布式文件系统,用户可以采用廉价可靠的通用服务器、SATA/SAS硬盘以及以太网
13、络来构建媲美企业级存储产品的存储系统。(2)分布式文件系统应对的数据特性和访问特性:数据量巨大,数百TB或PB级,增长迅速;类型多样化,包括图像、文本、语音、视频等文件数据;按时间有序生成,数据均带有时间标志;前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记录或者上 GB量数据;更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查询涉及大 量的磁盘读操作,查询处理产生大量的临时结果,不同类型的数据存在 联合分析查询;分布式文件系统的基本原理是采用集群方式来整合物理上独立的多个存储资源,以 软件方式提供单一的名字空间;采用多副本的方式保证数据的高可用性,任意单一节点失 效均不会导
14、致数据丢失和数据服务的正常运行;同时,分布式文件系统通过良好设计的系 统结构和数据分布策略,可保证系统性能的高可扩展性,并支持存储容量/性能的在线扩 展。相比较于DAS (直连存储)、SAN (存储区域网络)和NAS (网络存储),应用分 布式文件系统构建的网络存储系统更像是一个NAS,提供类似于传统NAS的文件级访 问接口(SAN和DAS都是块设备级别的访问接口)。(3)分布式文件系统与传统NAS/SAN设备的比较:比较项高端NASFC-SAN分布式文件系统性能一般双端口,性能受机头 影响,难以扩展,出口带 宽是瓶颈一般双端口,性能受 机头影响,难以扩展,IOPS较好性能随节点数的增加成线
15、性增长扩展能力性能及容量无法扩展,或 者有限扩展能较好扩展,但成本 高昂性能及容量按需扩展,动 态均衡可用性RAID方式保护,双机保 护,停机 RAID Rebuid, 耗时RAID方式保护,双机 保护,停机 RAID Rebuid,耗时基于灵活的多副本机制, 自动检测,自动故障恢复, 无需停机数据管理企业级功能需要单独购买企业级功能需要单独 购买(还需要单独的 文件系统,100多万一 套)内嵌多种企业级应用:快 照、镜像、回收站成本专有的硬件平台,软件拥 有成本高,扩展成本高专有的硬件平台,软 件拥有成本高,扩展 成本高开发通用的硬件平台,一 体化的软件,成本低,扩 展成本低可维护性专门的技
16、术支持服务,需 要培训结构异常复杂,需要 大量培训,厂商服务昂贵内嵌多种自动化的故障检 测和恢复功能,国内开发, 技术支持快速用户使用分布式文件系统如同使用本地文件系统。所不同的是,传统 NAS通常以 单一节点的方式实现,容量和性能的扩展能力有限,易于成为性能瓶颈和单一故障点。而 分布式文件系统则有多个节点集合地提供服务,由于其结构特征,分布式文件系统的性能 和容量均可在线线性扩展,并且系统内不存在单一故障点。对比参看下面两幅示意图:传统存储架构图分布式文件系统架构图分布式文件系统的设计应用特别适合海量非结构化数据存储,大量客户端并发的I/O 密集型应用。目前,分布式文件系统已经被应用于政府、
17、医疗影像、勘查数据计算、视频 服务以及动画制作等领域。这些领域的数据访问特征均为:数据量巨大,I/ O吞吐率高, 数据增长迅速以及数据可用性要求高。经过长时间的实际生产环境使用,分布式文件系统 已被证明是该类型应用的有效解决方案。布式文件系统的服务器端程序运行于Linux x64系统之上,支持多种Linux64位发行 版,包括Redhat、CentOS等。分布式文件系统客户端则支持Linux和Windows,同时 分布式文件系统还可以通过第三方软件输出CIFS和NFS接口,可以兼容大多数应用。(4) 分布式文件系统的核心技术及特征:扩展性和高性能:分布式文件系统利用双重特性来提供几TB至数PB
18、的高扩展 存储解决方案。Scale-Out架构允许通过简单地增加资源 来提高存储容量和 性能,磁盘、计算和I/O资源都可以独立增加,支持10GbE和 InfiniBand等高速网络互联。分布式文件系统弹性哈 希(Elastic Hash) 解除了分布式文件系统对元数据服务器的需求,消除了单点故障和性能瓶颈,真正实现了并行化数据访问。高可用性:分布式文件系统可以对文件进行自动复制,如镜像或多 次复制,从 而确保数据总是可以访问,甚至是在硬件故障的情况下 也能正常访问。自 我修复功能能够把数据恢复到正确的状态,而且修复是以增量的方式在后 台执行,几乎不会产生性能负载。分布式文件系统没有设计自己的私
19、有数 据文件格式,而是采用操作系统中主流标准的磁盘文件系统(如 XFS/EXT4/ZFS)来存储文件,因此 数据可以使用各种标准工具进行复制和 访问。全局统一命名空间:全局统一命名空间将磁盘和内存资源聚集成一个单一的虚 拟存储池,对上层用户和应用屏蔽了底层的物理硬件。存储资源可以根据需要在虚拟存储池中进行弹性扩展,比如扩容或 收缩。当存储虚拟机映像 时,存储的虚拟映像文件没有数量限制,成千虚拟机均通过单一挂载点进 行数据共享。虚拟机I/O可在命名 空间内的所有服务器上自动进行负载均 衡,消除了 SAN环境中经常发生的访问热点和性能瓶颈问题。弹性哈希算法:分布式文件系统采用弹性哈希算法在存储池中
20、定位数据,而不 是采用集中式或分布式元数据服务器索引。在其他的Scale-Out存储系统中,元数据服务器通常会导致I/O性能瓶颈和单 点故障问题。分布式文 件系统中,所有在Scale-Out存储配置中的存 储系统都可以智能地定位任 意数据分片,不需要查看索引或者向其 他服务器查询。这种设计机制完全 并行化了数据访问,实现了真正 的线性性能扩展。弹性卷管理:数据储存在逻辑卷中,逻辑卷可以从虚拟化的物理存,不会导 致应用中断。逻辑卷可以在所有配置服务器中增长和缩减,可以在不同服务 器迁移进行容量均衡,或者增加和移除系统,这些操作都可在线进行。文件 系统配置更改也可以实时在线进行并应用,从而可以适应
21、工作负载条件变化 或在线性能调优。完全软件实现(Software Only):分布式文件系统认为存储是软件问 题,不能 够把用户局限于使用特定的供应商或硬件配置来解决。分布式文件系统采 用开放式设计,广泛支持工业标准的存储、网络和 计算机设备,而非与定 制化的专用硬件设备捆绑。对于商业客户,分布式文件系统可以以虚拟装 置的形式交付,也可以与虚拟机容器 打包,或者是公有云中部署的映像。 开源社区中,分布式文件系统被大量部署在基于廉价闲置硬件的各种操作 系统上,构成集中统一 的虚拟存储资源池。简而言之,分布式文件系统是 开放的全软件实现,完全独立于硬件和操作系统。完整的存储操作系统栈(Comple
22、te Storage Operating System Stack :分 布式文件系统不仅提供了一个分布式文件系统,而且还提供了许多其他重 要的分布式功能,比如分布式内存管理、I/O调度、软RAID和自我修复 等。分布式文件系统汲取了微内核架构的经验教训,借 鉴了 GNU/Hurd操 作系统的设计思想,在用户空间实现了完整的存 储操作系统栈。用户空间实现(User Space):与传统的文件系统不同,分布式文件系统在用户 空间实现,这使得其安装和升级特别简便。模块化堆栈式架构(Modular Stackable Architecture):分布式文件系统 采用模块化、堆栈式的架构,可通过灵活的
23、配置支持高度定制化的应用环 境,比如大文件存储、海量小文件存储、分布式文件系统、 多传输协议应 用等。每个功能以模块形式实现,然后以积木方式进 行简单的组合,即可 实现复杂的功能。比如,Replicate模块可实现RAID1,Stripe模块可实 现RAID0,通过两者的组合可实现RAID10和RAID01,同时获得高性能和 高可靠性。原始数据格式存储(Data Stored in Native Formats):分布式文件系统 以 原始数据格式(如EXT3、EXT4、XFS、ZFS)储存数据,并实现多种数据自 动修复机制。因此,系统极具弹性,即使离线情形下文 件也可以通过其他 标准工具进行访
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 采集 处理 项目 技术 方案
链接地址:https://www.31ppt.com/p-5306770.html