帆软集团数据库项目构建方案(第二版).docx
《帆软集团数据库项目构建方案(第二版).docx》由会员分享,可在线阅读,更多相关《帆软集团数据库项目构建方案(第二版).docx(144页珍藏版)》请在三一办公上搜索。
1、L项目背景2.项目整体建设思路2.1、 系统设计蓝图用户端业务场景层败据加工T具数据清洗工具Bl展现工具报表工具知识层运康工具手机移动端财务管理人事管理风险管理流程管理法务管理采购管理运营管理工具功能层应用族务业务题务效亮分析后台腕务层自定义熊务组合服务毁空艇务层数据座服务效宪访问题务数据中心(DW)业务系统数行座FAS、OA, DCS.基础应用度统一依据集成平台中间件主机网络存储敷照度如上图所示,本项目系统架构模型中,主要分为几个层级:基础应用层:本模块中主要提供硬件环境以及软件支撑环境。包含主机,网络,磁盘存储,中间件以及数据看信息。数据服务层:本模块主要提供业务数据存储测策略,包括基础数
2、据(业务系统数据库)读取,数据ETL管理,数据中心构建,数据监控用户后台服务层:本模块主要提供应用层CS,BS设计模式,提供数据从数据仓库转化成业务服务,提供用户自定义个性化配置服务,以及各类软硬件的组合服务工具功能层:本模块涵盖项目各流程节点需要的辅助工具以保证该节点的正常流转。包含底层的数据抽取工具,数据加工工具,数据清洗工具,业务主题包,知识库,以及上层的报表绘制工具,Bl自助分析工具,同时涵盖系统运维,环境监控等各类工具业务场景层:通过工具层的梳理,将业务进行主题化划分和管理,维护。此层级包含财务(法定)报表,财务分析、运营分析、生产力分析,生产工艺分析,生产质量分析,趋势分析等;对与
3、上述整理的业务运行流程进行定义,监控,记录,为主业务服务保驾护航用户层:本模块是整个系统最顶层服务,各种访问形式Client,web,mobileservice等方便信息人员快速构建业务主题;业务人员灵活查看,自助分析,摸索挖掘最贴合当前主题的分析模型,并协调信息人员快速修改主题模型;运维人员根据丰富的监控展示形式直观方便的实时监控系统软硬件情况。各类终端手机,电视大屏,PAD,PC满足不同层级,不同岗位的人对于数据的实时需求。2.2、 Bl系统建设建设目标:构建集团数据仓库;构建集团完整的Bl分析体系,替代重复的人力劳作,分析挖掘企业各个环节的经营活动,监控营运状况、趋势与一切可能风险,辅助
4、企业战略决策,提升核心竞争力,最终达成管理的睿智。建设方针:通过建立严格、细化、符合统计学原理的数据整合原则,不断提升数据的质和量,在高质量的数据基础保障下,建立和扩充Bl报表体系的管理应用。建设步骤:数据管理I系统对接 数据抽取 数据导入上报 DW搭建 扩充优化企业指标系统数据同步 KPl体系建设 标准值设定BI报表 快速报表展现 驾驶舱 预警风控 模型分析 移动应用3数仓建设方案3.1. 数据全面,存储所有采集的数据本项目的技术架构一共有五个主要环节,各系统的系统接口、数据抽取、数据处理、数据加载、按业务主题加载数据,能自动抓取的按照设置的模型自动抓取数据,需要补充的数据设计表单填报数据,
5、有需要EXCel导入的数据,可以设置Excel导入提交到数据库。企业数据仓库九恒星hperion费用报 销系统数据抽取、清洗、转换、加裁(ETL)领导驾驶舱 仪表板地图移动端大屏财务管理信息技术流程管理法务管理生产管理项目管理人事管理内部审计风险管理仓库管理物流管理未来价值B.分析平台企业数据仓库各系统的数据接口,采用ETL工具集成的数据接口,实现读取数据主要是报表平台能从不同的数据源读取经营数据库系统所需要的数据,将数据按照约定的规则进行相应的转换后,放置到经营数据库系统的数据库中,利用报表平台软件对不同维度不同指标的数据进行可视化分析。数据仓库的数据存储采用Oracle作为DWH的数据存储
6、中心,在此基础上,把明细数据聚合成对应的下属超市业务主题,供经营数据库系统实现报表分析与查询;Oracle是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的适应高吞吐量的数据库解决方案。Oracle数据仓库里面存储所有业务模型需求的明细数据和按照维度聚合后的数据,也存储填报上报的数据和Excel导入的数据。3.2. 数据仓库设计合理,经过数据清洗装载后无数据失真,具有可扩展性。为了确保历史数据的准确性,我们设计
7、时采用国际上主流的数据仓库设计理论方法:变化类型I(Typel),变化类型2(Type2)s变化类型3(TyPe3)和这三种类型的混合设计,保证数据的准确性、完整性。举例如下所示:业务场景;二航在沿笆r*2tetT*.201403-0*MM*部,也产生了一张订单.20140402再次转到精售三部,又产生了一张订单.分别把在二个削门产生的仃单统计到三个部门!系蜕不保留:门变更历史记最嗔型通IFCB键关连I/ZtMR 0tMF NAMtAOOlDOO)DBF UAMH林坦或张松,.KEYODCR-CMTEOltDER.MONH-1/0140141IOOOO1MWIWOO2XH4d200003701
8、4 04475000AOOl3AOOlD003说明:上图所示是变化类型2和变化类型3的混合设计,实现了无论销售人员如何调整部门,他本人的销售业绩始终是跟着人走,而他在每个部门所销售的业绩能够准确地分布到当时他所在的部门(按人统计销售业绩使用上图红框内的字段EMPJD,按部门统计使用另一个红框内的字段DEP_ID_HIS)O数据安全是数据中心建设的关键。系统要有完善、周密的安全体系和信息安全支撑平台紧密配合,系统的安全性主要应该考虑:a.系统具备严格的等级访问及授权机制;对于认定的关键及敏感数据,只有经过授权的合法用户才能使用访问及修改,并具有完备的日志及审核功能。b.完整的身份认证与授权。c.
9、确保数据的安全性。系统中存在大量的数据,要确保用户不能够直接存取关键数据,而只能通过相关的功能模块对数据进行操作,建立完备的数据备份与灾难恢复机制及策略。本平台具有以下开放性:(1)本系统采用开放式的DWH设计方案(维度设计模型),具有很好的扩展性,将充分考虑增加新的业务系统或老的业务系统扩展;(2)采用国际上成熟的技术设计模型(主要采用RalPhKimbaII维度建模方式和Inmon的信息工厂构建方式混合构建数据仓库);3.3. 数据仓库的效率高,可以及时给出访问的数据。本项目数据仓库数据加载都是按照数据模型进行预处理,访问报表时,根据所需要的报表维度可以快速的从数据仓库读取数据。具体数据模
10、型设计方式如下:主要采用国际主流的数据模型构建方式,设计的主导思想来自于RalphKimball和Billlnmon1围绕绿地商超为实现业务价值链数据集成的需要设计数据模型。3.3.1 设计事实表事实表是维度模型的基本表,其中如图所示存放有大量的业务性能度量值。力图将从一个业务处理过程得到的度量值数据存放在单个数据集市。由于度量值数据压倒性地成为任何数据集市的最大部分,因此应该避免在企业范围内的不同地方存储其拷贝。用术语“事实”代表一个业务度量值。可以设想一个作为例子的情形:查询某个客户在某个机构下某个产品合约账户的某个币种的某个时点余额,在各维度值(客户、产品合约、账户、机构、币种、日期)的
11、交点处就可以得到一个度量值。维度值的列表给出了事实表的粒度定义,并确定出度量值的取值范围是什么。账户余额表产品合约关键字(FK)账户关键字(FK)机构关键字(FK)客户关键字(FK)币种关键字(FK)日期关键字(FK)账户余额事实表的一行对应一个度量值,一个度量值就是事实表的一行;事实表的所有度量值必须具有相同的粒度。最有用的事实是诸如账户余额这样的数字类型为可做加法的事实。可加性是至关重要的,因为数据仓库应用不仅仅只检索事实表的单行数据。相反,往往一次性带回数百、数千乃至数百万行的事实,并且处理这么多行的最有用的事就是将它们加起来。3.3.2 设计维度表维度表是事实表不可分割的部分。如图所示
12、,维度表包含有业务的文字描述。在一个设计合理的维度模型中,维度表有许多列或者属性,这些属性给出对维度表的行所进行的描述。应该尽可能多地包括一些富有意义的文字性描述。对于维度表来说,包含50到100个属性的情形并不少见。维度表倾向于将行数做得相当少(通常少于100万行),而将列数做得特别大。每个维度用单一的主关键字(如下图图中PK符号标记的部分)进行定义,主关键字是确保同一与之相连的任何事实表之间存在引用完整性的基础机构维度表机构编号机构关键字(PK)邮政编码机构中文名称机构英文名称机构类别总行机构编号总行机构名称一级行机构编号一级行机构名称二级行机构编号二级行机构名称支行编号支行名称开业日期机
13、构描述详细地址3.3.3 维度表和事实表的融合在定义了事实和维度表之后,现在就考虑将两个组块一起融合到维度模型中去的问题。如图下图所示,由数字型度量值组成的事实表连接到一组填满描述属性的维度表这个星型特征结构通常被叫做星型连接方案。产品合字A9工度数拆实际数据仓库业务主题分析说明:构建好的数据仓库架构还要很好地理解企业业务价值链,并按业务总线的方式,分成各个不同子公司的业务主题,然后从不同的维度对指标进行分析。如上图所示,基于通用的业务价值键及业务主题,通过上述主题描述,结合具体业务对业务主题进行划分,实现数据仓库中后续数据集市的构建,并提供给经营数据库系统进行报表查看分析。4.数据集成ETL
14、ETL即数据抽取(Extract)x转换(Transform)x装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是没有任何意义的,因为“垃圾进,垃圾出”(garbagein,garbageOUi:),系统根本就不可能为决策分析系统提供任何支持。为了清除噪声数据,必须在数据库系统中进行数据清洗
15、。ETL过程中实现数据清洗的实现方法:首先,在理解源数据的基础上实现数据表属性一致化。为解决源数据的同义异名和同名异义的问题,可通过元数据管理子系统,在理解源数据的同时,对不同表的属性名根据其含义重新定义其在数据挖掘库中的名字,并以转换规则的形式存放在元数据库中,在数据集成的时候,系统自动根据这些转换规则将源数据中的字段名转换成新定义的字段名,从而实现数据挖掘库中的同名同义。其次,通过数据缩减,大幅度缩小数据量。由于源数据量很大,处理起来非常耗时,所以可以优先进行数据缩减,以提高后续数据处理分析效率。最后,通过预先设定数据处理的可视化功能节点,达到可视化的进行数据清洗和数据转换的目的。针对缩减
16、并集成后的数据,通过组合预处理子系统提供各种数据处理功能节点,能够以可视化的方式快速有效完成数据清洗和数据转换过程。此处采用热门的开源ETL工具kettleo4.1. 工具简介KettIe是“KettleE.T.T.L.Envirnonment只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。同时,kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、UniX上运行,数据抽取高效稳定S
17、teP插件处理JobMi件处理DataBaSe 扩展捕仰价埋矍SteP引挈Job引擎数据库访问引擎Ui描述信2SPOOd XUlISteP插件IIJobG件UlDataIntegrationEngine元数捌管理引擎(ktr,kjb)PDl平台Kettle家族目前包括4个产品:SPe)On、Pan、CHEF、KitchenoSPOON允许你通过图形界面来设计ETL转换过程(Transformation)。PAN允许你批量运行由Spoon设计的ETL转换(例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。CHEF允许你创建任务(Job)。任务通过允许每个转换,任务,脚本等等,更
18、有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。KITCHEN允许你批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。4.2. 实际案例:燕塘乳业数据中心项目D项目简介广东燕塘乳业股份有限公司是广东的一家乳品生产企业,总部位于广东广州天河沙河燕塘,公司主营范围为生产、销售乳制品:液体乳(巴氏杀菌乳、调制乳、灭菌乳、发酵乳),饮料(蛋白饮料类),生鲜乳收购(以上各项凭公司有效许可证经营),乳制品生产技术服务,奶牛养殖,草类的种植及销售,有机肥的生产及销售。广东燕塘乳业股份有限公司在2014
19、年获得“广东老字号”称号目前,燕塘乳业拥有广州、湛江等现代化生产基地,同时在建一个日产600吨乳品生产基地,建成投产后将成为中国南方乳制品生产的旗舰工厂之一。此外,公司拥有阳江红五月牧场(全国农垦现代化养殖示范场)、湛江澳新牧场、陆丰新澳牧场等大型自有示范牧场,并与10多家规模牧场建立长期战略合作关系,引领南方种养殖业持续健康发展。客户鉴于预算和数据量的综合考虑,客户选用开源工具kettle作为ETL数据工具。客户的数量为千万级别,销售数据每年在2000W条左右。从项目上线到目前为止,未出现异常。2) kettle运用案例a月度指标事实表b.物料维度M.22O(H.BHC产量事实表5硬件配置方
20、案此次平台建议准备4台新的服务器,一台作为ETL调度服务器(用于抽取原始系统数据库中的数据,经过清洗转换之后进入数据仓库),一台作为数据仓库oracle服务器,一台作为数据分析平台应用服务器(用于部署帆软BI软件平台),一台作为数据分析平台测试服务器(测试环境)。推荐配置如下:a)ETL调度服务器:CPU:高端服务器专用八核内存:32G磁盘:500GB操作系统:WindowsServer2008b)数据仓库Oracle服务器:CPU:高端服务器专用八核内存:32G磁盘:2TB以上(可扩容,磁盘空间主要用于数据存储,考虑到数据持续性的增长,数据仓库磁盘空间需要支持后期扩容)操作系统:Window
21、sServer2008c) Bl应用服务器:CPU:高端服务器专用八核内存:32G磁盘:500GB(此服务器磁盘空间主要用于系统备份使用)操作系统:WindowsServer2008Web容器:Tomcatd) Bl测试服务器CPU:四核CPU内存:8G磁盘:200GB操作系统:WindowsServer2008Web容器:Tomcat6.帆软bi产品解决方案6.1、 什么是finereport展示层终端浏览设备TB数据上报权限控制审计监控文本数据源程序数据源Bl多邮据库数据库数据源数据库表/视图/存储过程/SAP数据集I 个性化 Il图表分析I灵活钻取|自定义查询1 I FIaSh打前6.1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 集团 数据库 项目 构建 方案 第二

链接地址:https://www.31ppt.com/p-6813053.html