毕业设计(论文)提高数据仓库中数据质量的研究.doc
《毕业设计(论文)提高数据仓库中数据质量的研究.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)提高数据仓库中数据质量的研究.doc(44页珍藏版)》请在三一办公上搜索。
1、HUNAN UNIVERSITY毕业设计(论文)设计论文题目:提高数据仓库中数据质量的研究学生姓名:学生学号:专业班级:软件开发班学院名称:软件学院指导老师:学院院长:2008年5月20日提高数据仓库中数据质量的研究摘 要数据仓库是一个面向主题的、集成的、相对稳定的、能够反映历史变化并且能够支持管理决策的数据的集合。维护数据仓库中数据的正确性是非常重要的环节,而ETL是构建数据仓库的重要组成部分,要占据60%左右的工作量。提高数据仓库中的数据质量有利于保障数据仓库的可靠性,也有利于企业长期的总结和应用数据。提高数据质量的方法很多,鉴于本项目在实际工程应用中的经验总结和实践积累,本文主要侧重于利
2、用ETL调度以及校验的方式来提高数据仓库中的数据质量。首先,利用ETL调度原理实现数据的自动化调度,使数据成为一个流动的数据流,数据所在的数据库作为ETL流的起点,保存最终高质量数据的数据仓库作为ETL数据流的终点。其次,对于已经形成ETL数据流的数据生成流实例信息,对完成ETL流程处理的数据构造历史信息,从而保证能够对ETL流进行监控。再次,构造ETL流程的处理逻辑,这是构造高质量数据的核心部分,根据实际的经验构造自动化的校验程序,使数据流流过时校验程序能够纠正错误数据,最终达到获得高质量数据的目的。最后,经过EMC项目的实施情况证明,非法数据在以ETL流的形式流经校验程序时都能够按照提前设
3、定得到处理,保证了数据仓库中数据的稳定性。关键词:ETL,EMC(ETL管理中心),数据仓库The Research in Improving the Quality of Data in the Data WarehouseAbstractAuthor: Gao ZhongshanTutor: Shen YuxiangData Warehouse is a data collection which is subject-oriented, integrated, and relatively stable. It can reflect the changes of history and
4、 support the management decision. It is an important segment to maintain the accuracy of the data warehouse. However, ETL is an important part to build data warehouse and occupy about 60 percent of the load. The improvement of the quality in the data warehouse helps to guarantee the reliability and
5、also help the enterprise to summarize and use the data for a long period of time. There are many methods to improve the quality of data. However, in the view of the experience summary and practice accumulation in the practical application, the paper mainly focuses on the ETL dispatcher and way of ch
6、eck to improve data quality of data warehouse.First of all, the automation of data management which is realized by ETL principle make the data into a data stream., the database where the data exists become as starting point of ETL, saving the data warehouse with ultimate high-quality data as the end
7、 of ETL.Second, for the data which the ETL data flow has been formed to generate example, for the data which complete ETL processes structure to handling historical information, thus ensuring that the ETL flow can monitoring.Third, building the processing logic of ETL tectonic processes is the core
8、of constructing high-quality data, constructing the automated calibration procedures based on the actual experience, so that the calibration procedures can correct erroneous data when passing by, and finally achieving the goal of access the high-quality data.Finally, the implementation of the EMC pr
9、oject has proved that the illegal data in the form of ETL run through calibration procedures can be handled in accordance with the set in advance, ensuring the stability of data in warehouse data.Key words: ETL, EMC (ETL Manage Center), Data WareHouse目 录1. 绪论11.1 研究背景11.2 国内外研究现状21.3 本文的主要研究内容和内容组织3
10、2. 数据仓库以及ETL42.1 数据仓库(Data WareHouse, DW)42.2 ETL(Extract, Transform, loading)62.2.1 ETL简介62.2.2 ETL过程特点72.2.3 数据质量保证82.2.4 元数据:拓展新星应用93. EMC项目中的ETL应用103.1 业务背景103.2 实例概述123.3 总体流程133.4 接口表143.4 企业数据迁移(EDM)模型层153.5 事实表层163.6 数据集市(DM)层173.7 多维分析(OLAP)层173.8 总体处理流程、反馈过程174. EMC中数据调度校验的应用194.1 需求分析194.
11、1.1 需求设计描述194.1.2 功能性需求描述(按功能模块进行说明)194.1.3 非功能性需求描述204.2 系统总体设计214.2.1 系统总体功能设计图214.2.2 系统总体功能设计图说明214.2.3 系统功能设计描述224.3 概要设计234.3.1 概要功能设计图234.3.2 功能性描述(按功能模块)244.4 后台调度流程264.4.1 ETL任务调度概述264.4.2 任务/任务组实例化274.4.3 任务实例调度284.5 后台校验流程294.5.1 功能294.5.2 数据结构294.5.3 流程294.5.4 重要函数325. 效果说明和总结42致谢43参考文献4
12、41. 绪论1.1 研究背景随着全球经济一体化进程的推进以及我国的经济快速增长,大多数行业的市场竞争激烈加剧。这对企业管理和经营决策的制定的时效性、科学性、准确性提出了很高的要求。只有以数据为基础,从基于经验的分析到基于准确事实的洞察,才能有效保证企业服务质量、营销成功率和管理水平,节约企业营销成本,最终使企业利润和客户满意度的最大化。数据仓库正是在这种大环境下应运而生了。随着我国电信体制改革的深化,行业垄断格局已被打破,国内通信市场形成了电信、移动、联通、网通、铁通等多元化竞争局面,竞争日趋激烈。电信运营商的经营理念也逐渐从“以产品为中心”转移到“以客户为中心”了。而面对客户的多样化、层次化
13、、个性化的需求,大众化营销已经失去了其优势,基于客户信息、客户价值和行为,深入数据分析的洞察力营销、精确化营销的理念逐渐被各大电信运营商所接受。商务活动的主动权被交到了客户手中,而保持原有的客户对电信公司来说变的至关重要。在过去多年中电信行业建立了计费帐务系统、综合结算系统、97系统、10000号系统、大客户系统等多种业务支撑系统,然而各个系统相对独立,数据分散不一致。这就产生了数据依赖系统存在、缺少完整统一的客户视图、数据共享缺少统一的标准共享困难、数据对闭环的业务流程支撑程度较弱等问题。基于此现状,电信公司确定整合客户数据并以客户为中心实行统一视图的目标,那么建设本企业的数据仓库就势在必行
14、了,而同时保证数据仓库中数据的质量的有效性就成为了一个重点研究的问题。科学决策是现代企业的管理的核心与基础,但高质量的数据是正确决策的前提。要提供有质量保证数据,数据的抽取、转换和装载过程特别是转换过程相当重要。针对电信业务种类多,业务更新快,数据来源广的特点,ETL过程就变得充满挑战性。庆幸的是,已经有很多成熟的ETL工具,它们几乎能够自动完成数据的ETL过程。但用户显然不放心这样一个重要的过程对他们来说完全是“透明化”的,加上多用户多任务必然会带来线程(或进程)的同步或互斥问题。所以本文将以ETL框架设计为基础出发。同时为了便于理解整个框架,来详细介绍ETL过程管理的具体流程和方法。同时,
15、本文将流程的控制过程用可视化效果表现出来,提供流程定义和流程监控功能,并最终生成多维表。1.2 国内外研究现状在企业信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更强大的新系统所取代,从两层结构到三层结构,从Client/Serve:到Browser/Server,在新旧系统的切换过程中,必然面临一个数据迁移的问题。原有的旧系统从启用到被新系统取代,在其使用期间往往积累了大量珍贵的历史数据,其中许多历史数据都是新系统顺利启用所必须的。另外,这些历史数据也是执行决策分析的重要依据。数据迁移,就是将这些历史数据进行清洗、转换,并装载至新系统中的过程。数据迁移主要适用于一套旧系统切换到另
16、一套新系统,或多套旧系统切换到同一套新系统时,需要将旧系统中的历史数据转换到新系统中的情况。银行、电信、税务、工商、保险以及销售等领域发生系统切换时,一般都需要进行数据迁移对于多对一的情况,例如由于信息化建设的先后,造成有多个不同的系统同时运行,但相互间不能做到有效信息共享,所以就需要一套新系统包容几套旧系统的问题。数据迁移对系统切换乃至新系统的运行有着十分重要的意义,数据迁移的质量不仅仅是新系统成功运行的重要前提,同时也是新系统今后稳定运行的有力保障。如果数据迁移失败,新系统将不能正常启用;如果数据迁移的质量较差,没能屏蔽全部的垃圾数据,对新系统将会造成很大的隐患,新系统一旦访问这些垃圾数据
17、,可能会由这些垃圾数据产生新的错误数据,严重时还会导致系统异常。相反,成功的数据迁移可以有效地保障新系统的顺利运行,能够继承珍贵的历史数据。无论对于一个公司还是一个部门,历史数据都是十分珍贵的一种资源,如公司的客户信息、银行的存款记录、税务部门的纳税资料等。早期的数据迁移工作往往是由程序人员手工编写存储过程完成的,对编写人员的技术要求很高,而且随着系统的升级换代、人员变动等原因使系统维护变得十分困难随着计算机技术的发展与进步,逐渐出现了使用特定的ETL工具来完成数据迁移过程。目前很多数据库厂商纷纷推出针对其数据仓库产品的ETL解决方案,如Oracle公司的Warehouse Builder等。
18、这些工具具有功能强大,提供图形化界面以利于用户操作,易与第三方软件集成等优点,但其高昂的价格,复杂的操作往往让人望而却步。表1.1对手工编码与使用ETL工具实现数据迁移工作进行了比较。表1.1 人工编码与ETL工具比较对比项手工编码ETL工具灵活性最灵活比较灵活难易程度要求一定的技术水平相对容易管理和维护较难容易性能和效率取决于编写者水平较高开发周期较长较短工作量较重中等价格相对较低较高目前国内外关于ETL领域的研究非常活跃,主要涉及以下几个方面:1、建立一种通用的与领域无关的工具框架;2、在自动化异常检测和清洗处理间增加人工判断处理以提高处理精度;3、对海量数据集进行并行处理;4、如何消除合
19、并后数据集中以及重复数据;5、研究高效的数据异常检测算法以避免扫描整个庞大的数据集。在我国,对ETL的研究开发甚少,还没有一个成型的、完善的ETL工具应用于数据仓库的系统中。1.3 本文的主要研究内容和内容组织本次设计主要采用的技术手段是:利用ETL在构造数据仓库中的原理,通过构造ETL数据流来实现数据的自动化处理,通过编写校验程序来处理数据流中非法数据,从而保证数据仓库中数据的高质量。本文结构分为五章,第一章为绪论,主要介绍该课题的背景,过内外发展概况以及应用的技术以及论文的组织结果等;第二章为基础技术介绍,主要根据项目需要用到的数据仓库、ETL等技术做详细的介绍;第三章将根据EMC项目情况
20、讲解ETL的应用情况;第四章重点讲解调度和校验过程,使读者能够更清晰的了解EMC项目中的实现方法;第五章将根据实际应用对提高数据质量的效果做进一步的说明并总结获得结论。2. 数据仓库以及ETL2.1 数据仓库(Data WareHouse, DW)目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作Building the Data Warehouse一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Var
21、iant)的数据集合,用于支持管理决策。数据仓库的概念可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。根据数据仓库概念的含义,数据仓库拥有以下四个特点:1、面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。2、集成的:面向事务处理的操作型
22、数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3、相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、反映历史变化:操作型数据库主要关心当前某一个时间段内的数据,而
23、数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程,而不是一个产品。图2.1所示为数据仓库的基本体系结构图:分析工具归纳工具数据挖掘OL
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 提高 数据仓库 数据 质量 研究
链接地址:https://www.31ppt.com/p-3982643.html