数据仓库在综合管理系统中概要.doc
成绩 南京航空航天大学 工 程 硕 士 课 程 论 文 题 目 数据仓库在社区综合管理系统中的应用 学生姓名 史苏明 学 号 SF1316016 专 业 计算机应用技术 班 级 SF1316 课程名称 数据仓库技术 二一三年八月数据仓库在社区综合管理系统中的应用史苏明(南京航空航天大学 信息科学与技术学院,江苏 南京 210016)Application of Data Warehouse in the Community Integrated Management SystemSumming Shi(College of Information Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)摘 要:社区是社会的基本单元,是社会生活的共同体和人居的基本平台。社区管理工作涉及面广,工作流程复杂,同时,不同的部门通过垂直系统分别在社区建立了信息化系统,给社区工作带来大量重复劳动。通过建立数据仓库,对不同来源的数据进行抽取、清洗、比对和重载,形成统一的面向对象的数据仓库,对建立社区综合管理系统具有重要意义。关键词:数据仓库;社区管理;信息系统Abstract: Community is the basic unit of society, is the basic platform of social life of the community and habitat. Community management involves many aspects, the work process is complicated, at the same time, different departments through the vertical system respectively in the community to establish the information system for community work, bring a lot of repeated work. Through the establishment of data warehouse, extraction, cleaning, alignment and heavy load of different sources of data, data warehouse to form uniform object, is of great significance to the establishment of community integrated management system.Key words: Data Warehouse; Community Management; Information System1 引言1.1 数据仓库慨念的由来和意义未来的世界是一个数据大爆炸的世界,同时也是一个需要从海量数据中快速获取知识和财富的世界。无论是精度和分辨率都越来越高的遥感影像数据,还是获取和使用都越来越便利的视频监控数据,亦或是越来越多的企业管理系统、政务管理系统、SNS平台等沉淀和积累下来的数以TB计算的结构化和非结构化的数据,这些都是使得未来世界更智能、便利、快捷的基础和源泉,但首先面对的技术问题是,这些数据该如何的获取、存储、高效查询和管理。数据仓库的概念在20世纪90年代初,有美国数据仓库之父比尔恩门(Bill Inmon)提出,在他1991年出版的“Building the Data Warehouse”一书中所提出的关于数据仓库的定义被科研界认可并广泛接受,比尔恩门(Bill Inmon)认为,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 经过40多年的研究和发展,科研界和业界对数据仓库的概念及其内涵有了更深层次的理解和认识,现有一般认为,数据仓库不仅仅是一项技术或是一个可以一次性完成的项目,它也不是一件可以打包封装的产品,而是一个环境、一种数据管理的思路和数据分析利用的模式及研究方向。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询和使用所需要的信息,提供决策支持。1.2 数据仓库技术的特点1.2.1 数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有 更高的数据抽象级别。 1.2.2 数据仓库的数据是集成的 数据仓库的数据是从原有的分散的数据库数据抽取来的。通过首先对不同源数据中字段的同名异义、异名同义、单位不统一、字长不一致等所有矛盾之处的清洗、比对和处理;然后进行数据综合和计算;最终进入数据仓库的数据就是进行综合集成后的数据集。 1.2.3 数据仓库的数据是不可更新的数据仓库的数据主要供管理者决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据库中进行联机处理的数据经过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。因为数据仓库只进行数据查询操作,所以数据仓库管理系统相比数据库管理系统而言要简单得多。1.2.4 数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行数据更新操作的。但并不是所有的数据仓库数据都是永远不变的。事实上数据仓库的数据是随时间的变化而不断变化的,数据仓库随时间变化不断增加新的数据内容;同时,数据仓库随时间变化不断删去旧的数据内容,对于数据仓库中包含的大量综合数据,这些综合数据中很多跟时间有关,如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等,这些数据要随着时间的变化不断地进行重新综合。1.3 数据仓库与数据库的区别移动从本质上讲,数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的,其区别主要表现在以下几个方面:数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,数据仓库在设计是有意引入冗余。数据库是为捕获数据而设计,数据仓库是为分析数据而设计。集团数据仓库为移动公司总的数据中心,省级数据仓库则为省级数据中心,二者可根据需要可互相抽取、交互数据。总公司的数据仓库的数据源有两方面,除部分数据通过数据加载ETL模块加载数据外,主要是通过分布式的网络结构,从各省公司级的各数据仓库抽取数据。图 1 传统数据库与数据仓库的区别Fig. 1 The Difference Between Traditional Database And Data Warehouse1.4 数据仓库技术的相关概念分析使用和全面理解数据仓库技术需要对相关的概念和技术有清晰的认识,才能够利用数据仓库技术与相关应用很好的结合,数据仓库技术相关概念主要包括以下几个方面:Ø 元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。Ø 粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越大。Ø 分割:结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。Ø ETL:ETL(Extract/Transformation/Load)用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。Ø 数据集市:小型的,面向部门或工作组级数据仓库。Ø 操作数据存储 (ODS):能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的、集成的、可变的、 当前或接近当前的。Ø 数据模型:(1)逻辑数据结构,包括为有效进行数据库处理由DBMS提供的操作和约束;(2)数据表示系统(例如,ER图和关系模型)。2 数据仓库技术在社区服务管理系统数据仓库设计研究中的应用研究2.1 数据仓库的层次结构社区综合服务系统数据仓库是基于市直各部门在社区建设的垂直业务系统分散数据库建立的,整个结构是由近似星型架构组织的关系数据库和一个在关系数据库顶部生成的 OLAP 数据库组成。在建立社区综合服务系统数据仓库过程中,数据和信息从不同的业务系统中通过数据库对接、页面抓取、前置服务器等方式提取出来,然后被转换成公共的数据模型并且和仓库中己有的数据集成在一起。当用户向仓库进行查询时,需要的信息已经准备好了,数据冲突、表达不一致等问题已经得到了解决,从而使决策查询更容易、更有效。图 2 数据仓库功能结构模型图Fig. 2 The Functional Structure Model Of Data Warehouse2.2 数据仓库系统的数据获取层在社区综合管理系统中,社区基本信息如社区人口数、房屋总数、房屋面积总数、学龄儿童数、新出生人口数、分年龄人口数、社区城市部件、低保户、廉租房、空巢老人等民政类,就失业人员、退管人员等劳动保障类,育龄妇女、独生子女等计生类,社区矫正人员、上访户、刑释解教人员等数据分别来源于人社、计生、公安、民政、住建委、卫生、医疗、司法、环保等不同的部门,这些数据分属于不同的业务系统,需要通过多种方式,通过数据交换的方式形成数据的原始来源,通过形成完整的数据编码体系,采用数据清洗、比对、后形成完整的数据获取层。(1)市公安局提供户籍、暂住证、出生、死亡等信息变更的数据内容,包括:姓名、证件号码、籍贯、年龄、性别、户籍地、居住地、出生时间、死亡时间等基本信息。同时提供公安视频数据,供通过审核批准的相关部门调用。(2)市民政局提供结婚、离婚双方的姓名、身份证、籍贯、年龄、性别等基本信息,低保(低保边缘)、享受生活救助人口数据信息,适时补充和核实社区实际居住、暂住和流动人口信息,以及社区矫正人员变更信息。(3)市劳动和社会保障局提供五险参保等人口姓名、身份证、年龄、户籍所在地、实际居住地、是否残疾、用人单位(组织机构代码、劳动保障证号、单位名称、注册地址、经营地址)等数据内容。(4)市卫生局卫生信息可以与计生信息一同收集。主要有建卡孕妇及丈夫姓名、身份证、籍贯、年龄、户籍所在地、实际居住地等基本信息;0-6岁残疾儿童的姓名、居住地、病情;精神病人姓名、居住地、病情;麻风病人的姓名、居住地、病情;医疗求助对象信息。(5)市人口和计划生育委员会育龄妇女及丈夫姓名、身份证、籍贯、年龄、户籍所在地、实际居住地等基本信息,主要是当前在线运行的几套系统的基础信息。(6)市残联残疾人口姓名、身份证、籍贯、年龄、户籍所在地、实际居住地等基本信息。(7)国土局信息内容包括:基础地理信息、地籍宗地信息、资源规划信息、土地执法信息等。(8)住建委内容包括物业管理单位信息、房屋信息、房屋权属登记信息、房产历史交易信息、房改及住房保障信息、城市房屋拆迁信息、中介信息、消费者信息等。(9)市容局内容包括井盖、路灯、邮箱等公共设施,停车场、交通标志牌等交通道路设施,公共厕所、垃圾箱、广告牌等市容环境设施信息等。图 3 数据编码体系Fig. 3 Data Coding System2.3 数据仓库系统的数据存储层通过抽取、清洗、比对、转化、加载后的元数据,即可按照一定的数据格式和存储方式进入社区管理综合数据库,为社区管理提供决策支持数据支撑,为提高数据的使用准确性,增强数据的读取速度和效率。数据仓库中的数据是按照主题来组织的。面向主题的组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。数据按照以下对象进行分类后,就可以将数据存储层分为中央数据仓库和数据集市两层,先将所有查询应用所需的数据抽取到相对稳定的数据仓库中,再根据查询分析的具体需求,建立面向分析的数据集市。该数据存储模式能够有效提高数据读取效率,提高数据仓库的使用效率。信息类别具体信息基础类总人数、男性、女性、0-6岁、7-17岁、60-69岁、70-79岁、80-89岁、90-99岁、100岁以上民政类低保户、廉租房、空巢老人、失能老人、社会孤老、孤儿、优抚对象、退伍军人、现役军人、军休人员劳动保障类失业人员、有就业愿望人员、退管人员、参加城镇居民医疗保险人员社会治安综合治理社区矫正人员、刑释解教人员、吸毒人员、上访户、精神病人、重点青少年、流动人口、出租私房户残疾人类肢体残疾、视力残疾、听力残疾、精神残疾、言语残疾文教体类文艺爱好者、体育特长者计生类育龄妇女、独生之女户数、放弃二孩指标户、享受特扶家庭卫生类糖尿病、高血压、冠心病、艾滋病、结核病、需要体检人员党建类流出党员、失业党员、在职党员、退休党员社会组织社区党组织、社区居委会、社区成立代表会、社区监督委员会、社团、民办非企业、业主委员会、物业管理公司驻社区单位企业、行政事业单位、其他单位、工商个体户图 4 中央数据仓库数据集市的数据存储模式Fig. 4 Central Data Warehouse - Data Mart Data Storage Mode3 数据仓库技术在社区综合管理中的应用研究3.1系统总体架构通过社区综合信息管理系统可提高工作效率,使社区建设成为一个真正的电子服务平台。实现办公自动化,便于区政府管理。运用现代计算机和数据库技术,实现户籍信息管理、党建信息管理、民政信息管理、就业信息管理、医保信息管理、计生信息管理、用户信息管理等信息的录入、查询与统计功能。3.2 系统特色应用分析3.2.1 网上虚拟社区系统主要功能包含以下内容:政务信息发布:通过 wed 发布公告、新闻报道、政务信息、政务公开、办事指南及服务承诺。家政服务:在网上提供房产中介、搬家公司、水电维修、家政服务、保姆雇佣、钟点工等服务的咨询,为社区居民群众家庭日常生活提供方便、快捷、优质的服务。劳动就业:在网上建立社区职介中心(或职图 5 系统架构图Fig. 5 System Architecture Diagram业介绍所),面向社会,服务群众,方便企业,规范劳务市场。医疗保健:在社区网中提供各种最新保健方法介绍,利用辖区内现有医疗卫生机构为社区群众提供优质便捷的服务,还可以建立一个医疗保健讨论区。环境卫生:通过网上宣传,增强居民的卫生意识;建立社区容貌义务巡查队,根据居民和巡查队在网上的消息反馈,民委会加派人手,加强社区环境卫生监督,定期组织社区检查。3.2.2 社区综合办公系统社区管理部门提供现代化的日常办公条件及丰富的综合信息服务,实现无纸化办公,节省耗材,节约经费。该系统涵盖了日常办公中的所有环节,实现档案管理自动化和办公事务处理自动化,以提高办公效率和管理水平,实现各部门日常业务工作的规范化、电子化、标准化,增强档案部门文书档案、人事档案、科技档案、 财务档案等档案的可管理性,有利于城市信息化的长远发展。4 结论数据仓库技术是随着信息交换共享和数据大爆炸等信息化发展现状及发展瓶颈而逐步发展起来的一种数据整合、共享和交换的异构、多源数据的管理技术。在社区综合管理系统建设过程中,系统的数据来源于不同部门的业务系统生产数据,数据的来源广,结构复杂且数据标准不统一,采用数据仓库技术进行抽取、清洗、比对、加载后,形成统一的数据仓库,按照面向对象的方式将数据存储不同的数据集市,提高了数据的读取效率,为后期社区综合管理工作提供了完善的数据服务。参 考 文 献1 (美)荫蒙(Inmon,W.H)著,王志海等译数据仓库2006年8月2 陈志泊 数据仓库与数据挖掘 清华大学出版社 2009 年 05 月3 潘华,项同德 编著 数据仓库与数据挖掘原理、工具、及应用 2007 年 12 月4 William H. Inmon Building the Datahouse北京:机械工业出版社,2007,5-65 Dimitri Theodoratos Detecting Redundant Materialized Views in Data Warehouse EvolutionInformation Systems,2001,11(26):363-3816 Belew R.KEvolution Decision Support Systems:An Architecture Based on Information StructureKnowledge Representation for Decision Support System,1985,4(10):30-347 王玲,宋斌,王平立基于数据仓库三层架构的决策支持系统应用研究计算机应用与软件,2007,24(2):69-71