管理信息系统 第3章ppt课件.ppt
教学内容数据管理的发展数据库系统的产生与构成数据库管理系统的五个软件组成部分数据仓库的主要特征,第3章 数据库与数据仓库,3.1 数据管理的发展文件系统阶段,籍贯,存在问题:,1、数据冗余与数据不一致性,2、数据联系弱,3、缺少数据字典,缺乏灵活性,传统文件处理系统,数据库系统阶段,数据1,统一存取,数据2,数据n,程序2,程序1,程序n,学号,姓名,性别,系别,年龄,住址,籍贯,学位,学分,补贴,学籍科,房产科,人事科,劳资科,两种数据管理方式的对比,数据库是统一管理的相关数据的集合。,3.2 数据库系统的产生与构成,数据库不仅存放数据,而且还要存放数据和数据之间的联系。,表示数据和数据之间的联系的方法称为数据模型。,数据库系统的诞生(20世纪60年代末和70年代初),1)层次数据模型IMS(Information Management System) 1968年研制成功、1969年形成产品的。,3.2 数据库系统的产生与构成,层次模型用树形结构表示客观事物之间联系的模型。,2)网状数据模型DBTG 美国数据系统语言协会(Conference On Data System Language)下属的数据库任务组(Database Task Group)发表了若干个报告,奠定了数据库的很多概念、方法和技术。,网状模型 (Network Model)用网络结构表示客观事物之间联系的数据模型。,3) 关系数据模型1970年, IBM公司的研究员E.F.Codd发表了论文“大型共享数据库的关系模型”,为关系数据库的发展奠定了理论基础。,关系模型 (Relational Model)用二维表表示实体与实体之间联系的模型。,仓库,器件,仓库,器件,库存,关系数据结构,1)候选码是表中一列或多列的组合,其值惟一标识了表中的一个元组。2)主码若一个关系有多个候选码,选定其中一个为主码。主码的诸属性称为主属性。3)非码属性不包含在任何候选码中的属性。4)全码关系模式的所有属性组是这个关系模式的候选码。,关系数据结构,5)外部关键字(外部码)设F是基本关系R的一个或一组属性,但不是关系R的码,如果F与基本关系S的主码Ks相对应,则称F是基本关系R的外部码,简称外码。并称基本关系R为参照关系(Referencing relation),或从表,基本关系S为被参照关系(Referenced relation)、目标关系(Target relation)或主表。关系R和S不一定是不同的关系,但是Ks与F是定义在同一域中的。,列、属性,行、元组,主码(PRIMARY KEY),学生基本信息表,关系数据结构,域(DOMAIN),关系名,3.3 数据库设计,现实世界,观念世界,数据世界,人们头脑之外的客观世界,它包含客观事物及其相互联系,信息世界,是现实世界在人们头脑中的反映,现实世界中的事物及其联系,在数据世界中用数据模型描,1)数据库设计的步骤,现实世界,观念世界,数据世界,用户需求分析,概念结构设计,逻辑结构设计,物理结构设计,E-R图,数据模型,概念结构设计,逻辑结构设计,2)信息的转换,客观 事物类:事物 相关性质集合,人,实体 实体集合及 实体联系 相关属性集合,加工、转换,数 文件据 记录库 相关数据项集合,加工转换,存储 二进制数据集合结构,计算机世界,DBMS,数据世界,DBMS的数据模型,信息世界,认识选择描述,现实世界,E-R模型,3)实体联系模型(E-R模型),实体联系模型反映的是现实世界中的事物及其相互联系。,图书,作者,写作,出版社,类别,页数,ISBN*,书名,姓名,出生地,身份证号*,定稿时间,价格,(1)实体(Entity) 描述客观事物的概念,实体名称,表示方法:,(2)属性 指实体具有的某种特性。,表示方法:,属性,实体名称,属性1,属性2,属性n,(3)联系 现实世界的事物总是存在着这样或那样的联系,联系,表示方法:,联系的类型,设A,B为两个包含若干个体的总体,一对一联系 如果对于A中的一个实体,B中至多有一个实体与其发生联系,反之,B中的每一实体至多对应A中一个实体,则称A与B是一对一联系。,系,系主任,任职,1,1,一对多联系 如果对于A中的每一实体,实体B中有一个以上实体与之发生联系,反之,B中的每一实体至多只能对应于A中的一个实体,则称A与B是一对多联系。,多对多联系 如果A中至少有一实体对应于B中一个以上实体,反之,B中也至少有一个实体对应于A中一个以上实体,则称A与B为多对多联系。,ER图绘制,图书,作者,写作,出版社,类别,页数,ISBN*,书名,姓名,出生地,身份证号*,定稿时间,价格,1、利用分类、聚集、概括等方法抽象出实体,并一一命名。,2、描述实体之间的联系,3、实体属性和联系属性的说明,构造E-R图应注意的问题:,1、注意标识实体属性中的关键字;,2、如果所处理的对象是一个比较大的系统,则应该先画出各个部门的子E-R图,然后再合并同类实体,消除冗余。,3、对于一个特定的应用处理对象,所构造的E-R模型可能不是唯一的。,m,n,1,m,关系数据库概念模型的设计ER模型,4)关系数据库的数据模型设计ER模型转化为关系模型,E-R模型向关系模型的转换,实际上就是要将实体、属性和联系转化为关系模式,转换规则如下:(1)一个实体型转换为一个同名的关系模式。实体的属性就是关系的属性,实体的码就是关系的码。(2)一个1:1联系可以转换为一个独立的关系模式,也可以与任意一端对应的关系模式合并,该联系的码可以是任一端的实体的码。(3)一个1:n联系可以转换为一个独立的关系模式,也可以与n端对应的关系模式合并,则n端实体的码就是该联系的码。,(4)一个m: n联系转换为一个关系模式,与该联系相连的各实体的码的集合就是该联系的码。(5)3个或3个以上实体间的一个多元联系转换为一个关系模式。(6)同一实体集的实体间的联系,即自联系,也可按上述1:1,1:n和m:n三种情况分别处理。(7)具有相同码的关系模式可以合并。,4)关系数据库的数据模型设计ER模型转化为关系模型,实例,S(SNO,SNAME,DEPT),学生,姓名,学号,系别,实例,厂长号,姓名,年龄,厂号,厂名,地点,管理,1,1,厂长(厂长号,厂号,姓名,年龄),工厂(厂号,厂名,地点),工厂,厂长,仓库(仓库号,地点,面积),产品(货号,品名,价格,仓库号,数量),仓库号,地点,面积,仓库,货号,品名,价格,产品,存放,1,n,数量,实例,学生(学号,姓名,年龄),课程(课程号,课程名,学时数),学习(学号,课程号,成绩),实例,实例 数据库设计,在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。,3.4 数据仓库与商务智能,一个意外的发现是:“跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在”尿布与啤酒“背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。,3.4 数据仓库与商务智能,当前数据仓库和数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。结合武汉市房贷案例,说明房产、银行、民政等数据孤岛数据怎样实现整合。结合移动套餐、保险精算案例,说明数据分析挖掘的作用。,3.4 数据仓库与商务智能,1)数据仓库与数据库,何为数据仓库?前面提到的企业/单位投资信息化,他们不停上信息化系统,比如ERP、CRM、Call Center、OA或者计费等。但上了这些系统后,会产生大量数据,客户首先的需求是查询和报表。但很多报表和查询是需要跨系统,而且复杂查询和报表很耗 资源,可能影响各个系统的正常运行。于是上世纪80年代人们专门建设一个数据库系统,把各个系统的数据拿到那里进行准确的查询和报表制作,这样既方便又准备,而 且不会影响业务系统。那么从这点说,数据仓库是全数据的集合。,1)数据仓库与数据库,何为数据仓库?数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。,1)数据仓库与数据库,数据库与数据仓库的区别数据库解决数据存储、查询以及自动记录;面向基本数据,实现数据的放进去、查出来;银行的基本业务,账目进出,报表,线性统计等;面向相对静止的数据,分析查询,面向应用方向使用目标不同了,宏观技术性强银行的储蓄、结算、分析,2)数据中心,何为数据中心?如果是针对具体的企业或者单位,其实就是业务系统数据存储技术+数据仓库数据中心要求不同来源、类型的数据集成在一起,综合分析,屏蔽掉多个接口的复杂性,实现公共信息平台的作用。,2)数据中心,何为数据中心?当然有的单位干脆只有数据仓库,比如科研单位,他们不作 业务处理,只有分析需求。如果是互联网公司,就和普通企业和单位的数据中心不同,因为互联网的信息实在庞大,不可能包罗所有信息到数据库,也处理不了那 么多信息,所以他们的数据中心的其中作用就是加强互联网数据的处理速度和效果;另一个作用也是数据仓库,但他们的数据仓库就不会包含所有互联网信息,而是企业本身关心的信息,当然数据量也非常大,一般十TB以上。,3)数据迁移与清洗,数据清洗从名字上也看的出就是把“脏”的“洗掉”。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,成为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗.而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。,4)数据仓库三层架构,原始业务数据采集层数据仓库中心统计数据展现与发布层,7) OLAP,联机分析处理(Online Analytical Processing,OLAP)是数据仓库的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。决策数据是多维数据,多维数据就是决策的主要内容。OLAP直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。,7) OLAP,在数据仓库和数据集市中,信息是多维的,立方体是表示多维信息的常用术语。下图所示的立方体通过时间、地理位置、产品类型三个维度描述产品的销售情况。,7) OLAP,信息立方体建立后,用户就可以使用多维数据集,采用旋转(Pivot)、上钻(Roll_up)和下钻(Drill_down)、切片(Slice)和切块(Dice)等技术,从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。,7) OLAP,1)旋转,7) OLAP,2)钻取,7) OLAP,3)切片和切块,2010年6月产品订购情况,客户维,案例分析 达梦数据库及数据仓库系统案例分析 数据挖掘与商务智能,