数据库第六章-课程设计.ppt
1,第六章数据库系统设计,2,第6章 数据库系统设计,6.1 数据库设计概述6.2 需求分析6.3 概念结构设计6.4 逻辑结构设计6.5 物理结构设计6.6 数据库的实施和维护,3,6.1 数据库设计概述,什么是数据库设计数据库设计是指对于一个给定的应用环境,构造最优的数据库模型,建立数据库及其应用系统,使之能够有效地存储和管理数据,满足各种用户的应用需求(信息要求和处理要求)在数据库领域内,常常把使用数据库的各类系统统称为数据库应用系统。,4,数据库设计人员应该具备的技术和知识,数据库的基本知识和数据库设计技术计算机科学的基础知识和程序设计的方法和技巧软件工程的原理和方法应用领域的知识,5,6.1.1 数据库设计的基本任务,数据库设计的任务:根据应用领域的信息需求、处理需求和数据库的支持环境,设计出数据模式(包括外模式、逻辑模式和内模式)以及相应的应用程序。其中:信息需求表示应用领域所需要的数据及其结构表达了对数据库的内容及结构的要求,也就是静态要求;处理需求表示应用领域需要进行的数据处理表达了基于数据库的数据处理要求,也就是动态要求;,6,6.1.1 数据库设计的基本任务(续),数据库设计的两个目标 满足应用功能需求是指把用户当前应用以及可预知的将来应用所需要的数据及其联系能全部准确地存放于数据库之中,并能根据用户的需要对数据进行合理的增、删、改、查询等操作。良好的数据库性能是指数据库应具有良好的存储结构、良好的数据共享性、良好的数据完整性、良好的数据一致性及良好的安全保密性能等。,7,6.1.1 数据库设计的基本任务(续),数据库设计的结果不是唯一的,针对同一应用环境,不同的设计者可能得出不同的数据库模式。一个好的数据库设计方法应该能在合理的期限内,以合理的工作量建立一个有合理利用价值的数据库系统。,8,6.1.2 数据库设计的基本步骤,一、数据库设计的准备工作 选定参加设计的人员1.数据库分析设计人员数据库设计的核心人员自始至终参与数据库设计其水平决定了数据库系统的质量,9,6.1.2 数据库设计的基本步骤(续),2.用户在数据库设计中也是举足轻重的主要参加需求分析和数据库的运行维护用户积极参与带来的好处加速数据库设计提高数据库设计的质量3.程序员在系统实施阶段参与进来,负责编制程序4.操作员在系统实施阶段参与进来,准备软硬件环境,10,6.1.2 数据库设计的基本步骤(续),二、数据库设计的过程数据库设计包含:结构设计是指系统整体逻辑模式与子模式的设计,是对数据的分析设计 行为设计是指施加在数据库上的动态操作(应用程序集)的设计,是对应用系统功能的设计,11,6.1.2 数据库设计的基本步骤(续),二、数据库设计的过程按照规范化设计的方法和软件工程生命周期的思想,考虑数据库及其应用系统的开发全过程,将数据库设计分为以下6个阶段,如图P127:6.1所示。,12,6.1.2 数据库设计的基本步骤(续),13,6.1.2 数据库设计的基本步骤(续),二、数据库设计的过程(六个阶段)需求分析阶段准确了解与分析用户需求(包括数据与处理)是整个设计过程的基础,是最困难、最耗费时间的一步设计的内容形成文档资料(数据流图、数据字典),14,6.1.2 数据库设计的基本步骤(续),概念结构设计阶段是整个数据库设计的关键通过对用户需求进行综合、归纳与抽象,形成一个独立于具体DBMS的概念模型ER图逻辑结构设计阶段将概念结构转换为某个DBMS所支持的数据模型对其进行优化,15,6.1.2 数据库设计的基本步骤(续),物理结构设计阶段为逻辑数据模型选取一个最适合应用环境的物理结构(包括存储结构和存取方法)数据库实施阶段运用DBMS提供的数据语言、工具及宿主语言,根据逻辑设计和物理设计的结果建立数据库编制与调试应用程序组织数据入库试运行,16,6.1.2 数据库设计的基本步骤(续),数据库运行和维护阶段数据库应用系统经过试运行后即可投入正式运行。在数据库系统运行过程中必须不断地对其进行评价、调整与修改。设计一个完善的数据库应用系统往往是上述六个阶段的不断反复。设计过程各个阶段的设计描述:P128表6.1,17,CreatLoad,Main()ifthenend,概念结构设计,逻辑结构设计,物理设计,18,6.1.2 数据库设计的基本步骤(续),数据库各级模式的形成过程总结需求分析阶段 综合各个用户的应用需求概念结构设计阶段 形成独立于DBMS产品的概念模式(E-R图)逻辑结构设计阶段首先将E-R图转换成具体的数据库产品支持的数据模型,如关系模型,形成数据库逻辑模式然后根据用户处理的要求、安全性的考虑,在基本表的基础上再建立必要的视图,形成数据的外模式物理结构设计阶段根据DBMS特点和处理的需要,进行物理存储安排,建立索引,形成数据库内模式,19,6.1.3 数据库设计的特点,三分技术,七分管理,十二分基础数据数据库设计应该与应用系统设计相结合结构(数据)设计:设计数据库框架或数据库结构行为(处理)设计:设计应用程序、事务处理等数据库设计方法新奥尔良方法基于E-R模型的数据库设计方法基于3NF(第三范式)的设计方法等,20,6.1.3 数据库设计的特点(续),21,6.1.3 数据库设计的特点(续),数据库设计往往具有以下特征:反复性 试探性 分步进行,22,6.2 需求分析,需求分析就是分析用户的要求 需求分析是设计数据库的起点 需求分析的结果是否准确地反映了用户的实际要求,将直接影响到后面各个阶段的设计,并影响到设计结果是否合理和实用性。,23,6.2.1 需求分析的任务和方法,需求分析的任务:通过详实调查应用领域中各应用的信息要求和操作要求,进行详细分析,明确用户的各种需求。需求分析的目标给出应用领域中数据项、数据项之间的关系和数据操作任务的详细定义,24,6.2.1 需求分析的任务和方法(续),1获得用户对数据库的要求(1)信息要求。指用户需要从数据库中获得信息的内容与性质。信息要求可以导出数据要求,即在数据库中需要存储哪些数据。(2)处理要求。用户要完成什么处理,检索方式有什么要求,被存取的数据量与运行限制等。(3)系统要求。系统要求包括安全性要求、使用方式要求和可扩充性要求3部分内容。,25,6.2.1 需求分析的任务和方法(续),2调查用户需求的步骤(1)调查组织机构情况,分析用户活动,产生业务流程图。组织机构的组成情况各部门的职责各个部门输入和使用什么数据如何加工处理这些数据输出什么信息输出到什么部门输出结果的格式是什么,26,6.2.1 需求分析的任务和方法(续),2调查用户需求的步骤(续)(2)确定新系统范围即确定哪些工作准备由计算机完成,哪些工作由人工完成,计算机完成的功能就是新系统应该实现的功能。协助用户明确对新系统的各种要求:信息要求、处理要求、完全性与完整性要求 对前面调查的结果进行初步分析,确定新系统的边界,27,6.2.1 需求分析的任务和方法(续),3系统需求调查方法(1)查阅原系统有关的数据记录(2)开调查会(3)设计调查表请用户填写(4)请专人介绍(5)跟班作业,28,6.2.1 需求分析的任务和方法(续),调查之后,还需进一步分析和表达用户需求分析和表达用户的需求的常用方法 自顶向下的结构化分析方法(Structured Analysis,简称SA方法)SA方法从最上层的系统组织机构入手,采用自顶向下、逐层分解的方式分析系统,并用数据流图和数据字典描述系统。,29,需求分析过程,30,6.2.2 数据流图,数据流图(Data Flow Diagram,DFD):是一种全面描述系统逻辑模型的主要工具,它是从“数据”和“对数据的加工”两方面表达数据处理系统的一种图形表示法。可以用少数几种符号综合地反映出数据在系统中的流动、存储和处理情况 把系统中的不同业务处理过程联系起来,形成一个整体,31,6.2.2 数据流图(续),DFD由4种基本符号组成:,32,6.2.2 数据流图(续),1数据流数据流由一组确定的数据组成数据流用带有名字的具有箭头的线段表示 名字数据流名,表示流经的数据 箭头流向数据流可以从加工流向加工,也可以从加工流进、流出文件,还可以从源点流向加工或从加工流向终点。,33,6.2.2 数据流图(续),2加工(处理)加工(处理)是对数据进行的操作 把流入的数据流转换为流出的数据流 每个加工都应取一个名字表示它的含义,并规定一个编号用来标识该加工在层次分解中的位置 名字中必须包含一个动词,如“计算”、“打印”等,34,6.2.2 数据流图(续),3文件(数据存储)文件是存储数据的工具文件名应与它的内容一致,写在开口长条内数据流方向表示从文件流入或流出数据流如果是读文件,则数据流的方向应从文件流出写文件时则相反如果是又读又写,则数据流是双向的,35,6.2.2 数据流图(续),4数据源或终点 数据源或终点是指独立于系统而存在的,但是又和系统有联系的实体 表示数据的外部来源和去处,通常是系统之外的人员或组织。,36,6.2.2 数据流图(续),一个简单的数据流图:,37,6.2.2 数据流图(续),SA方法设计各层的数据流图:1首先把任何一个系统都抽象为:,38,6.2.2 数据流图(续),2分解处理功能和数据(1)分解处理功能将处理功能的具体内容分解为若干子功能,再将每个子功能继续分解,直到把系统的工作过程表达清楚为止。(2)分解数据在处理功能逐步分解的同时,其所用的数据也逐级分解,形成若干层次的数据流图 数据流图表达了数据和处理过程的关系(3)表达方法 处理过程:用判定表或判定树来描述 数据:用数据字典来描述,39,6.2.2 数据流图(续),实例:某医院门诊准备采用病人持IC卡就医,对应的数据流图如P132图所示。,40,6.2.2 数据流图(续),实例:病人持IC卡就医-“发卡”模块细化,41,6.2.2 数据流图(续),实例:病人持IC卡就医-“就诊”模块细化,42,6.2.3 数据字典,一、数据字典的用途二、数据字典的内容,43,一、数据字典的用途,数据字典是各类数据描述的集合数据库中数据的描述,即“元数据”,而不是数据本身 数据字典是进行详细的数据收集和数据分析所获得的主要结果数据字典在数据库设计中占有很重要的地位数据字典和数据流图共同构成需求说明书(Specification Documents),是需求分析的阶段成果,是对需求分析结果的最终描述。,44,二、数据字典的内容,对数据流图(DFD)中涉及的各类元素进行规范的描述,就构成了数据字典的基本内容。数据字典所描述的数据内容 数据项 数据结构 数据流 数据存储 处理过程数据项是数据的最小组成单位若干个数据项可以组成一个数据结构数据字典通过对数据项和数据结构的定义来描述数据流、数据存储的逻辑内容。在数据库设计过程中,数据字典中的内容是不断充实和完善的。,45,数据项,数据项是不可再分的数据单位 对数据项的描述数据项描述数据项名,数据项含义说明,别名,数据类型,长度,取值范围,取值含义,与其他数据项的逻辑关系 取值范围、与其他数据项的逻辑关系定义了数据的完整性约束条件,46,数据项(续),例6.2 对“IC卡卡号”的数据项说明。数据项:IC卡卡号含义说明:唯一标识每张卡别名:医疗卡卡号类型:字符型长度:10取值范围:00000000009999999999取值含义:前4位标识该患者所在地区编号与其他数据项的逻辑关系:N/A,47,数据结构,数据结构反映了数据之间的组合关系。一个数据结构可以由若干个数据项组成,也可以由若干个数据结构组成,或由若干个数据项和数据结构混合组成。对数据结构的描述数据结构描述数据结构名,含义说明,组成:数据项或数据结构,48,数据结构(续),例6.3 对“病人”数据结构说明。数据结构:病人含义说明:是就诊系统的主体数据结构,定义了一个病人的有关信息组成:病人编号,姓名,性别,出生日期,籍贯,住址,电话,备注,49,数据流,数据流是数据结构在系统内传输的路径。对数据流的描述数据流描述数据流名,说明,数据流来源,数据流去向,组成:数据结构,平均流量,高峰期流量数据流来源是说明该数据流来自哪个过程数据流去向是说明该数据流将到哪个过程去平均流量是指在单位时间(每天、每周、每月等)里的传输次数高峰期流量则是指在高峰时期的数据流量,50,数据流(续),例6.4 对“挂号票”数据流说明。数据流:挂号票说明:病人挂号后得到的票据数据流来源:挂号数据流去向:就诊组成:平均流量:高峰期流量:,51,数据存储,数据存储是数据结构停留或保存的地方,也是数据流的来源和去向之一。对数据存储的描述数据存储描述数据存储名,说明,编号,流入的数据流,流出的数据流,组成:数据结构,数据量,存取方式流入的数据流:指出数据来源流出的数据流:指出数据去向数据量:每次存取多少数据,每天(或每小时、每周等)存取几次等信息存取方法:批处理/联机处理;检索/更新;顺序检索/随机检索,52,数据存储(续),例6.5 对“病史数据”的数据存储说明。数据存储:病史数据说明:记录病人所有病史资料流入数据流:填写流出数据流:查阅数据量:由病人就诊次数决定存取方式:随机存取,53,处理过程,处理过程的具体处理逻辑一般用判定表或判定树来描述。数据字典中只需要描述处理过程的说明性信息处理过程说明性信息的描述处理过程描述处理过程名,说明,输入:数据流,输出:数据流,处理:简要说明,54,5.处理过程(续),简要说明:主要说明该处理过程的功能及处理要求功能:该处理过程用来做什么处理要求:处理频度要求(如单位时间里处理多少事务,多少数据量);响应时间要求等处理要求是后面物理设计的输入及性能评价的标准,55,处理过程(续),例6.6 对“诊断”的处理过程说明。处理过程:诊断说明:病人在医生处获得诊断结果输入:挂号票输出:处方或化验单处理:病人挂号后,获取挂号单到某科室医生处就医,医生经过检查和查看病人过往病史,得出诊断结果;将病人就医情况等信息记入病人的病史数据库中;并开出处方或者化验单,让病人取药或者化验。,56,6.3 概念结构设计,什么是概念结构设计需求分析阶段描述的用户应用需求,是现实世界的具体需求将需求分析得到的用户需求抽象为信息结构即概念模型的过程就是概念结构设计概念结构是各种数据模型的共同基础,它比数据模型更独立于机器、更抽象,从而更加稳定。概念结构设计是整个数据库设计的关键,57,6.3.1 概念结构的特点及设计方法,58,6.3.1 概念结构的特点及设计方法(续),概念结构设计的特点(1)语义表达能力强。能真实、充分地反映现实世界,包括实体和实体之间的联系,概念模型是现实世界的一个真实模型。(2)易于向关系、网状、层次等各种数据模型转换。(3)易于理解。可以用它和不熟悉计算机的用户交换意见,使用户易于参与。(4)易于更改。当应用环境和应用要求改变时,容易对概念模型修改和扩充。,59,6.3.1 概念结构的特点及设计方法(续),描述概念模型的工具:E-R模型,60,6.3.1 概念结构的特点及设计方法(续),概念结构的设计集中式模式设计法首先将需求说明综合成一个统一的需求说明,然后,在此基础上设计全局数据模式,再根据全局数据模式为各个用户组或应用定义数据库逻辑设计模式。一般用于小型的、不太复杂的系统。视图集成法 分别以各局部应用的需求说明设计各自的模式(局部视图),然后以这些视图为基础,集成为一个全局模式。常用的方法,61,6.3.1 概念结构的特点及设计方法(续),视图集成法设计概念结构的四类方法:自顶向下 首先定义全局概念结构的框架,然后逐步细化自底向上 首先定义各局部应用的概念结构,然后将它们集成起来,得到全局概念结构,62,6.3.1 概念结构的特点及设计方法(续),逐步扩张 首先定义最重要的核心概念结构,然后向外扩充,以滚雪球的方式逐步生成其他概念结构,直至总体概念结构混合策略 将自顶向下和自底向上相结合,用自顶向下策略设计一个全局概念结构的框架,以它为骨架集成由自底向上策略中设计的各局部概念结构。,63,6.3.1 概念结构的特点及设计方法(续),自顶向下策略,64,6.3.1 概念结构的特点及设计方法(续),自底向上策略,65,6.3.1 概念结构的特点及设计方法(续),逐步扩张,66,6.3.1 概念结构的特点及设计方法(续),常用策略自顶向下地进行需求分析自底向上地设计概念结构自底向上设计概念结构的步骤第1步:抽象数据并设计局部视图第2步:集成局部视图,得到全局概念结构,67,6.3.2 概念结构设计的步骤,1、数据抽象 概念结构是对现实世界的一种抽象 从实际的人、事、物和概念中抽取所关心的共同特性,忽略非本质的细节 把这些特性用各种概念精确地加以描述 这些概念组成了某种模型,68,6.3.2 概念结构设计的步骤(续),1、三种常用抽象(1)分类(Classification)定义某一类概念作为现实世界中一组对象的类型这些对象具有某些共同的特性和行为它抽象了对象值和型之间的“is member of”的语义在E-R模型中,实体型就是这种抽象例:P136图6.8,69,6.3.2 概念结构设计的步骤(续),1、三种常用抽象(续)(2)聚集(Aggregation)定义某一类型的组成成分它抽象了对象内部类型和成分之间“is part of”的语义在E-R模型中若干属性的聚集组成了实体型,就是这种抽象例:P136图6.9,70,6.3.2 概念结构设计的步骤(续),1、三种常用抽象(续)(3)概括(Generalization)定义类型之间的一种子集联系它抽象了类型之间的“is subset of”的语义概括有一个很重要的性质:继承性。子类继承超类上定义的所有抽象。例:P136图6.10,71,6.3.2 概念结构设计的步骤(续),数据抽象的用途对需求分析阶段收集到的数据进行分类、组织(聚集),形成实体实体的属性,标识实体的码确定实体之间的联系类型(1:1,1:n,m:n),72,6.3.2 概念结构设计的步骤(续),2、抽象数据并设计局部视图(E-R图)设计分E-R图的步骤:(1)选择局部应用(2)逐一设计分E-R图,73,(1)选择局部应用,需求分析阶段,已用多层数据流图和数据字典描述了整个系统。设计分E-R图首先需要根据系统的具体情况,确定局部结构的范围划分,然后设计每个局部结构的分E-R图。依据系统的当前用户进行自然划分 按照用户要求数据库提供的服务归纳成几类,使每一类应用访问的数据显著的不同于其他类,然后为每类应用设计一个局部E-R图。,74,(1)选择局部应用(续),例如,医院的门诊数据库可以按提供的服务大致分成以下几类:(1)医务人员档案信息(如姓名、年龄、性别和职务等)的维护。(2)患者档案信息(如姓名、年龄、性别和地址等)的维护。(3)药品档案信息(如药名、疗效、价格和供应商)的维护。(4)医疗器材档案信息(如器材名、适用范围、价格和供应商)的维护。(5)门诊情况档案信息(如患者名、医生名称、时间和患病情况)的维护等。,75,(2)逐一设计分E-R图,任务标定局部应用中的实体、属性、码,实体间的联系将各局部应用涉及的数据分别从数据字典中抽取出来,参照数据流图,标定各局部应用中的实体、实体的属性、标识实体的键,确定实体之间的联系及其类型(1:1,1:n,m:n)务必要使局部实体集间的联系准确地描述应用领域中各事物之间的联系。,76,(2)逐一设计分E-R图(续),例6.7 对医院的门诊数据库“就诊”模块:分析知道有实体“IC卡”、“病人”、以及这两个实体之间存在1:1的关系,77,(2)逐一设计分E-R图(续),例6.7 对医院的门诊数据库“就诊”模块:分析知道有实体“医务人员”、“处方单”、以及这两个实体之间存在1:n的关系,78,6.3.2 概念结构设计的步骤(续),3、集成局部视图,得到全局概念结构各个局部视图即分E-R图建立好后,还需要对它们进行合并,集成为一个整体的概念结构即总E-R图。,79,3、视图的集成(续),视图集成的两种方式 一次集成(P138图6.15)一次集成多个分E-R图通常用于局部视图比较简单时 逐步集成(P138图6.16)首先集成两个局部视图(通常是比较关键的两个局部视图)以后每次将一个新的局部视图集成进来,80,3、视图的集成(续),集成局部E-R图的步骤(1)合并局部E-R图,生成初步E-R图(2)修改与重构:消除不必要的冗余,生成基本E-R图。,81,3、视图的集成(续),82,(1)合并分E-R图,生成初步E-R图,各分图存在冲突各个局部应用所面向的问题不同由不同的设计人员进行设计各个分E-R图之间必定会存在许多不一致的地方合并分E-R图的主要工作与关键所在:合理消除各分E-R图的冲突冲突的种类属性冲突命名冲突结构冲突,83,1)属性冲突,两类属性冲突属性域冲突:属性值的类型、取值范围或取值集合不同。例:IC卡卡号是数字,因此某些部门将卡号定义为整数形式,有的部门将卡号定义为字符型形式。属性取值单位冲突。例:药品有的以克为单位,有的以个数为单位,有的以毫升为单位等。属性冲突的解决方法通常用讨论、协商等行政手段加以解决,84,2)命名冲突,两类命名冲突同名异义不同意义的对象在不同的局部应用中具有相同的名字 例,局部应用A中将教室称为房间 局部应用B中将学生宿舍称为房间异名同义(一义多名)同一意义的对象在不同的局部应用中具有不同的名字 例,有些患者将医生称为医生,有些患者将医生称为大夫。,85,2)命名冲突(续),命名冲突可能发生在属性级、实体级、联系级上。其中属性的命名冲突更为常见。命名冲突的解决方法通过讨论、协商等行政手段加以解决,86,3)结构冲突,三类结构冲突同一对象在不同应用中具有不同的抽象 例,“药品”在某一局部应用中被当作实体,在另一局部应用中则被当作属性。解决方法:通常是把属性变换为实体或把实体变换为属性,使同一对象具有相同的抽象。,87,3)结构冲突(续),同一实体在不同局部视图中所包含的属性不完全相同,或者属性的排列次序不完全相同。产生原因:不同的局部应用关心的是该实体的不同侧面。解决方法:使该实体的属性取各分E-R图中属性的并集,再适当设计属性的次序。,88,3)结构冲突(续),实体之间的联系在不同局部视图中呈现不同的类型例6.15 在局部应用中医疗设备和零件之间是m:n联系,而在另一局部应用中医疗设备、零件和设备商3者之间是m:n:p的联系,分别如P140图6.19(a)和6.19(b)所示,合并后如图6.19(c)所示。,89,3)结构冲突(续),90,(2)修改与重构,基本任务消除不必要的冗余,设计生成基本E-R图,91,(2)修改与重构(续),1)冗余冗余的数据是指可由基本数据导出的数据,冗余的联系是指可由其他联系导出的联系。冗余数据和冗余联系容易破坏数据库的完整性,给数据库维护增加困难并不是所有的冗余数据与冗余联系都必须加以消除,有时为了提高某些应用的效率,不得不以冗余信息作为代价。设计数据库概念结构时,哪些冗余信息必须消除,哪些冗余信息允许存在,需要根据用户的整体需求来确定。消除不必要的冗余后的初步E-R图称为基本E-R图。,92,(2)修改与重构(续),2)消除冗余的方法分析方法以数据字典和数据流图为依据,根据数据字典中关于数据项之间逻辑关系的说明来消除冗余。如果是为了提高效率,人为地保留了一些冗余数据,则应把数据字典中数据关联的说明作为完整性约束条件。一种更好的方法是把冗余数据定义在视图中规范化理论函数依赖的概念提供了消除冗余联系的形式化工具,93,4、验证整体概念结构,概念集成后形成一个整体的数据库概念结构,对该整体概念结构还必须进行进一步验证,确保它能够满足下列条件:整体概念结构内部必须具有一致性,不存在互相矛盾的表达。整体概念结构能准确地反映原来的每个视图结构,包括属性、实体及实体间的联系。整体概念结构能满足需求分析阶段所确定的所有要求。,94,4、验证整体概念结构(续),整体概念结构最终还应该提交给用户,征求用户和有关人员的意见,进行评审、修改和优化,然后把它确定下来,作为数据库的概念结构,并作为进一步设计数据库的依据。,95,概念结构设计小结,概念结构设计的步骤抽象数据并设计局部视图集成局部视图,得到全局概念结构验证整体概念结构,96,概念结构设计小结,设计局部视图 选择局部应用 逐一设计分E-R图标定局部应用中的实体、属性、码,实体间的联系用E-R图描述出来,97,概念结构设计小结,集成局部视图1.合并分E-R图,生成初步E-R图消除冲突属性冲突命名冲突结构冲突2.修改与重构消除不必要的冗余,设计生成基本E-R图分析方法规范化理论,98,6.4 逻辑结构设计,逻辑结构设计的任务概念结构是各种数据模型的共同基础为了能够用某一DBMS实现用户需求,还必须将概念结构进一步转化为相应的数据模型,这就是数据库逻辑结构设计所要完成的任务。,99,6.4 逻辑结构设计(续),逻辑结构设计的步骤将概念结构转化为一般的关系、网状、层次模型将转化来的关系、网状、层次模型向特定DBMS支持下的数据模型转换对数据模型进行优化,100,逻辑结构设计,转化为一般数据模型,转化为特定DBMS支持下的据模型,优化模型,概念结构设计,数据库物理设计,基本E-R图,转换规则,特定DBMS的特点与限制,优化方法如规范化理论,逻辑模型,101,6.4.1 E-R图向关系模型的转换,转换内容E-R图由实体、实体的属性和实体之间的联系三个要素组成关系模型的逻辑结构是一组关系模式的集合将E-R图转换为关系模型:将实体、实体的属性和实体之间的联系转化为关系模式。转换原则,102,6.4.1 E-R图向关系模型的转换(续),转换原则1、实体集的转换 一个实体集转换为一个关系模式。关系的属性:实体的属性 关系的键:实体的键例6.17 将“就诊”模块中“医院职工”和“处方单”两个实体集转换成两个关系模式医院职工和处方单。转化后的关系模式如下医院职工(职工编号,姓名,出生日期,性别,职务,科室)处方单(处方单编号,日期,处方,备注),103,6.4.1 E-R图向关系模型的转换(续),2、两个实体间的1:1联系一般不单独转换为关系模式,而是与所联系的两个实体中任一实体对应的关系模式合并,即在这一关系模式中加入另一个实体对应的关系模式的键和联系本身的属性。与某一端实体对应的关系模式合并合并后关系的属性:加入对应关系的键(成为该关系模式的外键)和联系本身的属性合并后关系的键:不变,104,6.4.1 E-R图向关系模型的转换(续),例如:“IC卡”和“病人”这两个实体之间存在1:1联系,可以在“IC卡”关系中增加一个“用户编号”属性,如下所示病人(用户编号,姓名,性别,出生日期,地址,电话)IC卡(卡号,用户编号,余额,发行日期),105,6.4.1 E-R图向关系模型的转换(续),3、两个实体间的1:n联系一般也不单独转换为关系模式,而是与n端对应的关系模式合并。与n端对应的关系模式合并合并后关系的属性:在n端关系中加入1端关系的键和联系本身的属性合并后关系的键:不变,106,6.4.1 E-R图向关系模型的转换(续),例6.18 病人、医院职工、处方单之间存在两个1:n联系,如图6.22所示,将其转换为关系模式。将病人、医院职工、处方单3个实体以及联系转换成关系模式为病人(用户编号,姓名,出生日期,性别,地址,电话)医院职工(职工编号,姓名,出生日期,性别,职务,科室)处方单(处方单编号,日期,处方,备注,用户编号,职工编号),107,6.4.1 E-R图向关系模型的转换(续),4、两个实体间的m:n联系 m:n联系单独转换为一个关系模式。关系的属性:与该联系相连的各实体的键以及联系本身的属性 关系的键:各实体键的组合例6.19 处方单和药品之间存在m:n联系,如图6.23所示,转换为关系模式。处方单关系模式上例已完成,其余两个关系模式如下药品(药品编号,名称,单价,厂商,药效)处方药品(处方单编号,药品编号,数量),108,6.4.1 E-R图向关系模型的转换(续),5、三个或三个以上实体间的一个多元联系转换为一个关系模式。关系的属性:与该多元联系相连的各实体的键以及联系本身的属性 关系的键:实体键的组合6、同一实体集的实体间的联系,即自联系,也可按上述两个实体间的 1:1、1:n和m:n三种情况分别处理。7、具有相同键的关系模式可以合并。目的:减少系统中的关系个数。,109,向特定DBMS规定的模型进行转换,一般的数据模型还需要向特定DBMS规定的模型进行转换。转换的主要依据是所选用的DBMS的功能及限制。没有通用规则。对于关系模型来说,这种转换通常都比较简单。,110,6.4.2 数据模型的优化,数据库逻辑设计的结果不是唯一的。得到初步数据模型后,还应该适当地修改、调整数据模型的结构,以进一步提高数据库应用系统的性能,这就是数据模型的优化。关系数据模型的优化通常以规范化理论为指导。,111,6.4.2 数据模型的优化(续),优化数据模型的方法 确定数据依赖按需求分析阶段所得到的语义,分别写出每个关系模式内部各属性之间的数据依赖以及不同关系模式属性之间数据依赖。消除冗余对于各个关系模式之间的数据依赖进行极小化处理,消除冗余的联系。,112,6.4.2 数据模型的优化(续),3.确定关系模式范式按照数据依赖的理论对关系模式逐一进行分析,考查是否存在部分函数依赖、传递函数依赖、多值依赖等,确定各关系模式分别属于第几范式。4确定关系模式是否合并或分解 按照需求分析阶段得到的各种应用对数据处理的要求,分析对于这样的应用环境这些模式是否合适,确定是否要对它们进行合并或分解。,113,6.4.2 数据模型的优化(续),并不是规范化程度越高的关系就越优。当一个应用的查询中经常涉及到两个或多个关系模式的属性时,系统必须经常地进行连接运算,而连接运算的代价是相当高的。非BCNF的关系模式虽然从理论上分析会存在不同程度的更新异常,但如果在实际应用中对此关系模式只是查询,并不执行更新操作,则就不会产生实际影响。对于一个具体应用来说,到底规范化进行到什么程度,需要权衡响应时间和潜在问题两者的利弊才能决定。一般说来,第三范式就足够了。例:6.20,114,6.4.2 数据模型的优化(续),5、关系模式的分解按照需求分析阶段得到的各种应用对数据处理的要求,对关系模式进行必要的分解或合并,以提高数据操作的效率和存储空间的利用率常用分解方法水平分解垂直分解,115,6.4.2 数据模型的优化(续),水平分解什么是水平分解把(基本)关系的元组分为若干子集合,定义每个子集合为一个子关系,以提高系统的效率。水平分解的适用范围1.满足“80/20原则”的应用80/20原则:一个大关系中,经常被使用的数据只是关系的一部分,约20%把经常使用的数据分解出来,形成一个子关系,可以减少查询的数据量。2.并发事务经常存取不相交的数据如果关系R上具有n个事务,而且多数事务存取的数据不相交,则R可分解为少于或等于n个子关系,使每个事务存取的数据对应一个关系。,116,6.4.2 数据模型的优化(续),垂直分解什么是垂直分解把关系模式R的属性分解为若干子集合,形成若干子关系模式。垂直分解的原则经常在一起使用的属性从R中分解出来形成一个子关系模式。垂直分解的优点可以提高某些事务的效率垂直分解的缺点可能使另一些事务不得不执行连接操作,从而降低了效率。,117,6.4.2 数据模型的优化(续),垂直分解的适用范围取决于分解后R上的所有事务的总效率是否得到了提高。进行垂直分解的方法简单情况:直观分解复杂情况:用第五章中的模式分解算法垂直分解必须不损失关系模式的语义(保持无损连接性和保持函数依赖)。,例:图6.21所对应的所有关系模式?,118,6.4.3 外模式设计,定义数据库模式主要是从系统的时间效率、空间效率、易维护等角度出发。定义用户外模式时应该更注重考虑用户的习惯与方便。包括三个方面:(1)使用更符合用户习惯的别名(2)针对不同级别的用户定义不同的外模式,以满足系统对安全性的要求。(3)简化用户对系统的使用如果某些局部应用中经常要使用某些很复杂的查询,为了方便用户,可以将这些复杂查询定义为视图。,例6.21,119,6.5 物理结构设计,什么是数据库的物理结构设计数据库在物理设备上的存储结构与存取方法称为数据库的物理结构,它依赖于给定的计算机系统。为一个给定的逻辑数据模型选取一个最适合应用环境的物理结构的过程,就是数据库的物理设计。,120,6.5 物理结构设计(续),数据库物理设计,也就是设计数据库的内模式。内模式不直接面向用户,因此,内模式的设计不需要考虑用户理解的需要主要设计目标:一是提高数据库的性能,特别是满足主要应用的性能要求二是有效地利用存储空间。,121,6.5 物理结构设计(续),数据库物理设计的步骤确定数据库的物理结构对物理结构进行评价,评价的重点是时间和空间效率,122,6.5.1 物理结构设计的内容和方法,不同的数据库产品所提供的物理环境、存取方法和存储结构有很大差别供设计人员使用的设计变量、参数范围也很不相同没有通用的物理设计方法可以遵循,只能给出一般的设计内容和原则,希望能够合理的优化数据库物理结构,使得各种事务的响应时间最小,事务吞吐率最高。,123,6.5.1 物理结构设计的内容和方法(续),设计数据库物理结构的准备工作 1.充分了解应用环境,详细分析要运行的事务,以获得选择数据库物理结构设计所需参数 2.充分了解所用RDBMS的内部特征,特别是系统提供的存取方法和存储结构,124,6.5.1 物理结构设计的内容和方法(续),选择数据库物理结构设计所需参数 数据库查询事务 查询的关系 查询条件所涉及的属性 连接条件所涉及的属性 查询的投影属性数据更新事务被更新的关系每个关系上的更新操作条件所涉及的属性修改操作要改变的属性值 每个事务在各关系上运行的频率和性能要求,125,6.5.1 物理结构设计的内容和方法(续),数据库系统是多用户共享的系统,对同一个关系要建立多条存取路径才能满足多用户的多种应用要求。物理设计的第一个任务就是要确定选择哪些存取方法,即建立哪些存取路径。,126,6.5.1 物理结构设计的内容和方法(续),DBMS常用存取方法索引方法,目前主要是B+树索引方法聚簇(Cluster)方法HASH方法,127,1、索引方法,选择索引存取方法的主要内容根据应用要求确定在哪些表上建立索引在表的哪些列上建立索引,建立什么样的索引对哪个属性列建立索引对哪些属性列建立组合索引对哪些索引要设计为唯一索引,128,1、索引方法(续),选择索引存取方法的一般规则:(1)主键和外键上一般都建有索引。(2)如果一个(或一组)属性经常在连接操作的连接条件中出现,则考虑在这个(或这组)属性上建立索引。(3)对于以读为主或只读的表,只要需要且存储空间又允许,可以多建索引。,129,1、索引方法(续),选择索引存取方法的一般规则(续):(4)对于等值查询,如果满足条件的元组是少量的,如小于5%,且存储空间允许,可以考虑在有关属性上建立索引。(5)对于范围查询(即查询条件以、等为比较符),可以在有关属性上建立索引。(6)如果一个(或一组)属性经常作为最大值和最小值等聚集函数的参数,则考虑在这个(或这组)属性上建立索引。,130,1、索引方法(续),选择索引存取方法的一般规则(续):满足下列条件之一,则不宜建立索引。(1)很少出现在查询条件中的属性。(2)属性取值很少的属性。(3)属性值分布严重不均的属性。(4)经常更新的属性或表,因为更新时有关的索引需要做相应的修改。(5)过长的属性。(6)太小的表。,131,2、聚簇方法,什么是聚簇为了提高某个属性(或属性组)的查询速度,把这个或这些属性(称为聚簇码)上具有相同值的元组集中存放在连续的物理块称为聚簇许多关系型DBMS都提供了聚簇功能,132,2、聚簇方法(续),在一个基本表上最多只能建立一个聚簇聚簇的适用范围:(1)通过聚簇键进行访问或连接是该表的主要应用,与聚簇键无关的其他访问很少,或是