数据库系统基础.ppt
数据库系统概论An Introduction to Database System第七章 数据库设计(续-3),第七章 数据库设计,7.5 数据库的物理设计,什么是数据库的物理设计数据库在物理设备上的存储结构与存取方法称为数据库的物理结构.为一个给定的逻辑数据模型选取一个最适合应用环境的物理结构的过程,就是数据库的物理设计。,7.5 数据库的物理设计,数据库物理设计的步骤确定数据库的物理结构对物理结构进行评价,评价的重点是时间和空间效率如果评价结果满足原设计要求则可进入到物理实施阶段,否则,就需要重新设计或修改物理结构,有时甚至要返回逻辑设计阶段修改数据模型。,7.5 数据库的物理设计,7.5.1 数据库的物理设计的内容和方法7.5.2 关系模式存取方法选择7.5.3 确定数据库的存储结构7.5.4 评价物理结构,6.5.1 数据库的物理设计的内容和方法,设计物理数据库结构的准备工作 1.充分了解应用环境,详细分析要运行的事务,以获得选择物理数据库设计所需参数 2.充分了解所用RDBMS的内部特征,特别是系统提供的存取方法和存储结构,数据库的物理设计的内容和方法(续),选择物理数据库设计所需参数 数据库查询事务查询的关系 查询条件所涉及的属性 连接条件所涉及的属性 查询的投影属性,数据库的物理设计的内容和方法(续),选择物理数据库设计所需参数(续)数据更新事务被更新的关系每个关系上的更新操作条件所涉及的属性 修改操作要改变的属性值 每个事务在各关系上运行的频率和性能要求,数据库的物理设计的内容和方法(续),关系数据库物理设计的内容1.为关系模式选择存取方法(建立存取路径)2.设计关系、索引等数据库文件的物理存储结构,7.5 数据库的物理设计,7.5.1 数据库的物理设计的内容和方法7.5.2 关系模式存取方法选择7.5.3 确定数据库的存储结构7.5.4 评价物理结构,6.5.2 关系模式存取方法选择,数据库系统是多用户共享的系统,对同一个关系要建立多条存取路径才能满足多用户的多种应用要求。物理设计的第一个任务就是要确定选择哪些存取方法,即建立哪些存取路径。,关系模式存取方法选择(续),DBMS常用存取方法索引方法,目前主要是B+树索引方法聚簇(Cluster)方法HASH方法,一、索引存取方法的选择,选择索引存取方法的主要内容根据应用要求确定 对哪些属性列建立索引 对哪些属性列建立组合索引 对哪些索引要设计为唯一索引,索引存取方法的选择(续),选择索引存取方法的一般规则如果一个(或一组)属性经常在查询条件中出现,则考虑在这个(或这组)属性上建立索引(或组合索引)如果一个属性经常作为最大值和最小值等聚集函数的参数,则考虑在这个属性上建立索引如果一个(或一组)属性经常在连接操作的连接条件中出现,则考虑在这个(或这组)属性上建立索引,索引存取方法的选择(续),关系上定义的索引数过多会带来较多的额外开销 维护索引的开销 查找索引的开销,二、聚簇存取方法的选择,什么是聚簇为了提高某个属性(或属性组)的查询速度,把这个或这些属性(称为聚簇码)上具有相同值的元组集中存放在连续的物理块称为聚簇许多关系型DBMS都提供了聚簇功能聚簇存放与聚簇索引的区别,建立聚簇索引(复习),聚簇索引建立聚簇索引后,基表中数据也需要按指定的聚簇属性值的升序或降序存放。也即聚簇索引的索引项顺序与表中元组的物理顺序一致。例:CREATE CLUSTER INDEX Stusname ON Student(Sname);在Student表的Sname(姓名)列上建立一个聚簇索引,而且Student表中的记录将按照Sname值的升序存放,建立聚簇索引(复习),在一个基本表上最多只能建立一个聚簇索引聚簇索引的用途:对于某些类型的查询,可以提高查询效率聚簇索引的适用范围 很少对基表进行增删操作 很少对其中的变长列进行修改操作,聚簇存取方法的选择(续),聚簇的用途1.大大提高按聚簇属性进行查询的效率例:假设学生关系按所在系建有索引,现在要查询信息系的所有学生名单。信息系的500名学生分布在500个不同的物理块上时,至少要执行500次I/O操作。如果将同一系的学生元组集中存放,则每读一个物理块可得到多个满足查询条件的元组,从而显著地减少了访问磁盘的次数。,聚簇存取方法的选择(续),2.节省存储空间聚簇以后,聚簇码相同的元组集中在一起了,因而聚簇码值不必在每个元组中重复存储,只要在一组中存一次就行了,聚簇存取方法的选择(续),聚簇的局限性1.聚簇只能提高某些特定应用的性能2.建立与维护聚簇的开销相当大对已有关系建立聚簇,将导致关系中元组移动其物理存储位置,并使此关系上原有的索引无效,必须重建。当一个元组的聚簇码改变时,该元组的存储位置也要做相应移动。,聚簇存取方法的选择(续),聚簇的适用范围1.既适用于单个关系独立聚簇,也适用于多个关系组合聚簇例:假设用户经常要按系别查询学生成绩单,这一查询涉及学生关系和选修关系的连接操作,即需要按学号连接这两个关系,为提高连接操作的效率,可以把具有相同学号值的学生元组和选修元组在物理上聚簇在一起。这就相当于把多个关系按“预连接”的形式存放,从而大大提高连接操作的效率。,聚簇存取方法的选择(续),2.当通过聚簇码进行访问或连接是该关系的主要应用,与聚簇码无关的其他访问很少或者是次要的时,可以使用聚簇。尤其当SQL语句中包含有与聚簇码有关的ORDER BY,GROUP BY,UNION,DISTINCT等子句或短语时,使用聚簇特别有利,可以省去对结果集的排序操作,聚簇存取方法的选择(续),选择聚簇存取方法1.设计候选聚簇对经常在一起进行连接操作的关系可以建立组合聚簇;如果一个关系的一组属性经常出现在相等比较条件中,则该单个关系可建立聚簇;如果一个关系的一个(或一组)属性上的值重复率很高,则此单个关系可建立聚簇。即对应每个聚簇码值的平均元组数不太少。太少了,聚簇的效果不明显。,聚簇存取方法的选择(续),2.检查候选聚簇中的关系,取消其中不必要的关系从独立聚簇中删除经常进行全表扫描的关系;从独立/组合聚簇中删除更新操作远多于查询操作的关系;从独立/组合聚簇中删除重复出现的关系当一个关系同时加入多个聚簇时,必须从这多个聚簇方案(包括不建立聚簇)中选择一个较优的,即在这个聚簇上运行各种事务的总代价最小。,三、HASH存取方法的选择,选择HASH存取方法的规则当一个关系满足下列两个条件时,可以选择HASH存取方法该关系的属性主要出现在等值连接条件中或主要出现在相等比较选择条件中该关系的大小可预知,而且不变;或该关系的大小动态改变,但所选用的DBMS提供了动态HASH存取方法。,7.5 数据库的物理设计,7.5.1 数据库的物理设计的内容和方法7.5.2 关系模式存取方法选择7.5.3 确定数据库的存储结构7.5.4 评价物理结构,6.5.3 确定数据库的存储结构,确定数据库物理结构的内容1.确定数据的存放位置和存储结构 关系 索引 聚簇 日志 备份2.确定系统配置,1.确定数据的存放位置,影响数据存放位置和存储结构的因素硬件环境应用需求存取时间存储空间利用率维护代价 这三个方面常常是相互矛盾的 例:消除一切冗余数据虽能够节约存储空间和减少维护代价,但往往会导致检索代价的增加 必须进行权衡,选择一个折中方案。,确定数据的存放位置(续),基本原则根据应用情况将易变部分与稳定部分存取频率较高部分与存取频率较低部分 分开存放,以提高系统性能,确定数据的存放位置(续),例:数据库数据备份、日志文件备份等由于只在故障恢复时才使用,而且数据量很大,可以考虑存放在磁带上。如果计算机有多个磁盘,可以考虑将表和索引分别放在不同的磁盘上,在查询时,由于两个磁盘驱动器分别在工作,因而可以保证物理读写速度比较快。,确定数据的存放位置(续),例(续):可以将比较大的表分别放在两个磁盘上,以加快存取速度,这在多用户环境下特别有效。可以将日志文件与数据库对象(表、索引等)放在不同的磁盘以改进系统的性能。,2.确定系统配置,DBMS产品一般都提供了一些存储分配参数 同时使用数据库的用户数 同时打开的数据库对象数 使用的缓冲区长度、个数 时间片大小 数据库的大小 装填因子 锁的数目 等等,确定系统配置(续),系统都为这些变量赋予了合理的缺省值。但是这些值不一定适合每一种应用环境,在进行物理设计时,需要根据应用环境确定这些参数值,以使系统性能最优。在物理设计时对系统配置变量的调整只是初步的,在系统运行时还要根据系统实际运行情况做进一步的调整,以期切实改进系统性能。,6.5 数据库的物理设计,7.5.1 数据库的物理设计的内容和方法7.5.2 关系模式存取方法选择7.5.3 确定数据库的存储结构7.5.4 评价物理结构,6.5.4 评价物理结构,评价内容对数据库物理设计过程中产生的多种方案进行细致的评价,从中选择一个较优的方案作为数据库的物理结构,7.5.4 评价物理结构,评价方法定量估算各种方案 存储空间 存取时间 维护代价对估算结果进行权衡、比较,选择出一个较优的合理的物理结构如果该结构不符合用户需求,则需要修改设计,第七章 数据库设计,7.5 数据库的物理设计7.6 数据库实施7.7 数据库运行与维护7.8 小结,6.6 数据库的实施,数据库实施的工作内容用DDL定义数据库结构组织数据入库编制与调试应用程序数据库试运行,一、定义数据库结构,确定了数据库的逻辑结构与物理结构后,就可以用所选用的DBMS提供的数据定义语言(DDL)来严格描述数据库结构。,定义数据库结构(续),例,对于前面的例子,可以用SQL语句如下定义表结构:CREATE TABLE 学生(学号 CHAR(8),);CREATE TABLE 课程();,二、数据装载,数据库结构建立好后,就可以向数据库中装载数据了。组织数据入库是数据库实施阶段最主要的工作。数据装载方法人工方法计算机辅助数据入库,数据装载(续),人工方法:适用于小型系统步骤1)筛选数据。需要装入数据库中的数据通常都分散在各个部门的数据文件或原始凭证中,所以首先必须把需要入库的数据筛选出来。2)转换数据格式。筛选出来的需要入库的数据,其格式往往不符合数据库要求,还需要进行转换。这种转换有时可能很复杂。3)输入数据。将转换好的数据输入计算机中。4)校验数据。检查输入的数据是否有误。,数据装载(续),计算机辅助数据入库:适用于中大型系统步骤1)筛选数据2)输入数据。由录入员将原始数据直接输入计算机中。数据输入子系统应提供输入界面。3)校验数据。数据输入子系统采用多种检验技术检查输入数据的正确性。,数据装载(续),4)转换数据。数据输入子系统根据数据库系统的要求,从录入的数据中抽取有用成分,对其进行分类,然后转换数据格式。抽取、分类和转换数据是数据输入子系统的主要工作,也是数据输入子系统的复杂性所在。5)综合数据。数据输入子系统对转换好的数据根据系统的要求进一步综合成最终数据。,数据装载(续),如果数据库是在老的文件系统或数据库系统的基础上设计的,则数据输入子系统只需要完成转换数据、综合数据两项工作,直接将老系统中的数据转换成新系统中需要的数据格式。为了保证数据能够及时入库,应在数据库物理设计的同时编制数据输入子系统。,三、编制与调试应用程序,数据库应用程序的设计应该与数据设计并行进行。在数据库实施阶段,当数据库结构建立好后,就可以开始编制与调试数据库的应用程序。调试应用程序时由于数据入库尚未完成,可先使用模拟数据。,四、数据库试运行,应用程序调试完成,并且已有一小部分数据入库后,就可以开始数据库的试运行。数据库试运行也称为联合调试,其主要工作包括:1)功能测试:实际运行应用程序,执行对数据库的各种操作,测试应用程序的各种功能。2)性能测试:测量系统的性能指标,分析是否符合设计目标。,数据库试运行(续),数据库性能指标的测量数据库物理设计阶段在评价数据库结构估算时间、空间指标时,作了许多简化和假设,忽略了许多次要因素,因此结果必然很粗糙。数据库试运行则是要实际测量系统的各种性能指标(不仅是时间、空间指标),如果结果不符合设计目标,则需要返回物理设计阶段,调整物理结构,修改参数;有时甚至需要返回逻辑设计阶段,调整逻辑结构。,数据库试运行(续),数据的分期入库重新设计物理结构甚至逻辑结构,会导致数据重新入库。由于数据入库工作量实在太大,所以可以采用分期输入数据的方法先输入小批量数据供先期联合调试使用待试运行基本合格后再输入大批量数据逐步增加数据量,逐步完成运行评价,数据库试运行(续),数据库的转储和恢复在数据库试运行阶段,系统还不稳定,硬、软件故障随时都可能发生系统的操作人员对新系统还不熟悉,误操作也不可避免因此必须做好数据库的转储和恢复工作,尽量减少对数据库的破坏。,第六章 数据库设计,6.1 数据库设计概述6.2 需求分析6.3 概念结构设计6.4 逻辑结构设计6.5 数据库的物理设计6.6 数据库实施6.7 数据库运行与维护6.8 小结,6.7 数据库运行与维护,数据库试运行结果符合设计目标后,数据库就可以真正投入运行了。数据库投入运行标着开发任务的基本完成和维护工作的开始对数据库设计进行评价、调整、修改等维护工作是一个长期的任务,也是设计工作的继续和提高。应用环境在不断变化数据库运行过程中物理存储会不断变化,数据库运行与维护(续),在数据库运行阶段,对数据库经常性的维护工作主要是由DBA完成的,包括:数据库的转储和恢复转储和恢复是系统正式运行后最重要的维护工作之一。DBA要针对不同的应用要求制定不同的转储计划,定期对数据库和日志文件进行备份。一旦发生介质故障,即利用数据库备份及日志文件备份,尽快将数据库恢复到某种一致性状态。,数据库运行与维护(续),数据库的安全性、完整性控制DBA必须根据用户的实际需要授予不同的操作权限在数据库运行过程中,由于应用环境的变化,对安全性的要求也会发生变化,DBA需要根据实际情况修改原有的安全性控制。由于应用环境的变化,数据库的完整性约束条件也会变化,也需要DBA不断修正,以满足用户要求。,数据库运行与维护(续),数据库性能的监督、分析和改进在数据库运行过程中,DBA必须监督系统运行,对监测数据进行分析,找出改进系统性能的方法。利用监测工具获取系统运行过程中一系列性能参数的值通过仔细分析这些数据,判断当前系统是否处于最佳运行状态如果不是,则需要通过调整某些参数来进一步改进数据库性能,数据库运行与维护(续),数据库的重组织和重构造1)数据库的重组织为什么要重组织数据库数据库运行一段时间后,由于记录的不断增、删、改,会使数据库的物理存储变坏,从而降低数据库存储空间的利用率和数据的存取效率,使数据库的性能下降。,数据库运行与维护(续),重组织的形式全部重组织部分重组织只对频繁增、删的表进行重组织重组织的目标提高系统性能,数据库运行与维护(续),重组织的工作按原设计要求重新安排存储位置回收垃圾减少指针链数据库的重组织不会改变原设计的数据逻辑结构和物理结构,数据库运行与维护(续),DBMS一般都提供了供重组织数据库使用的实用程序,帮助DBA重新组织数据库。,数据库运行与维护(续),2)数据库的重构造为什么要进行数据库的重构造数据库应用环境发生变化,会导致实体及实体间的联系也发生相应的变化,使原有的数据库设计不能很好地满足新的需求增加新的应用或新的实体取消某些已有应用改变某些已有应用,数据库运行与维护(续),数据库重构造的主要工作根据新环境调整数据库的模式和内模式增加新的数据项改变数据项的类型改变数据库的容量增加或删除索引修改完整性约束条件,数据库运行与维护(续),重构造数据库的程度是有限的若应用变化太大,已无法通过重构数据库来满足新的需求,或重构数据库的代价太大,则表明现有数据库应用系统的生命周期已经结束,应该重新设计新的数据库系统,开始新数据库应用系统的生命周期了。,第六章 数据库设计,6.1 数据库设计概述6.2 需求分析6.3 概念结构设计6.4 逻辑结构设计6.5 数据库的物理设计6.6 数据库实施6.7 数据库运行与维护6.8 小结,6.8 小结,数据库的设计过程需求分析概念结构设计逻辑结构设计物理设计实施运行维护设计过程中往往还会有许多反复。,小结(续),数据库各级模式的形成数据库的各级模式是在设计过程中逐步形成的需求分析阶段综合各个用户的应用需求(现实世界的需求)。概念设计阶段形成独立于机器特点、独立于各个DBMS产品的概念模式(信息世界模型),用E-R图来描述。,小结(续),在逻辑设计阶段将E-R图转换成具体的数据库产品支持的数据模型如关系模型,形成数据库逻辑模式。然后根据用户处理的要求,安全性的考虑,在基本表的基础上再建立必要的视图(VIEW)形成数据的外模式。在物理设计阶段根据DBMS特点和处理的需要,进行物理存储安排,设计索引,形成数据库内模式。,小结(续),整个数据库设计过程体现了结构特征与行为特征的紧密结合。,小结(续),目前很多DBMS都提供了一些辅助工具(CASE工具),为加快数据库设计速度,设计人员可根据需要选用。例如需求分析完成之后,设计人员可以使用ORACLE DESIGNER 2000画E-R图,将E-R图转换为关系数据模型,生成数据库结构;画数据流图,生成应用程序。,小结(续),利用CASE工具生成的仅仅是数据库应用系统的一个雏形,比较粗糙,数据库设计人员需要根据用户的应用需求进一步修改该雏形,使之成为一个完善的系统。早期就选择某种CASE工具固然能减少数据库设计的复杂性,加快数据库设计的速度,但往往容易将自己限制于某一个DBMS上,而不是根据概念设计的结果选择合适的DBMS。,