哈工大数据库课件-第七讲数据库系统体系结构.ppt
《哈工大数据库课件-第七讲数据库系统体系结构.ppt》由会员分享,可在线阅读,更多相关《哈工大数据库课件-第七讲数据库系统体系结构.ppt(88页珍藏版)》请在三一办公上搜索。
1、教学目的本章在一个更高的层次上认识数据库系统,首先简要介绍一下数据库的存储结构,然后从传统的集中式系统开始,依次讨论客户-服务器系统、并行数据库系统和分布式数据库系统,使学生了解如何根据不同的计算环境搭建与之相适应的数据库系统。主要内容数据存储,数据库系统体系结构概述,集中式数据库系统,数据库系统,并行数据库系统,分布式数据库系统教学方法课堂讲授为主重点集中式数据库系统、数据库系统、并行数据库系统、分布式数据库系统的概念及特点,分布式查询处理难点分布式查询处理,第七章 数据库系统体系结构,第七章 数据库系统体系结构,内容出处:1.Abraham Silberschatz数据库系统概念第十一章1
2、-3节,第十八章,第十九章2,7节,物理存储介质,特性数据存取速度每单位数据的成本可靠性电源故障或系统崩溃时的数据丢失介质故障介质分类易失介质(volatile storage)电源关时数据丢失非易失介质(non-volatile storage)电源关时数据持久保留,包括二级和三级存储,物理存储介质,高速缓冲存储器(Cache)最快最昂贵的存储介质,一般由操作系统来管理主存储器(Main memory)用于存放可被处理的数据的存储介质快速访问,但一般不能存放整个数据库如果发生电源故障或系统崩溃,主存储器中的数据会丢失快闪存储器(Flash memory)EEPROM:电可擦可编程只读存储器电
3、源故障时数据会保存读速度:0.1s;写速度:10s,物理存储介质,磁盘存储器(Magnetic-disk storage)用于长期联机数据存储一般存放整个数据库数据必须从磁盘移入主存才能访问直接存取(direct-access)按任意顺序存取数据如果发生电源故障或系统崩溃,数据不会丢失光盘存储(Optical storage)CD-ROM:只读,提供预先记录的数据WORM:一次写,多次读,用于数据归档,物理存储介质,磁带存储(Tape storage)用于数据的备份和归档顺序访问(sequential-access)速度慢容量大价格低,存储层次,基本存储,辅助存储,三级存储,易失性存储,非易失
4、性存储,存储层次,基本存储(primary storage)快速但易失cache,main memory辅助存储(secondary storage)非易失,相对快速 联机存储(on-line storage)flash memory,magnetic disks三级存储(tertiary storage)非易失,速度慢相对快速脱机存储(off-line storage)magnetic tape,optical storage,磁盘结构,磁盘性能估计,访问时间从发出请求到数据开始传输之间的时间寻道时间(Seek time)磁盘臂定位时间,即磁盘臂移动到正确的磁道所需时间与移动距离成正比,平均
5、寻道时间是最坏时间的1/3旋转等待时间(Rotational latency)寻道结束后,等待被存取的扇区出现在读写头下面的时间平均旋转等待时间是磁盘旋转一周时间的1/2数据传输率从磁盘获得数据或向磁盘存储数据的速率平均故障时间(MTTF)预期系统无故障连续运行的时间是指基于全新磁盘发生故障的可能性,RAID,廉价磁盘冗余阵列(RAID)Redundant Arrays of Inexpensive Disks是一种利用大量廉价磁盘进行磁盘组织的技术价格上,大量廉价的磁盘比少量昂贵的大磁盘合算得多性能上,使用大量磁盘可以提高数据的并行存取可靠性上,冗余数据可以存放在多个磁盘上,因此一个磁盘的故
6、障不会导致数据丢失过去RAID是大而昂贵的磁盘的替代方法;今天,使用RAID是因为它的高可靠性和高数据传输率;因此“I”代表independent,而非inexpensive,RAID,通过冗余提高可靠性N个磁盘组成的集合中某个磁盘发生故障的概率比特定的单个磁盘发生故障的概率高很多 假定单个磁盘的MTTF是100,000小时(约为11年),则由100个磁盘组成的阵列的MTTF是1000小时(约为41天)冗余(Redundancy)存储额外的信息,以便当磁盘故障时能从中重建镜像(Mirroring or shadowing)一个逻辑磁盘由两个物理磁盘组成,写操作在每个磁盘上执行如果其中一个发生故
7、障,数据可以从另一个磁盘读出只有第一个磁盘的故障尚未恢复,第二个磁盘也发生故障,这时才会发生数据丢失假定一个磁盘的MTTF是100,000小时,修复时间是10小时,则镜像磁盘系统的MTTF是100,0002/(2*10)=500*106小时,约为57000年,RAID,通过并行提高性能负载平衡多个小的存取操作(即页面存取),以提高这种存取操作的吞吐量并行执行大的存取操作,以减少大的存取操作的响应时间通过在多个磁盘上对数据进行拆分来提高传输率比特级拆分(Bit-level striping)将每个字节按比特分开,存储到多个磁盘上例如,对于一个由8个磁盘组成的阵列,将每个字节的第i个比特位写到第i
8、个磁盘上;它的存取速度是单个磁盘的8倍对于由4个磁盘组成的阵列,将每个字节的第i个比特位和第i+4个比特位写到第i个磁盘上块级拆分(Block-level striping)对于由n个磁盘构成的阵列,文件的第i块 存放在第(i mod n)+1个磁盘上,RAID,RAID级别镜像提供高可靠性,拆分提供高数据传输率,通过利用与奇偶校验相结合的磁盘拆分思想,可以实现以较低成本提供冗余的方案不同的RAID级别,具有不同的代价、性能和可靠性,C,P,代表数据的第二个拷贝,表示纠错位,RAID,RAID 0块级拆分且没有任何冗余(如镜像或奇偶校验位)的磁盘阵列用于高性能访问并且数据丢失不十分重要的应用场
9、合,RAID,RAID 1带块级拆分的磁盘镜像完全容错,成本高一般用于类似于数据库系统中日志文件存储的应用场合,RAID,RAID 2按比特级拆分,具有内存风格的纠错码纠错码(ECC:Error-Correcting-Codes)内存中每个字节都有一个奇偶校验位与之相连,它记录这个字节中为1的比特位的总数是偶数(=0)还是奇数(=1),如果字节中有一位被破坏,则字节的ECC与存储的ECC就不会相匹配;通过ECC可以检测到所有的1位错误;通过更多的附加位,当数据遭到破坏时,还可以重建数据,RAID,RAID 3磁盘控制器能够检测一个扇区是否被正确的读出如果一个扇区被破坏,我们先能准确地知道是哪个
10、扇区坏了,然后对扇区的每一位,通过计算其他磁盘上对应扇区的对应位的奇偶值来推断该位是1还是0。如果其余位的奇偶值等于存储的奇偶值,则丢失的位是0,反之为1RAID 3效果与RAID 2一样,但只有一个磁盘的额外开销使用N道数据拆分的RAID 3对一个字节的读写散布在多个磁盘中,因此读写一个块的传输率是使用N道数据拆分的RAID 1的N倍每个磁盘参与每个I/O请求,每秒RAID 3支持的I/O数较少,RAID,RAID 4块级拆分,在一个独立的磁盘上为其他N个磁盘上对应的块保留一个奇偶校验块读取一个块只访问一个磁盘每个存取操作的传输率低,但可以并行地执行多个读操作,从而产生较高的总的I/O率读取
11、大量数据的操作有很高的传输率,因为所有磁盘可以并行地读,RAID,RAID 5将数据和奇偶校验位都分布到所有的N+1个磁盘上;对每个块,一个磁盘存储奇偶校验位,其余磁盘存储数据例如由5个磁盘组成的阵列,第n块的奇偶校验位存储在第(n mod 5)+1上,其余4个磁盘的第n块存储了对应这个块的实际数据奇偶校验块不能和这个块对应的数据存储在同一个磁盘上所有磁盘都参与对读请求的服务,而RAID 4中奇偶校验磁盘不参与读操作RAID 5包容了RAID 4,同时在相同成本下,提供了更好的读写性能,RAID 5:块交叉的分布奇偶校验,P,P,P,P,P,RAID,RAID 6类似于RAID 5,存储了额外
12、的冗余信息不采用奇偶校验位的方法,使用类似Reed-Solomon码的编码对每4位数据存储2位冗余信息可以容忍两个磁盘发生故障,RAID 6:P+Q冗余,P,P,P,P,P,P,高性能可靠性差,完全容错成本高,高数据传输率大数据量,高的总I/O率适合随机读大数据量,高可靠性,用于数据安全性不是很重要的高性能应用,相对于RAID5,RAID3很少使用,适于日志文件的存储,相对于RAID1,具有较低的存储开销,但写操作开销高,因此适于经常进行读而很少写的应用,适于数据安全十分重要的应用,数据库系统体系结构,数据库系统体系结构,数据库系统体系结构概述集中式数据库系统数据库系统并行数据库系统分布式数据
13、库系统,数据库系统体系结构概述,数据库系统的体系结构与计算机系统的体系结构密切相关集中式体系结构 集中式数据库系统计算机的联网 客户/服务器数据库系统并行处理能力 并行数据库系统分布计算能力 分布式数据库系统,集中式体系结构,集中式系统,集中式系统运行在一台机器上,数据集中存储在一台计算机中,并且不与其他计算机系统交互的数据库系统单用户系统个人使用的桌面系统单CPU,1至2个硬盘,OS可以只支持单用户数据库系统不支持并发控制,故障恢复能力没有或非常有限,用户接口类似QBE多用户系统服务大量用户,用户通过终端与之相连多个磁盘,多个主存储器,多个CPU,多用户OS具有并发控制、故障恢复等能力,客户
14、-服务器系统,PC的速度更快,能力更强,价格更低连接到集中式系统的终端被PC代替;以前由集中式系统执行的诸如用户界面功能由PC来处理;集中式系统变成服务器系统的作用,来响应客户系统产生的请求,客户-服务器系统,集中式或分布式-单服务器与多服务器系统单服务器系统:多个客户共享一个服务器多服务器系统:一个客户可以对多个服务器进行访问。,客户-服务器系统,数据库功能的划分后端(Back-end)存取结构、查询计算和优化、并发控制、故障恢复前端(Front-end)表格生成工具、报表书写工具、图形用户界面工具前端和后端的接口通过SQL或应用程序接口,客户-服务器系统,客户/服务器优点有利于充分利用网络
15、中的计算资源减少网络上的传输量高性能/价格比可扩展性友好的用户接口易维护,客户-服务器系统,服务器系统的分类事务服务器又称查询服务器或SQL服务器广泛用于关系数据库系统客户向服务器发送请求,事务在服务器端执行,结果返回给客户端可以以SQL表达请求,也可以通过应用程序接口,使用远程过程调用(RPC)机制来表达请求Open Database Connectivity(ODBC)使用ODBC接口的任何客户程序都可以与提供ODBC接口的任何服务器连接,客户-服务器系统,数据服务器用于局域网中客户与服务器之间具有高速连接客户机与服务器的处理能力相当,并且其执行的任务主要以计算为主数据传送到客户机器,在客
16、户机上进行所有处理,然后再把数据传回到服务器多用于面向对象数据库系统,并行系统,并行数据库系统由通过高速互连网络连接在一起的多个CPU、存储器和磁盘组成查询大数据量处理大数量的事务粗粒度并行机由几个能力强大的处理器组成细粒度并行机由数千个小处理器组成,并行系统的需求和目的,数据库应用需求查询非常大的数据库(1012字节以上)处理很大数量的事务(每秒数千个事务)引入并行的目的保证即使在数据库的规模和事务的数量都大大增长时,数据库系统仍能以可接受的速度运行。,并行系统的需求和目的,关系数据库的固有并行性数据操作间的流水线并行性age20(s)dept数据操作间的独立并行性age20(s)dno,d
17、ean(dept)单数据操作内的并行性age20(s),并行系统的需求和目的,数据库系统性能的度量吞吐量(throughput):在给定的时间区间里所能完成的任务的数量。响应时间(response time):对于单个任务从提交到完成所需的时间。对于处理大量小事务的系统,通过并行地处理许多事务可以提高吞吐量。对于处理大事务的系统,通过并行地执行每个事务中的子任务可以缩短响应时间,同时提高吞吐量。,并行系统,加速比(Speedup)通过增加并行度来在更短的时间内运行一个给定的任务目标:使处理任务所需的时间与所分配的处理器和磁盘的数量成反比例。扩展比(Scaleup)通过增加并行度来处理更大的任务
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 哈工大 数据库 课件 第七 系统 体系结构

链接地址:https://www.31ppt.com/p-6556349.html