Linux内核实现机制概述.docx

上传人：牧羊曲112

文档编号：3160756

上传时间：2023-03-11

格式：DOCX

页数：18

大小：48.41KB

《Linux内核实现机制概述.docx》由会员分享，可在线阅读，更多相关《Linux内核实现机制概述.docx（18页珍藏版）》请在三一办公上搜索。

1、Linux内核实现机制概述Linux2.6内核分析 Linux内核主要由5个模块构成，分别是：进程调度模块、内存管理模块、虚拟文件系统模块、进程间通信模块。 Linux经常使用散列表来实现高速缓存，高速缓存是需要快速访问的信息。一、进程进程的模型包括进程控制块、程序部分和数据集合三部分。 1、进程控制块PCB PCB是进程存在的唯一标识。 PCB按功能分主要包含以下四部分：进程标示符、处理机状态、进程调度信息、进程控制信息。进程标示符：唯一标识一个进程。处理机状态：有处理机的各种寄存器中的内容组成，寄存器包括通用寄存器、指令寄存器、程序状态字PSW、和用户栈指针。当初立即被中断时，进

2、程运行信息必须保存在PCB中，以便运行时从断点继续执行。进程调度信息：存放进程状态、进程优先级、进程调度所需其他信息、时间或阻塞原因。进程控制信息：包括程序和数据的内存或者外存地址，进程同步和通信机制，资源清单、链接指针。 Linux的进程控制块PCB使用一个成为task_struct的结构体来描述。该结构体中定义了进程的几种状态： TASK_RUNNING状态。Linux的进程运行状态包括实际的运行和就绪状态，对两者的区分是根据当前是否占有CPU，结构体中current变量可以区分两者。 TASK_INTERRUPTIBLE状态。即可中断的等待状态，当进程在等待某个事件和某个资源，可中断

3、等待状态的进程可以被信号唤醒而进入就绪状态等待调度。 TASK_UNINTERRUPTIBLE状态。即不可中断等待状态，该状态进程由于硬件不能满足，不能被信号唤醒，必须等到得到所等待的资源之后才能被唤醒。 TASK_ZOMBIE状态。即僵死状态，终止进程所占有的资源全部释放之后，还保存着PCB信息，这种占有PCB但已被撤销的进程处于僵死状态。 TASK_STOPPED状态。即暂停状态，一般都是有运行状态转换来，正等待某种特殊处理，如调试跟踪的程序。 TASK_DEAD状态。新增加的状态，指已经退出但是不需要父进程回收的进程。 Linux内核创建一个进程时，首先会新建一个空的task_struc

4、t结构体，并将相应信息填入结构体中，然后将该结构体的指针添加进task数组，这个数组大小由NR_TASK指定。调度程序一直维持着一个current指针,它指向当前正在运行的程序。Task0必须指向init_task进程。 Linux中，内核将所有struct_task结构体以两种方式组织：哈希表，将进程的PID作为哈希算法的输入，可以用一个给定PID快速查找到进程，通过find_task_pid来定位相应进程。双向循环链表，这样可以使系统很容易遍历所有的进程。通过调用for_each_task来实现遍历。task_struct结构体中的变量list_head的作用就是将进程通过双向链表将进

5、程连接起来。链表的首部和头部都是init_task进程。 2、进程的创建 Linux提供了三种创建新进程的方法：fork、vfork、clone 三者分别对应系统调用的sys_fork、sys_vfork、sys_clone，最终三者都是通过do_fork 调用完成的。目前Linux在创建进程时，采用“写时拷贝”技术，即在创建进程时并不将父进程所有的资源都复制给子进程，而是需要时才进行资源的拷贝，可以大大提高Linux的性能。 fork函数调用fork后，系统会创建一个子进程，子进程和父进程不同的只有它的进程ID和父进程ID，其他都一样。地址空间不共享，由于采用“写时拷贝”技术，子进程并不

6、完全拷贝父进程的数据段和栈、堆等的复制，这些区域作为父子进程的共享区域，而且内核将他们访问权限设置为只读，如果父子进程任何一个试图修改此区域，内核就为那块内存拷贝制作一个副本。之所以采用“写时拷贝”是因为一般fork后会调用exec调用其他的执行体。父子进程的执行顺序不确定。 fork函数被调用一次，但是返回两次值。两次返回值的区别是，子进程的返回值是0，父进程返回值是子进程的进程ID。调用失败的话返回-1。 vfork函数该函数与fork基本一致，只不过父子进程共享父进程的地址空间。对于vfork创建新进程后，父进程会阻塞，子进程借用父进程的地址空间运行，直到子进程退出或者调用exe

7、c，父进程才可以运行。 vfork和fork返回值相同。 clone函数 clone函数和fork、vfork不同，它接受一个指向函数的指针和该函数的参数，在创建子进程成功时就调用这个函数执行。 3、进程终止分为自愿终止和被动终止。自愿终止 a.显式自愿终止：在进程中调用exit函数 b.隐式自愿终止：进程从某个程序的主函数退出被动终止 a.当进程接收到一个它既不能处理也不能忽略的信号和异常 b.进程接收到SIGABRT或者其他终止信号。上述进程终止主要分为两步来完成：首先通过调用do_exit函数释放掉与进程相关的大部分资源，并使进程处于僵死状态，但是进程描述符不释放。然后对进程

8、的处理应看子进程与父进程谁先终止。子进程先终止的话，则子进程一直处于僵死状态，直到父进程调用wait或者waitpid。调用完成后则完全释放。父进程先终止，则内核必须为子进程找到新的父进程，方法是首先给子进程在当前组内找一个线程最为父进程，不行就让init做父进程。 wait函数的两个作用:获取内核发送来的子进程终止消息和清除子进程的所有独享资源。wait函数会首先挂起调用它的进程，知道该进程的一个子进程终止，此时函数会返回该子进程的PID给父进程。 4、线程的实现 Linux内核中没有专门的实现线程的机制，而是通过用户级程序库来实现的，例如pthread库，以便将所有的线程映射到一个单独的内

9、核级进程中。Linux提供的一种不区分进程和线程的方案：通过使用一种类似于Solaris轻量级进程的方法，用户级线程被映射到内核级进程上，组成一个用户级进程的多个用户级线程被映射到共享同一个ID的多个Linux内核级进程上。这使得这些进程可以共享文件和内存等资源，使得同一组中的进程调度切换时不需要切换上下文。 5、Linux进程调度 Linux是一个抢占式多任务系统，高优先级的可以抢占低优先级的CPU运行。Linux优先级分为静态优先级和动态优先级。 Linux进程分为普通进程和实时进程两类。实时进程创建时静态优先级就已经分配而且不会改变，不为实时进程计算动态优先级，实时进程的优先级范围为09

10、9都高于普通进程100139。普通进程优先级同样有静态优先级，但是没有作用，内核为普通进程计算动态优先级，并根据优先级分配时间片，来调度进程。 Linux提供了三种调度策略： SCHED_NORMAL面向普通进程的时间片轮转策略。时间片用完后再选择一个优先级相对较高的进程进程调度。 SCHED_FIFO面向对响应时间要求比较高、运行所需时间较短的实时进程。 SCHED_RR面向对响应时间要求比较高、运行所需时间较长的实时进程。总结调度，根据进程的分类调度可分为实时调度和非实时调度。实时调度针对实时进程静态优先级。对于实时进程，静态优先级决定了对CPU的抢占，当高优先级的进程到达时，会抢占

11、低优先级进程的CPU，同样可以知道实时进程总是能抢占普通进程的CPU。对于同一优先级的实时进程则又可采用两种调度算法：FIFO和RR。例如，当前进程有A，B，C，D(5)且B早于C到达,括号内为进程的静态优先级。则采用FIFO为：D优先级最高先执行B，然后是B和C优先级相同，由于B早到达，所以先执行B再C，最后是优先级最低的A。执行顺序为DBCA.采用RR则仍然是先运行D，完毕后则交换运行B和C，运行完毕后是A。顺序为DBCBCA。非实时调度普通进程动态优先级。内核为普通进程计算动态优先级，根据此优先级为进程分配不同的时间片，此优先级只作为分配时间片的基础，不能够通过动态优先级高低抢占C

12、PU。每次当进程的时间片使用完后都会为其重新计算动态优先级及分配的时间片。二、系统调用 Linux的每个系统调用都是通过一些宏、一张系统调用表、一个系统调用入口来完成。宏 Linux为每个系统调用定义了一个唯一的编号，成为系统调用号。通过宏定义方式定义，例如#define _NR_setup 0。 Linux中系统调用号一旦分配就不可以再进行更改，否则已经编译好的木块将不能正常使用。即使删除的系统调用，也不可以把之前已经分配的系统调用号重新分配，删除的系统调用有相应的空处理。系统调用表系统调用表是一个函数指针数组，跳转时以系统调用号作为数组下表，找到相应的函数指针。系统调用入口系统

13、调用入口其实是由系统调用入口函数实现。功能是将系统调用号放入eax寄存器后移用int $0x80使处理器转向系统调用入口，查找系统调用表，进而执行内核调用真正的函数。 Linux系统调用实际是软中断。系统调用过程中，Linux首先通过执行相应的机器代码指令int $0x80产生一个软中断的异常处理信号，使系统自动从用户态切换到内核态。三、中断机制 Linux中断主要分为硬中断和软中断两类。 IRQ主要分为：短类型IRQ和长类型IRQ。短类型IRQ需要很短的时间，在此期间机器的其他部分被锁定，而且不能发生其他中断被处理。长类型IRQ需要较长的时间，期间可能发生其他中断。当用户程序被来自外部信

14、号中断后，立即保存现场工作，包括保存返回地址和用户寄存器等数据，然后查找中断向量表，找出相应的中断处理程序。系统将中断分为三种：捕俘、系统调用和外中断。捕俘：通过捕俘处理程序入口表查找到用户编写的处理程序执行。系统调用：软中断，通过系统调用表找到操作系统核心提供的服务例程。外中断：直接调用核心提供的外中断处理程序运行。 1、硬中断过程 Linux中，若一个硬件想向CPU发送中断信号，必须首先获得一个可用的“中断请求线”，产生一个中断信号后以电信号发送给中断控制器，接着CPU根据中断控制器的状态位判定中断的来源，获得中断号，根据中断号查找中断向量表，从表中获得中断处理函数的地址，然后跳转到中断函

15、数入口地址处，执行这个函数。 2、中断处理程序硬中断中断处理程序主要做的工作： a. 保护未被硬件保护的一些必须的寄存器 b. 识别各个中断源，分析产生中断的原因 c. 处理发生的中断事件 d. 恢复正常的工作 Linux规定中断处理程序是不可重入的，指的是同一中断线上不可以再发生新的中断，因为所有的处理器都将原中断所在的中断线已经屏蔽。 Linux中同样规定了同一中断程序不能够并行，这样同一个中断处理程序不可以被同时调用来处理嵌套的中断。 Linux中将中断处理程序分为两部分：上半部和下半部。上半部主要用来处理那些具有严格时限要求的任务。上半部可以看做是一个用来“登记中断”功能的函数，将

16、中断例程的下半部挂到下半部执行队列中。上半部要求执行很快，主要是因为上半部完全屏蔽中断下执行，即不可中断。下半部主要用于处理那些可以稍后执行的任务。下半部是可中断的，当发生其他中断时，下半部可中断等待另外一个中断的上半部执行完毕后再继续执行。 3、下半部机制 Linux中提供了三种机制来实现下半部机制。软中断软中断是一组静态定义的下半部结构，使用数组来组织软中断结构体，共有32个。两个相同的软中断可以同时执行，必须在编译期间进行静态注册。软中断机制一般都保留给系统中对时间要求最严格以及重要的下半部来使用。Linux2.6中只有两个子系统是通过软中断来实现的：网络子系统和SCSI。 ta

17、sklet tasklet要比软中断机制方便且简单，而且它本身也是基于软中断实现，属于软中断，既可以静态的创建tasklet，也可以动态的创建tasklet。 Linux中tasklet分为两类：HI_SOFTIRQ和TASKLET_IRQ，前者比后者的优先级要高，优先调用前者。在中断数组irq_desc中会分配两项给tasklet，即两种类型各占数组中一项。两者分别以一个链表来组织。工作队列(work queue) 工作队列与前两者最大的不同之处是它是唯一一个能在进程上下文中运行的下半部机制，意味着它能允许睡眠。工作队列的实质是将推后的工作交给一个内核线程来完成，核心思想即时创建一个内核

18、线程，Linux中已经默认提供了一种命名为enents一类工作者线程来实现工作队列。 4、中断的数据结构 Linux内核中定义了一个数组irq_desc数组来管理中断。数组中的每一项对应一个中断源。数组中的每个成员都为irq_desc_t结构体，即数组中的每一项对应着中断向量表中的一项。 irq_desc_t结构体 irq_desc_t结构体用来描述中断源。其中结构体中的handler指向hw_interrupt_type结构体的指针，action变量指向由irqaction结构体组成的单向链表的头的指针。 irqaction结构体该结构体中指明内核接收到特定IRQ后该才去的动作。结构体中变

19、量handler指向中断处理程序。 hw_interrupt_type结构体用来描述中断控制器，是一个抽象的中断控制器。 5、中断上下文当一个中断处理程序正在执行时，内核处于中断上下文中。中断上下文是不可以睡眠的。与进程上下文是不同的，进程上下文即使睡眠了也可以重新调度将其唤醒，中断上下文不可以被重新调度。中断处理程序没有自己的堆栈，它会共享被它中断的那个进程的堆栈，如果没有进程正在执行，则占用idle进程的堆栈。四、内核同步机制内核同步主要是同步各执行单元对共享数据的访问，尤其是多处理器的同步。 Linux2.6中内核同步机制主要包括以下几种：原子操作、信号量、读写信号量、自旋锁、

20、大内核锁等。原子操作原子操作就是指某一个操作在执行过程中不可以被打断，要么全部执行，要不就一点也不执行。原子操作需要硬件的支持，与体系结构相关，使用汇编语言实现。原子操作主要用于实现资源计数，很多引用计数就是通过原子操作实现。Linux中提供了两种原子操作接口，分别是原子整数操作和原子位操作。原子整数操作只对atomic_t类型的数据进行操作，不能对C语言的int进行操作，使用atomic_t只能将其作为24位数据处理，主要是在SPARC体系结构中int的低8为中设置了一个锁，避免对原子类型数据的并发访问。原子位操作是针对由指针变量指定的任意一块内存区域的位序列的某一位进行操作。它只

21、是针对普通指针的操作，不需要定义一个与该操作相对应的数据类型。自旋锁 Linux自旋锁保证了任意时刻只能有一个执行线程进入临界区，其他试图进入临界区的线程将一直进行尝试，直到获得该锁。自旋锁主要应用在加锁时间不长并且不会睡眠的情况。自旋锁的本质是对内存区域的一个整数的操作，任何线程进入临界区之前都必须检查该整数，可用则进入，都则一直忙循环等待。自旋锁机制让试图获得该锁的线程一直进行忙循环，因此自旋锁适合于断时间内进行轻量级加锁。而且自旋锁绝对不可以递归使用，否则会被自己锁死。 Linux自旋锁主要应用与多核处理器中，单CPU中不会进行自旋锁操作。 linux上的自旋锁有三种实现： a.

22、在单cpu，不可抢占内核中，自旋锁为空操作。 b. 在单cpu，可抢占内核中，自旋锁实现为“禁止内核抢占”，并不实现“自旋”。 c. 在多cpu，可抢占内核中，自旋锁实现为“禁止内核抢占” + “自旋”。其中，禁止内核抢占只是关闭“可抢占标志”，而不是禁止进程切换。显式使用schedule或进程阻塞时，还是会发生进程调度的。读/写自旋锁 Linux中规定，读/写自旋锁允许多个线程同时以只读的方式访问临界资源，只有当一个线程想更新数据时，才会互斥访问资源。读写自旋锁包括一个24位读者计数和一个解锁标记来实现的。信号量 Linux中提供了两种信号量： a. 内核信号量，由内核程序使用 b.

23、 System V IPC 信号量，由用户进程使用当一个线程去请求以不可用的信号量时，和自旋锁不同，该进程会进入睡眠，加入到等待队列中，直到被唤醒，所以只有可睡眠的状态才可以使用信号量。信号量实现的结构体semphore中有一变量count计数。根据count取值的设定，信号量可以分为二元信号量和计数信号量，当count初值为1时，则为二元信号量。计数信号量允许任意数量的锁持有者，这点和自旋锁是不同的。读/写信号量读写信号量实际上对于读者使用的是一个计数信号量，写者使用的是二元信号量。读写信号量同读写自旋锁一样提高了内核的并发度。 Linux内核时按照先进先出的顺序来处理等待读写信号量

24、的进程。具体过程是如果一个进程试图获取一个不可用的信号量时，加入到等待队列的末尾，当信号量可用时，内核首先唤醒等待队列的第一个进程，如果该进程为写进程，那么该进程获得信号量。如果该进程如果为一个读进程，那么其后的所有的读进程都可以被唤醒并获得信号量，但是中间不能跳跃。 BKL BKL即全局内核锁，也称大内核锁，它是一个全局自旋锁。大内核锁也是用来保护临界区资源的，避免出现多个处理器上的进程同时访问同一区域，整个内核中只有一个大内核锁。 BKL是一个名为kernel_flag的自旋锁，持有该锁的进程仍可以睡眠，当睡眠时持有的锁将被自动释放，该进程被唤醒时重新持有该锁。Linux允许一个进程可以递

25、归的持有BKL，BKL是一个递归锁。它的设计思想是，一旦某个内核路径获取了这把锁，那么其他所有的内核路径都不能再获取到这把锁。自旋锁加锁的对象一般是一个全局变量，大内核锁加锁的对象是一段代码，里面可能包含多个全局变量。那么他带来的问题是，虽然A只需要互斥访问全局变量a，但附带锁了全局变量b，从而导致B不能访问b了屏障屏障或称内存屏障，是用来解决内存同步问题的，具体为对由于编译器的优化和缓存的使用，导致对内存的写入操作不能及时的反应出来，也就是说当完成对内存的写入操作之后，读取出来的可能是旧的内容的一种解决机制。内存屏障分类： a.编译器引起的内存屏障 b.缓存引起的内存屏障 c.乱

26、序执行引起的内存屏障五、内存管理机制内存管理主要负责完成当进程请求内存时给进程分配可用的内存，当进程释放内存时，回收相应的内存，同时负责跟踪系统中相应内存的使用状态。 Linux采用页式内存管理，页是物理内存管理的基本单位。但严格来说Linux采用的是段页式内存管理，既分段也分页。内存映射的时候，先确定对应的段，确定段基地址，段内分页，再找到对应的页表项，确定页基地址，再由逻辑地址的低位确定的页偏移量就能找到最终的物理地址。但Linux中的所有段地址都是0，即所有的段是相同的，之所以有段的概念是因为Linux为了符合硬件体系。所以Linux实际采用的是页式内存管理，但段的概念在内核中确实存

27、在。 1、物理内存的管理 Linux中首先将内存分为若干个节点，每个节点下面又可分为13个区，每个区下面会有若干个页。节点内存节点主要是依据CPU访问代价不同而划分的。一个CPU对应一个节点。内核数组区内核以struct_zone来描述内存分区。内核将所有的物理页分为3个区:ZONE_DMA、node_data形式组织节点，存储的为struct page_data_t指针来描述内存分区。 ZONE_NORMAL、ZONE_HIGHMEM。 ZONE_DMA区中包含的页可以用来进行DMA操作，即直接内存访问操作，通常为物理内存的起始16M。ZONE_NORMAL区包含的页是可以进行正常的内

28、存映射的页物理内存为16896M。ZONE_HIGHMEM区称为“高端内存”，该区所包含的页不可以进行永久映射，即不可以永久映射到内核地址，物理内存896M以后的。高端内存的边界为896M的原因：32为Linux系统中虚拟内存空间为0-4G，3G-4G为内核态。为了应对内核映射超过1G，Linux采取的策略：内核地址空间的896M采用固定映射，映射方法：虚拟地址-3G=物理地址，只能映射896M，即3G3G+896M，剩余的128M采用动态映射。 Linux下以struct zone结构体来表示一个区，在该结构体中变量struct page *zone_mem_map用来管理该区下的内存映射

29、表。页每一个物理页框都使用一个数据结构struct page来描述，该结构体中的lru变量构建用于LRU页面置换的链表。在页框空闲情况下，该成员变量用于构建伙伴算法、链表同等大小的空闲内存块。大多数32bit的操作系统的页大小为4KB。 2、伙伴算法 Linux采用的是伙伴算法对物理内存进行管理。伙伴机制是操作系统的一种动态存储管理算法，该算法通过不断平分较大的空闲内存块来获得较小的空闲内存块，直到获得所需的内存块。当内存释放时，该算法尽可能的合并空闲块。该算法要求内存块的分配和合并都是以2的幂次方为单位。在“区”内存结构体struct zone中有一struct free_area类型

30、的数组free_area，数组最大为12个元素。数组的下标k对应着固定大小2k个页框空闲内存区域的双向链表头。当需要空闲块为4个页框时则查找free_area2，如果没有合适的，则查找free_area3，直到找到合适的。 3、slab分配器 Linux中引入slab是为了减少对伙伴算法的调用，采用slab分配器来减少频繁分配和释放内存数据结构的开销，同时减少了碎片的产生。slab分配机制是基于伙伴算法之上实现。 slab是基于一组对象缓存，把不同对象划分为caches，每个cache保存一种类型的对象，每个cache由一个或者多个slab组成，每个slab包含一个或者多个page组成。每个

31、slab处于3中状态之一，即full、partial和empty，其中满状态的slab没有任何可分配的空闲对象。当请求空闲对象时则从部分满和空的slab中分配。 Linux内核中的cache以结构体kmem_cache_s来表示，结构体中变量lists中存储的为三个链表分别对应于slab的三种状态。总结来说，当为一对象申请内存时，首先查找到该对象的cache，然后查找cache中的slab列表，分配空闲内存。当释放该对象内存时，则返回给该对象对应的slab。这样伙伴算法就不需要频繁的进行分配和合并操作。 4、虚拟内存逻辑地址-线性地址-物理地址的转换过程逻辑地址即程序指令的地址，线性地址

32、指页式转换前的地址，物理地址则是物理内存中的地址。一个逻辑地址由两部份组成，段标识符: 段内偏移量。段基址确定它所在的段居于整个存储空间的位置,偏移量确定它在段内的位置。Linux中由于段基址都是0，所以逻辑地址和线性地址相同。线性地址再通过MMU进行转换到物理地址，这个过程下面重点讲下。 Linux也是内存管理使用三级表结构：页目录、页中间目录、页表。一个活动任务都有一个页目录，大小一般为一页，页目录必须在内存中。页中间目录可以跨越多个页。页表同样可以跨越多个页，对应具体的页框。具体过程如下图：页面置换算法 Linux中页结构体的组织方式为双向循环链表。Linux中页面置换算法基于时钟算

33、法机制实现，页结构体page中有一变量count专门用来计算页面被引用的次数。每当页面被访问一次时，count加1。在Linux后台，Linux周期性地扫描全局页池，并且当它在内存中的所有页间循环时，将扫描的每一页的count减1。age越大则使用频率越高。最终内核通过最近未使用算法进行页面置换。 6、高速缓存 Linux使用了一系列的高速缓存相关的内存管理技术来提高性能。此处的高速缓存并非是物理缓存，而是软件方法。Linux中主要包括以下几个缓存： Buffer Cache，包括了用于块设备驱动程序的数据缓冲区。这些缓存区固定，包括从块设备要读取的数据和要写入块设备的数据。操作时先查看缓冲区

34、。 Page Cache，用来加快对磁盘上映像和数据的访问。用来缓存文件的逻辑内容，一次缓存一页。 Swap Cache，只有改动过的页才存在交换文件中，只要交换文件没有再次修改，下次这些页需要交换出时就不需要再写到交换文件中。 Hardware Cache，常见方法是在处理器中PTE的高速缓存。这种情下处理器不需要直接读取页表，需要时把页表放在缓存区中。CPU有转换表缓冲区，来快速查找置换页表。六、虚拟文件系统虚拟文件系统(VFS，virtual filesystem),是一个内核软件层，是物理文件系统与服务之间的一个接口层，它对Linux的每个文件系统的所有细节进行抽象，使得不同的文件

35、系统在Linux核心以及系统中运行的其他进程看来，都是相同的。严格说来，VFS并不是一种实际的文件系统。它只存在于内存中，不存在于任何外存空间。VFS在系统启动时建立，在系统关闭时消亡。 Linux中系统可以使用连接成单一树形结构的不同文件系统。VFS可以无缝地使用多个不同的文件系统，通过VFS可以访问文件系统的系统调用提供一个统一的抽象接口，支持多种文件系统。 VFS的作用是采用标准的UNIX系统调用读/写位于不同物理介质上的不同文件系统，方便的在不同文件系统间进行数据交换和管理。 Linux系统中，VFS使用4个主要对象：超级块、索引节点、目录项、文件对象。每个对象的数据结构中不仅包含了

36、属性还包含了对应的操作。 1、超级块超级块用于存储已安装文件系统的控制信息的数据结构，代表已安装的文件系统，一个安装实例和一个超级块是一一对应关系。超级块描述文件系统的状态、文件系统类型、大小、区块数、索引节点数等，存放在磁盘的特定扇区中。超级块使用结构体super_block表示。变量s_list指向超级块链表的指针，同一时间内核会拥有好几个文件系统的超级块，内核采用双向循环链表的方式来组织这些超级块。变量s_root指针指向目录项的根目录。 2、索引节点存储文件的元数据的一种结构，文件的元数据就是文件的相关信息，和文件本身是两种概念。它包含诸如文件大小、拥有者、创建时间、磁盘位置

37、等和文件相关的信息。每个索引节点都有一个索引节点号，唯一的标识文件系统中的文件。索引节点在文件的整个生命周期都存在。索引节点使用结构体inode来表示。变量i_hash包含了一个指向哈希链表的指针，哈希表加速索引节点的查找。 i_ino保存一个索引号，唯一标识。变量i_sb指针指向文件所驻留的文件系统的超级块。 3、目录项存放目录项与对应文件进行链接的有关信息。在一个文件路径中，路径中的每一部分都被称为目录项，如/home/source/hello.c中，目录/，home,source和文件hello.c都是一个目录项。目录项使用结构体struct dentry来表示。 4、文件对象文件对象表示进程已打开的一个文件，它是已打开文件在内存中的表示。多进程可能同时打开同一文件，内存中可能存在多个与同一文件对应的文件对象，但与该文件对应的索引节点和目录项是唯一的。文件对象使用结构体struct file来表示。 5、四者的关系