关于虚拟文件系统机制
虚拟文件系统引入的原因是在linux操作系统上支持多种文件系统,而这多种文件系统提供的接口都是不同的,所以linux操作系统为了能够给用户提供统一的接口,就引入了虚拟文件系统。虚拟文件系统是通过提供多种创建的文件系统对象模型来实现的,如struct file、file_operations,inode、inode_operations,super_block、dentry等结构体来实现的.
我自己也实现过一个无持久化功能的内存文件系统,它会通过内核的那个makefile文件被编译成.ko文件.然后在使用的时候需要先通过insmod 命令来对它进行加载.insmod命令里面就会调用我那个文件系统中通过module_init注册的加载函数.那个函数里面主要就是通过调用一个register_filesystem函数,对我们这个文件系统进行注册,参数是file_system_type 结构体.里面包含的成员有文件系统的名称,然后还有一个mount函数.这个mount就是该文件系统在挂载的时候会被调用的.linux操作系统中所有注册的文件系统的file_system_type都会被挂到一个链表上去.所以这里register_filesystem要做的工作就是根据要注册的文件系统的名称到那条链表上去查找是否存在相同名称的文件系统,如果已经存在就直接return.如果不存在的话,才会以尾插的方式将传入的file_system_type放入到该链表上去.放上去之后注册工作就是完成了.这个时候我们通过lsmod就可以看到注册的文件系统.然后由于一个文件系统只有挂载之后才能被其他进程访问,所以接下来我们需要通过mount命令来对该文件系统进行挂载.mount底层调用的是sys_mount系统调用.然后调用链就是sys_mount->do_mount->do_new_mount->vfs_kern_mount.vfs_kern_mount里面会给该当前系统创建一个mount结构体.mount结构体就是用来对挂载的文件系统进行描述的(可以说一下里面的成员).然后会调用mount_fs,mount_fs里面就会根据mount的文件系统的名称找到对应的file_system_type,然后调用里面的mount函数来进行挂载.我那个文件系统的mount实现其实就是调用操作系统提供的mount_nodev来完成挂载的.
文件系统在被挂载之后,就可以在挂载的目录下创建文件,读写文件.比如当我们open该目录下一个文件的时候,它里面的执行流程open->sys_open->do_sys_open.do_sys_open里面首先会根据传入的路径找到目标文件所在目录下目录文件的inode结构体.然后再根据目标文件的名称在dentry cache中查找目标文件的dentry结构体.如果dentry cache中不存在的话,就会调用所在目录的inode结构体中inode_operations中的lookup函数.如果是ext4文件系统的话,它就会给根据目标文件的系统创建一个信息的inode结构体,将它绑定到新的dentry结构体上面去.再将新的dentry绑定到struct path上去,最后这个sturct path会被绑定到我们给这个文件创建的struct file上面去,并且会根据inode中的信息对这个struct file中的信息进行填充.里面最重要的就是将inode中的file_operations设置到struct file的file_operations上面去.然后调用file_operations中的open真正打开文件.执行完成之后,会将struct file放入到files_struct里面去,然后将它的下标返回.所以我们在文件系统进行实现的时候,主要实现的其实就是inode_operations里看的函数和file_operations里面的函数,然后再创建inode节点的时候将file_operaions和inode_operations设置到里面去就行了.
open完成之后,我就可以通过read、write来对文件进行读写操作.read、write底层调用的sys_read、sys_write,然后再下面就是虚拟文件系统层,调用的是vfs_read、vfs_write.这个vfs__read和vfs_write要做的事情其实就是根据传入的文件描述符找到对应的struct file结构体,然后根据struct fiile结构体调用他里面的file_operations里面的read、write.如果是ext4文件系统的话,那么它里面的read、write首先会判断是否需要用到page cache(这里可以拓展一下).如果不需要用到的话,那么read、write会被直接变成读写磁盘的操作.我们一般从效率来讲,是需要用来page cache的 ,所以如果使用到了page cache的话,那么它这里先会进行一些准备工作,比如由于ext4属于日志文件系统,所以这里会进行一下日志的准备工作,还有对于write操作,这里会需要根据write的偏移量,到该文件的struct file的address_space里面的基数中的查找对应的要写入的物理页(如果没有分配新的物理页).准备工作做完之后就会讲要写入的数据拷贝到物理页上去. 然后第三步是写完成之后,会结束日志,并且还会将对应的物理页标记为脏页.最后会判断当前脏页的数目是否过多了,如果过多了话就将选择部分脏页将他们中的数据同步到磁盘上面去.(其他刷脏页的场景有fsync、分配内存失败,定时器).read操作也类似的,会先根据read的偏移量到基数树中找是否存在要读取的数据,如果page cache中有就直接返回,如果没有的话,会从磁盘中对数据进行读取,并且还会预读.预读完成之后才将对应的数据进行返回.