nachos实验——文件系统实现

1. 实验内容

直接引用实验手册(这学期的助教真的贴心)：

NachOS 文件系统简介

在 NachOS 里，有两份文件系统的实现：

利用宿主机的 File System 接口实现 NachOS 文件操作，直接读写宿主操作系统上的文件
维护一个宿主机上的DISK文件作为 NachOS 的模拟磁盘，在其上进行基于 Sector 的操作

在lab2代码的基础上，将code/build.linux/Makefile line 194 中的 -DFILESYS_STUB去掉，并将code/filesys/filesys.h中的 Line 67 ~ 94 的Write()与Read()两个函数定义拷至该文件后半部分的class FileSystem定义中，重新编译即可使用内置的虚拟磁盘：

$ cd code/build.linux
$ make clean
$ make -j
$ cd ../test
$ ../build.linux/nachos -f
$ ../build.linux/nachos -cp fork fork_in_virtual_disk
$ ../build.linux/nachos -x fork_in_virtual_dist

其中，-f参数将格式化 NachOS 虚拟磁盘，-cp将文件从 UNIX 文件系统拷贝到 NachOS 文件系统中，-x参数使 NachOS 在虚拟磁盘中寻找对应名字的可执行文件并执行。更多参数可以参照code/threads/main.cc中的注释

实验内容与要求

NachOS 自带的文件系统限制诸多，例如：不支持变长文件；不支持目录；不支持多级索引。

本次实验分为两个阶段：

Part 1：多级索引
Part 2：多级目录与数据恢复

在本次实验中，你需要对助教提供的 Lab3 部分代码进行完善，对 NachOS 文件系统进行功能扩充。

我们提供了两个阶段的完整代码，需要将已完成的阶段一的代码复制到新项目的相应位置（将完成的6个洞的代码复制到对应位置即可）。

Part1 多级索引

主要任务

你需要阅读lab3源码中的如下文件：

- <root>
  | NachOS-4.0
    | code
      | filesys
>>      | filehdr.cc
>>      | filehrd.h
>>      | filesys.cc
>>      | filesys.h
>>      | openfile.cc
>>      | openfile.h
>>      | synchdisk.cc
        | 其他已有的文件

与原版NachOS进行比对，理解NachOS一级索引的工作流程。同时仔细阅读提供的实验代码的注释，思考多级索引与一级索引的不同，并根据提示完成注释中提示的空缺部分

重点与难点

当写文件的长度超过文件现有长度，如何对文件进行扩充？
多级索引文件偏移如何映射到实际的sector号？

测试方法

$ cd code/test
$ ./toTestFileSys.sh > testOutcome.txt; cat testOutcome.txt
$ # toTestFileSys脚本内容如下:
$ nl toTestFileSys.sh 
     1	#!/bin/bash
     2	nachos='../build.linux/nachos'
     3	$nachos -f
     4	$nachos -cp h.txt h.txt
     5	$nachos -cp testFileSys testFileSys
     6	$nachos -x testFileSys

正确的测试结果见主页的testOutcome.txt

Part2 多级目录与数据恢复

主要任务

阶段二相较于阶段一，主要是下面的若干文件发生了改动：

- <root>
  | NachOS-4.0
    | code
      | filesys
>>      | directory.cc
>>      | directory.h
>>      | filesys.cc

理解NachOS创建根目录的工作流程，同时仔细阅读提供的实验代码的注释，思考如何创建一个新目录，以及如何恢复已删除数据，并根据提示完成注释中提示的空缺部分。

多级目录：
NachOS采用特殊的文件来表示一个目录，该特殊文件采用固定大小，文件用于存放固定个数的目录项(DirectoryEntry)，NachOS中创建一个目录就是创建一个相应的特殊文件。
数据恢复：
NachOS通过FileSystem::Remove函数来删除一个文件，该函数的作用是将已分配给该文件的扇区释放，然后在当前目录中将该文件的相应目录项的inUse字段置为FALSE。可以看到，删除文件后仍残留着一些信息可以供我们做数据恢复。为了避免恢复时覆盖丢失数据，我们将恢复出的数据写入到原生Linux系统中的一个文件中。

重点与难点

如何在一个目录中创建一个新的目录？
NachOS删除一个文件时做了哪些操作？有哪些残留信息可以帮助我们恢复文件？

测试方法

$ cd code/test
$ ./toTestDirectoryAndRecovery.sh;
$  cat recovery.txt

toTestDirectoryAndRecovery.sh脚本通过创建文件folder1/folder2/file，对其进行读写来验证多级目录相关代码的正确性，随后通过删除该文件，再恢复到recovery.txt中来验证recovery功能是否正常。若recovery.txt中包含10行字符串we write contents to folder1/folder2/file则说明recovery功能是正常的。

详细培训-那么我们需要干嘛呢??

多级索引

索引是一种将文件内容组织在磁盘上的方式。

当用户想要访问一个指定文件的指定偏移时，需要查找索引表，然后根据索引表的提供的sector号去访问文件内容。

一级索引：
在文件Header中有一个sector号的数组。
由于每个sector大小固定，访问指定偏移时，只需要将偏移除以sector大小即可知道sector号在数组第几个，根据该sector号去这个sector上获取文件内容。该sector称为dataSector
这样带来的好处是文件不用连续存放，可以分散在磁盘各个位置，提高利用率，并且访问每次访问指定偏移所需的读取磁盘的次数恒定为2(访问header算一次)。
坏处则十分显然：文件最大大小受到header大小的限制
二级索引：
相比一级索引，二级索引就是将sector号数组放在磁盘上，而不是放在header中。这个存放sector号数组的sector称为indiretSector。
访问指定偏移时，首先看该偏移是否在一级索引可以寻找到的位置，若不在，则计算sector号其应该在哪一个indirectSector，在其中获取sector号数组，接下来类似一级索引

你需要做的-补洞!

首先,如果你用grep(global search regular expression(RE) and print out the line)命令匹配"洞",就会得到:

所以,这次实验一共有11个(阶段一6个+阶段二5个)"洞"需要勇敢的你来填补!
阶段一的6个洞按照顺序分别在这六个成员函数中.

FileHeader::Allocate()
FileHeader::Deallocate()
FileHeader::ByteToSector()
FileHeader::expandFile()
OpenFile::WriteAt()
FileSystem::Open()

阶段二的5个洞按照顺序分别在这五个成员函数中(其中有三个洞的需要填的内容基本一样).


FileSystem::Create()
FileSystem::CreateFolder()
FileSystem::Open()
FileSystem::Remove()
FileSystem::Recover()

等等!

在补洞之前

当然了,在开始补洞之前,你还需要理解这个洞,也就要阅读相关源码.
这次你需要关注的lab3相关源码是哪些呢?也许聪明的你已经想到了,就是这些:

如果你用grep递归匹配lab\s?3(这是正则表达式,以后如果掌握了可能大大提高字符串匹配效率),就会得到如下结果:

你可以参照前几次实验同样位置的源码，理解清楚本次多级索引在此基础上增加了哪些工作量

补洞

下面开始给出进一步的提示:

洞1：FileHeader::Allocate
首先,你需要对indirectSectors进行处理，方法类似于:
dataSectors[i] = freeMap->FindAndSet();
然后，对sectors[NumInDirectIndex]数组元素一次进行类似操作，注意继续统计doneSec，直到这次的sectors[]用完，或者doneSec达到numSectors的大小。
最后，你需要将sectors[]，用SynchDisk中的某接口写入到indirectSectors[j]中。
洞2：FileHeader::Deallocate
和洞1很相似,这里为了deallocate，首先要读indirectSectors[j] (用什么接口呢？)，然后进行allocate的逆操作，然后将对应的使用了的sector进行clear操作，最后别忘了indirectSectors[j]也要clear
洞3：FileHeader::ByteToSector
返回offset这个字节所在的sector号。
分为在direct sector和在indirect sector两种情况。这里需要理解多级索引的地址计算，加油！
洞4：FileHeader::expandFile
在write的文件大小超过原本大小的时候变长。找到indirectSectors[j]!=-1时的sector，或者indirectSectors[j]==-1的第一个sector，并进行修改，修改的操作和allocate洞1十分相似，别忘了将修改的secetors[]写回到indirectSectors[j]的块中。
洞5：OpenFile::WriteAt
先计算需要的sector总数目，然后调用FileHeader类里的expandFile()函数。
之后修改hdr，也就是写回(FileHeader::WriteBack)，最后写回freeMap
洞6：FileSystem::Open
这里处理open。
根据得到的sector，添加到openedFile里面。
注意不要修改openedFile[0,1,2]，从openedFile[3]开始分配
洞7：FileSystem::Create(char *name, int initialSize)
将name包含的目录名解析出来，然后从根目录开始跳转定位到当前目录。
若name中包含的目录不存在，则认为失败并返回FALSE。
例如，name为“folder1/folder2/file1”,则需要从根目录出发，通过其下的folder1到达folder2，然后在folder2目录下创建文件file1，若folder1或folder2不存在，则失败返回FALSE。
洞8：FileSystem::CreateFolder(char *name)
将name包含的目录名解析出来，然后从根目录开始跳转定位到当前目录，并在当前目录下创建相应的新目录，具体过程可参考NachOS的根目录创建过程。
例如，name为“folder1/folder2/folder3”,则需要从根目录出发，通过其下的folder1到达folder2，然后在folder2目录下创建名为folder3的文件（目录就是一个文件），若folder1或folder2不存在，则失败返回FALSE。
注：实现该函数可以参考FileSystem::Create函数。
洞9：FileSystem::Open(char *name)
将name包含的目录名解析出来，然后从根目录开始跳转定位到当前目录。
若name中包含的目录不存在，则认为失败并返回FALSE。
洞10：FileSystem::Remove(char *name)
将name包含的目录名解析出来，然后从根目录开始跳转定位到当前目录。
若name中包含的目录不存在，则认为失败并返回FALSE。
洞11：FileSystem::Recover(char *srcName, char *dstName)
将srcName包含的目录名解析出来，然后从根目录开始跳转定位到当前目录，并在当前目录下判断是否能够恢复（即目录表项是否还有条目的名字为待恢复文件的名字），若能的话，恢复相应的文件并存放到原生Linux系统下的dstName文件中。
注：实现该函数可以参考FileSystem::Create函数。

2. 具体实现

1） part1——多级索引的实现

a)多级索引的原理

在文件Header中有一个sector号的数组。由于每个sector大小固定，访问指定偏移时，只需要将偏移除以sector大小即可知道sector号在数组第几个，根据该sector号去这个sector上获取文件内容。该sector称为dataSector

二级索引就是将sector号数组放在磁盘上，而不是放在header中。这个存放sector号数组的sector称为indiretSector。

我们在本实验中只考虑二级索引，多级索引其实可以类推。

b)代码分析

主要涉及filehdr.cc、openfile.cc和filesys.cc,补充或者修改了以下函数：

FileHeader::Allocate()

FileHeader::Deallocate()

FileHeader::ByteToSector()

FileHeader::expandFile()

OpenFile::WriteAt()

FileSystem::Open()

洞1：这是在Allocate()的补充的一段代码，用来分配indiretSector，比较简单。

indirectSectors[j]=freeMap->FindAndSet();      

        int k;

        for(k=0; k<NumInDirectIndex&& doneSec < numSectors; k++,doneSec++){//关键在于这里边界条件，要兼顾两方面

            sectors[k]=freeMap->FindAndSet();//分配索引

        }

        if(doneSec==numSectors)

            for(intp=k;p<NumInDirectIndex;p++)

                sectors[p]=-1;

kernel->synchDisk->WriteSector(indirectSectors[j],(char*)sectors);

洞2：这里代码位于Deallocate()，可以看作洞1的反向作用，用到了freemap->clea去清除相应sector的索引。代码就不贴了。

洞3：位于ByteToSector()，我们要做的是补充寻找offset对应byte所在的sector号的过程，这里的计算方法虽然简短但是值得说一下：

if(offset<DirectSize)  

        index=dataSectors[offset/SectorSize];//如果在datasector里，直接计算sector号

    else{

//否则把前面计算的indirectIndex对应的次级sector的内容读到sectors里

kernel->synchDisk->ReadSector(indirectSectors[indirectIndex],(char*)sectors);

//然后找出具体的对应的sector

        index=sectors[(offset-DirectSize - indirectIndex*InDirectSectorSize)/SectorSize];

    }

洞4：在expandFile()中，先说实现想法——对于只使用了部分的indirectsector，要把未使用的部分先扩展，其后才是扩展其他的indirectsector。

  int sectors[NumInDirectIndex]; //indextable

        int k;

        for(k=0;k<NumInDirectIndex;k++) sectors[k]=-1;

        if (indirectSectors[j] ==-1){

            indirectSectors[j]=freeMap->FindAndSet();

            for(k=0; k<NumInDirectIndex&& doneSec < numSec; k++,doneSec++){

                sectors[k]=freeMap->FindAndSet();

            }

            kernel->synchDisk->WriteSector(indirectSectors[j],(char*)sectors);

        }

        else{ // 有东西

   kernel->synchDisk->ReadSector(indirectSectors[j],(char*)sectors);

            for(k=0; k<NumInDirectIndex;k++){

                if(sectors[k] ==-1){

                    if(doneSec < numSec)

                        sectors[k]=freeMap->FindAndSet();

                    elsebreak;

                }  

            }

            kernel->synchDisk->WriteSector(indirectSectors[j],(char*)sectors);

        }

洞5：位于WriteAt(),主要工作是对写入大小超出初始限度的情况进行处理。

首先先修改头文件的信息，改变记录的大小。

hdr->SetBytes(position+numBytes);

hdr->WriteBack(getHeaderSector());

然后是对文件进行扩展，这里主要是调用了上面的expandFile()。

 if((position+numBytes) > fileLength){

        OpenFile *freeMapFile = kernel->fileSystem->getFreeMapFile();

        PersistentBitmap *freemap =newPersistentBitmap(freeMapFile, NumSectors);

        int numSectors = ( position +numBytes +SectorSize -1)/SectorSize;

        if(hdr->expandFile(numSectors,freemap)){

            hdr->WriteBack(getHeaderSector());

            freemap->WriteBack(freeMapFile);

            fileLength = hdr->FileLength();

        }

        elsereturn0;

        delete freemap;

    }

洞6：这里的操作是将opened文件加入到队列之中，这里关键在于

// 注意不要修改openedFile[0,1,2],从openedFile[3]开始分配

关于这一点私以为是前面维护了打开的目录文件或者bitmap等文件。

for(i=3;i<MaxOpenFile;i++){

        OpenFile *file =openedFile[i];

        if(file ==NULL){  

            if(sector>=0)

                openFile =newOpenFile(sector);

            else    returnNULL;

            addFile(i,openFile);

            openFile->setId(i);

            break;

        }

    }

2） part2——多级目录与数据恢复的实现

主要涉及filesys.cc的洞7~洞11，补充或者修改了以下函数：

FileSystem::Create()

FileSystem::CreateFolder()

FileSystem::Open()

FileSystem::Remove()

FileSystem::Recover()

洞7：在Create()函数里，这里我们要做的是根据解析的目录进行跳转跳转。

                int i;

    int hdr_sec;

for (i =0; i < folderStrVec.size()-1; i++) {

    //c_str()返回一个指向正规C字符串的指针, 内容与本string串相同. 这是为了与c语言兼容  

  name =(char*)folderStrVec[i].c_str();

//在当前目录中寻找下一级目录/文件

        hdr_sec = currentDirectory->Find(name);

        if(hdr_sec !=-1){

     //找到下级目录后更改当前目录

            currentDirectoryFile =newOpenFile(hdr_sec);

            currentDirectory->FetchFrom(currentDirectoryFile);

        }

        elsereturnFALSE;

    }

洞8：

boolFileSystem::CreateFolder(char*name)

{

    Directory *currentDirectory =newDirectory(NumDirEntries);

    OpenFile *currentDirectoryFile = directoryFile;

    currentDirectory->FetchFrom(currentDirectoryFile);

 

//这里是目录解析的代码，实际上基本照抄FileSystem::Create里的解析方法即可，这里是洞中第一次出现，之后不会再分析

vector<string> folderStrVec;

//详细说一下strtok函数，我之前没有了解过这个字符串处理函数，其实功能蛮强大的，用于切割字符串，将str切分成一个个子串 在第一次被调用的时间str是传入需要被切割字符串的首地址；在后面调用的时间传入NULL。 delimiters：表示切割字符串（字符串中每个字符都会当作分割符）。 

    char* tmpStr =strtok(name,"/");

    while (tmpStr !=NULL)

    {

        folderStrVec.push_back(string(tmpStr));

        tmpStr =strtok(NULL, "/");

}

 

  ……//这里是目录的跳转，代码基本同洞7，故略去

 

    //具体创建过程

    name = (char*) folderStrVec[i].c_str();

    PersistentBitmap *freemap =newPersistentBitmap(freeMapFile, NumSectors);

    int dir_sec = freemap->FindAndSet();//分配索引

    freemap->WriteBack(freeMapFile);//写回

    if(dir_sec){//申请成功

        FileHeader *dir_hdr =newFileHeader();

        if(dir_hdr->Allocate(freemap,DirectoryFileSize)){//分配空间

            freemap->WriteBack(freeMapFile);

            Directory *dir =newDirectory(NumDirEntries);

             //头文件写回

            dir_hdr->WriteBack(dir_sec);

            OpenFile *dir_file=newOpenFile(dir_sec);

            dir->WriteBack(dir_file);

            currentDirectory->Add(name,dir_sec);//添加到目录文件

            delete dir;

            delete dir_file;

        }

        elsereturnFALSE;

    }

 

    currentDirectory->WriteBack(currentDirectoryFile);

    if (currentDirectoryFile != directoryFile)

        delete currentDirectoryFile;

    returnTRUE;

}

洞9洞10：目录的解析跳转，此不赘述。

洞11：recover

boolFileSystem::Recover(char*srcName, char*dstName){

    FILE *out =fopen(dstName, "w");

 

    Directory *currentDirectory =newDirectory(NumDirEntries);

    OpenFile *currentDirectoryFile = directoryFile;

    currentDirectory->FetchFrom(currentDirectoryFile);

 

    ……//此处略去目录解析跳转

 

    srcName = (char*) folderStrVec[i].c_str();

int srcSector = currentDirectory->Find(srcName,TRUE);

//这里参数true设置很关键，否则将到不到对应的被移除文件

    if( srcSector==-1)

        returnFALSE;

    else{

        OpenFile *srcFile =newOpenFile(srcSector);

        FileHeader *hdr =srcFile->getHdr();//获得header

        int length = hdr->GetBytes();//获得文件大小

        char str[length+5];

        srcFile->Read(str,length);//读取内容

        str[length]='\0';

        fwrite(str,1,length,out);//将读的内容保存到dstName对应文件里

        delete srcFile;

    }

 

    delete currentDirectory;

    if (currentDirectoryFile != directoryFile)

        delete currentDirectoryFile;

    fclose(out);

 

    returnTRUE;

}

这里说一下前面提到的find的问题

Int Directory::Find(char*name,bool justCompareName)

这里会调用：

FindIndex(name, justCompareName);

然后观察这个函数如下

int

Directory::FindIndex(char*name, bool justCompareName)

{

    if (justCompareName) {

        for (inti =0; i < tableSize; i++)

            if (!strncmp(table[i].name, name, FileNameMaxLen))

                return i;

        return-1;      // name not in directory

    }

    for (inti =0; i < tableSize; i++)

        if (table[i].inUse&&!strncmp(table[i].name, name, FileNameMaxLen))//如果前面不设置成ture，这里还会确认sector是否被使用，然而移除的文件势必相应的inUse=0，这样就找不到文件位置了

        return i;

    return-1;      //name not in directory

}

3. 遇到的问题

a) 一个问题就是没有注意到find的justcomparename参数的意义，设置不对，导致recover总是结果出错。

b) 刚开始自己上手直接写字符串处理，解析目录，结果繁琐还有bug，然后发现了其实给的环境里就有写好的解析目录的字符串处理……而且使用strtok代码十分简洁。

c) 在补洞4的是时候没有如下的赋初值操作

for(k=0;k<NumInDirectIndex;k++)sectors[k]=-1;

这样实际上就欠考虑，比如，如果一个indirectSector没有使用完，写回的时候，没有被赋值的索引的值就不正确。