简单数据库实现——Part1 - REPL的简介和设置

Part1 - REPL的简介和设置

思考目录中的问题,简而言之就是数据库是如何工作的,为了搞清楚这些问题,我正在从头开始编写一个数据库,他模仿了sqlite,因此他更小而且功能更少。为了更好的理解,整个数据库被存储在一个文件中。

sqlite

sqlite的网站上有很多文档,这里我给出一个sqlite的设计与实现的架构图。
sqlite architecture
一个查询(query)通过一系列的组件来实现检索或修改数据。
前端(front-end) 组成:

  • 分词器(tokenizer)
  • 语法分析器(parser)
  • 代码生成器(code generator)

前端的输入是一个SQL查询,输出是sqlite虚拟机字节码(实际上是一个可以对数据库进行操作的的已编译程序)

后端(back-end) 组成:

  • 虚拟机(virtual machine)
  • B树(B-tree)
  • 寻呼机(pager)
  • 操作系统接口(os interface)

虚拟机 以前端生成的字节码作为指令。然后它可以对一个或多个表索引执行操作,每个表或索引都存储在称为B树的数据结构中。虚拟机本质上是一个关于字节码指令类型的大型switch语句。

每个 B树 由许多节点组成,每个节点的长度为一页。B树可以从磁盘检索页面,也可以通过向寻呼机发出命令将其保存回磁盘。

寻呼机 接受命令以读取或写入数据页。它负责以适当的偏移量在数据库文件中进行读取/写入。它还在内存中保留了最近访问页面的缓存,并确定何时需要将这些页面写回到磁盘。

操作系统接口 是根据不同的操作系统对sqlite进行不同的编译的层。本教程中,将不支持多平台。

让我们从更直接的东西开始:REPL。

实现一个简单的REPL

从命令行启动时,sqlite将会启动一个“读取-执行-打印”的循环(这个就是REPL)

~ sqlite3
SQLite version 3.16.0 2016-11-04 19:09:39
Enter ".help" for usage hints.
Connected to a transient in-memory database.
Use ".open FILENAME" to reopen on a persistent database.
sqlite> create table users (id int, username varchar(255), email varchar(255));
sqlite> .tables
users
sqlite> .exit
~

所以我们的主函数将有一个无限循环,它打印提示符,获取一行输入,然后处理这一行输入。

int main(int argc, char* argv[]) {
  InputBuffer* input_buffer = new_input_buffer();
  // 无限循环
  while (true) {
  	// 打印提示符
    print_prompt();
    // 获取一行输入
    read_input(input_buffer);

	// 处理这一行输入,为.exit时退出
    if (strcmp(input_buffer->buffer, ".exit") == 0) {
      close_input_buffer(input_buffer);
      exit(EXIT_SUCCESS);
    } else {
      printf("Unrecognized command '%s'.\n", input_buffer->buffer);
    }
  }
}

我们将InputBuffer定义为一个小包装器,包装我们需要存储的与getline()交互的状态。(稍后详细介绍)

typedef struct {
  char* buffer;
  size_t buffer_length;
  ssize_t input_length;
} InputBuffer;

InputBuffer* new_input_buffer() {
  InputBuffer* input_buffer = (InputBuffer*)malloc(sizeof(InputBuffer));
  input_buffer->buffer = NULL;
  input_buffer->buffer_length = 0;
  input_buffer->input_length = 0;

  return input_buffer;
}

print_prompt()显示提示信息。

// 类似mysql中的"mysql>"
void print_prompt() { printf("db > "); }

使用getline来读入一行。

ssize_t getline(char **lineptr, size_t *n, FILE *stream);

参数:
lineptr: 指向包含读取行的缓冲区的指针。
n: 指向保存已分配缓冲区大小的变量的指针。
stream: 读入数据的流类型,例如stdin。
返回值:
返回读取的字节数(bytes),可能小于n。

使用getline将读入的数据存入 input_buffer->buffer ,读入数据的大小存入 input_buffer->buffer_length,返回值存入 input_buffer->input_length。

// 此处与InputBuffer做交互
void read_input(InputBuffer* input_buffer) {
  // 使用getline读入指令并存入input_buffer中
  ssize_t bytes_read = getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);
  
  // 读入失败
  if (bytes_read <= 0) {
    printf("Error reading input\n");
    exit(EXIT_FAILURE);
  }

  // 忽略行末换行符
  input_buffer->input_length = bytes_read - 1;
  input_buffer->buffer[bytes_read - 1] = 0;
}

现在可以定义一个函数来释放读入时给InputBuffer所分配的空间。

void close_input_buffer(InputBuffer* input_buffer) {
	// 注意也要释放input_buffer中给buffer分配的内存
    free(input_buffer->buffer);
    free(input_buffer);
}

最后,我们解析并执行命令。现在只有一个可识别的命令 “.exit” ,它将终止程序。否则,我们将打印错误消息并继续循环。

让我们来尝试一下:

~ ./db
db > .tables
Unrecognized command '.tables'.
db > .exit
~

实践结果:
在这里插入图片描述

现在我们就有一个可以工作的REPL了,下一部分我们将会继续完善我们的命令语言。下面是第一部分的完整代码:

#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

typedef struct {
  char* buffer;
  size_t buffer_length;
  ssize_t input_length;
} InputBuffer;

InputBuffer* new_input_buffer() {
  InputBuffer* input_buffer = malloc(sizeof(InputBuffer));
  input_buffer->buffer = NULL;
  input_buffer->buffer_length = 0;
  input_buffer->input_length = 0;

  return input_buffer;
}

void print_prompt() { printf("db > "); }

void read_input(InputBuffer* input_buffer) {
  ssize_t bytes_read =
      getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);

  if (bytes_read <= 0) {
    printf("Error reading input\n");
    exit(EXIT_FAILURE);
  }

  // Ignore trailing newline
  input_buffer->input_length = bytes_read - 1;
  input_buffer->buffer[bytes_read - 1] = 0;
}

void close_input_buffer(InputBuffer* input_buffer) {
    free(input_buffer->buffer);
    free(input_buffer);
}

int main(int argc, char* argv[]) {
  InputBuffer* input_buffer = new_input_buffer();
  while (true) {
    print_prompt();
    read_input(input_buffer);

    if (strcmp(input_buffer->buffer, ".exit") == 0) {
      close_input_buffer(input_buffer);
      exit(EXIT_SUCCESS);
    } else {
      printf("Unrecognized command '%s'.\n", input_buffer->buffer);
    }
  }
}
发布了113 篇原创文章 · 获赞 30 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/Radium_1209/article/details/104050511