C++高级数据结构算法 | 倒排索引（inverted index）

文章目录

从搜索引擎谈起
倒排索引的基本概念
倒排索引举例
浅谈正排索引
倒排索引的实现

从搜索引擎谈起

在关系数据库系统里，索引是检索数据最有效率的方式,。但对于搜索引擎，它并不能满足其特殊要求：

海量数据：搜索引擎面对的是海量数据，像Google，百度这样大型的商业搜索引擎索引都是亿级甚至百亿级的网页数量，面对如此海量数据 ,使得数据库系统很难有效的管理。
数据操作简单：搜索引擎使用的数据操作简单 ,一般而言 ,只需要增、删、改、查几个功能 ,而且数据都有特定的格式 ,可以针对这些应用设计出简单高效的应用程序。而一般的数据库系统则支持大而全的功能 ,同时损失了速度和空间。最后 ,搜索引擎面临大量的用户检索需求 ,这要求搜索引擎在检索程序的设计上要分秒必争 ,尽可能的将大运算量的工作在索引建立时完成 ,使检索运算尽量的少。一般的数据库系统很难承受如此大量的用户请求 ,而且在检索响应时间和检索并发度上都不及我们专门设计的索引系统。

搜索引擎通常检索的场景是：给定几个关键词，找出包含关键词的文档。

怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词——文档矩阵模型，通过这个模型我们可以很方便知道某篇文档包含哪些关键词，某个关键词被哪些文档所包含。单词-文档矩阵的具体数据结构可以是倒排索引、签名文件、后缀树等。

倒排索引源于实际应用中需要根据属性的值来查找记录，这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。

带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(inverted file)。

倒排索引一般表示为一个关键词，然后是它的频度（出现的次数），位置（出现在哪一篇文章或网页中，及有关的日期，作者等信息），它相当于为互联网上几千亿页网页做了一个索引，好比一本书的目录、标签一般。想看哪一个主题相关的章节，直接根据目录即可找到相关的页面。不必再从书的第一页到最后一页，一页一页的查找。

倒排索引的基本概念

倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地来讲，正向索引是通过key找value，反向索引则是通过value找key。

倒排索引（nverted Index），是一种索引方法，常被用于全文检索系统中的一种单词文档映射结构。现代搜索引擎绝大多数的索引都是基于倒排索引来进行构建的，这源于在实际应用当中，用户在使用搜索引擎查找信息时往往只输入信息中的某个属性关键字，如一些用户不记得歌名，会输入歌词来查找歌名；输入某个节目内容片段来查找该节目等等。面对海量的信息数据，为满足用户需求，顺应信息时代快速获取信息的趋势，聪明的开发者们在进行搜索引擎开发时，对这些信息数据进行逆向运算，研发了“关键词——文档”形式的一种映射结构，实现了通过物品属性信息对物品进行映射时，可以帮助用户快速定位到目标信息，从而极大降低了信息获取难度。倒排索引又叫反向索引，它是一种逆向思维运算，是现代信息检索领域里面最有效的一种索引结构。

文档(Document)：一般搜索引擎的处理对象是互联网网页，而文档这个概念要更宽泛些，代表以文本形式存在的存储对象，相比网页来说，涵盖更多种形式，比如Word，PDF，html，XML等不同格式的文件都可以称之为文档。再比如一封邮件，一条短信，一条微博也可以称之为文档。在本书后续内容，很多情况下会使用文档来表征文本信息。

文档集合(Document Collection)：由若干文档构成的集合称之为文档集合。比如海量的互联网网页或者说大量的电子邮件都是文档集合的具体例子。

文档编号(Document ID)：在搜索引擎内部，会将文档集合内每个文档赋予一个唯一的内部编号，以此编号来作为这个文档的唯一标识，这样方便内部处理，每个文档的内部编号即称之为“文档编号”。

单词编号(Word ID)：与文档编号类似，搜索引擎内部以唯一的编号来表征某个单词，单词编号可以作为某个单词的唯一表征。

倒排索引(Inverted Index)：倒排索引是实现“单词-文档矩阵”的一种具体存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：“单词词典”和“倒排文件”。

单词词典(Lexicon)：搜索引擎的通常索引单位是单词，单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。

倒排列表(PostingList)：倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息，每条记录称为一个倒排项(Posting)。根据倒排列表，即可获知哪些文档包含某个单词。

倒排文件(Inverted File)：所有单词的倒排列表往往顺序地存储在磁盘的某个文件里，这个文件即被称之为倒排文件，倒排文件是存储倒排索引的物理文件。

在实际的搜索引擎系统中，并不存储倒排索引项中的实际文档编号，而是代之以文档编号差值（D-Gap）。文档编号差值是倒排列表中相邻的两个倒排索引项文档编号的差值，一般在索引构建过程中，可以保证倒排列表中后面出现的文档编号大于之前出现的文档编号，所以文档编号差值总是大于0的整数。如图2所示的例子中，原始的 3个文档编号分别是187、196和199，通过编号差值计算，在实际存储的时候就转化成了：187、9、3。

之所以要对文档编号进行差值计算，主要原因是为了更好地对数据进行压缩，原始文档编号一般都是大数值，通过差值计算，就有效地将大数值转换为了小数值，而这有助于增加数据的压缩率。

倒排索引举例

下面是倒排索引的机构图：

下面是倒排索引的举例（左边是文件表、右边是索引表）

浅谈正排索引

正排索引是以文档的ID为关键字，表中记录文档中每个字的位置信息，查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。

正排索引结构如下图所示，这种组织方法在建立索引的时候结构比较简单，建立比较方便且易于维护；因为索引是基于文档建立的，若是有新的文档加入，直接为该文档建立一个新的索引块，挂接在原来索引文件的后面。若是有文档删除，则直接找到该文档号文档对应的索引信息，将其直接删除。但是在查询的时候需对所有的文档进行扫描以确保没有遗漏，这样就使得检索时间大大延长，检索效率低下。

尽管正排索引的工作原理非常的简单，但是由于其检索效率太低，除非在特定情况下，否则实用性价值不大。正排索引因为查询效率是 $O(n)$ ，所以用的不是很多；更多的时候是用于倒排索引的辅助作用；

正排索引用的场景：每个doc 里面的关键字基本是唯一的，如果建立倒排索引基本也是1个关键词对应一个doc；直接建立正排就可以了；正排索引建立起来简单。

倒排索引的实现

#include<iostream>
#include<map>
#include<vector>
#include<string>
#include<fstream>

using namespace std;

/* 存储单词频率与位置 */
struct FileNode
{
	int TF;	// 频率
	string pos; // 单词位置
};

/* 存储单词与倒排索引表的映射  —————  单词 - <文件号-次数-位置信息> */
typedef map<string, map<int, FileNode>> indexMap;
typedef map<int, FileNode> invertMap;

/* 建立倒排索引 */
void createIndex(indexMap& map)
{
	ifstream fin;

	/**
	 *	遍历三个文件，文件号 从 1-3，按照空格分割单词，并将其
	 *	频率和位置都加入到map中，实现单词与倒排索引表的映射
	 */
	for (int i = 1; i <= 3; i++)
	{
		string fileName = to_string(i) + ".txt";
		fin.open(fileName.c_str(), ios::in);
		string str;
		int posNum = 0;
		while (fin >> str)
		{
			/* 计算单词位置 */
			posNum++;

			/* 单词频率更新 */
			map[str][i].TF++;

			/* 单词位置更新 */
			map[str][i].pos += to_string(posNum) + " ";
		}

		/* 这里一定要注意，一个文件使用完毕后需要将其关闭 */
		fin.close();
	}
}

/* 根据倒排索引查询指定前缀的信息 —————— 文件号、频数与位置信息 */
void queryFileInfo(indexMap& map)
{
	string str;
	while (true)
	{
		cout << ">>";
		cin >> str;

		/* 输入的单词在表中不存在 */
		if (map.find(str) == map.end())
		{
			cout << "word isn't exist!" << endl;
			continue;
		}

		/* 根据输入的单词找到其倒排索引表 */
		auto it = map[str].begin();
		int priNum = 0;
		while (it != map[str].end())
		{
			/* 输出文件号信息与单词频数 */
			cout << it->first << ".txt  " 
			<< "   TF = " <<it->second.TF << endl;

			/* 输出单词位置信息 */
			cout << "pos = < " << it->second.pos 
			<< ">" << endl << endl;

			++it;
		}
		cout << endl;
	}
}

void InvertIndex()
{
	indexMap map;
	createIndex(map);
	queryFileInfo(map);
}

int main()
{
	InvertIndex();
}
int main()
{
	InvertIndex();
}