Explicación detallada del índice a plazo y el índice invertido


¡Dingdu! Aquí está la recopilación de los materiales del curso de estudio de Xiao Ah Woo. No es tan buena una buena memoria como una mala pluma, hoy también es un día para avanzar. ¡Avancemos juntos!
Inserte la descripción de la imagen aquí

1. Índice positivo

Después de que el rastreador araña se somete a operaciones como extracción de texto, segmentación de palabras chinas y deduplicación, el resultado es una cadena de palabras única que puede reflejar el contenido temático de la página. Luego, el programa de indexación del motor de búsqueda puede extraer palabras clave 为该页面建立与关键词的对应关系y este proceso se llama 正排索引.

1.正排索引: 由文档指向关键词

 文档--> 单词1 ,单词2

单词1 出现的次数  单词出现的位置; 单词2 单词2出现的位置  ...
正排索引:在搜索栏输入id查词条 
(已知id)

En segundo lugar, el índice invertido

Cuando el usuario está en el cuadro de búsqueda de 输入关键词un motor de búsqueda, el motor de búsqueda se lo dará 和关键词有关的页面展现al usuario y este proceso se llama 倒排索引.

2.倒排索引: 由关键词指向文档

单词1--->文档1,文档2,文档3

单词2--->文档1,文档2
倒排索引:
将搜索框中的词进行搜索查到哪些id包含这个词,在查这些id,找到词条 
(通过分词查出id) 

3. ¿Por qué los motores de búsqueda eligen un índice invertido?

El índice de avance no se puede utilizar directamente para la clasificación . Si solo hay un índice positivo, el programa de clasificación necesita escanear todos los archivos en la biblioteca de índices para encontrar los archivos que contienen esta palabra clave y luego calcular la correlación. De esta forma, los resultados de la clasificación no se pueden devolver en tiempo real .

Por lo tanto, el motor de búsqueda indexará la base de datos que se está reconstruyendo 倒排索引, la tabla de la página correspondiente a las palabras clave, la palabra clave en la página correspondiente.

De esta manera, cuando un usuario busca una determinada palabra clave, el programa de clasificación localiza esta palabra clave en el índice invertido y puede encontrar inmediatamente todas las páginas que contienen esta palabra clave.

Cuarto, las ventajas del índice invertido

1)不需要锁,提升并发能力,避免锁的问题。
(2)数据不变,一直保存在os cache中,只要cache内存足够。
(3)filter cache一直驻留在内存,因为数据不变。
(4)便于数据压缩,可以大幅度提高压缩率,节省cpu和io开销。
(5)在处理复杂的多关键字查询时,可在倒排表中先完成查询的并、交等逻辑运算,得到结果后再对记录进行存取,这样把对文档的查询转换为地址集合的运算,从而提高查找速度。

V. Resumen

正排索引和倒排索引的区别简单记为:
正排索引:文档 ---> 单词
倒排索引:单词 ---> 文档

El índice invertido tiene una amplia gama de escenarios de aplicación, como
motores de búsqueda, indexación de bases de datos a gran escala, recuperación de documentos, recuperación multimedia / recuperación de información, etc.
En resumen, el índice invertido es un mecanismo de indexación importante en el campo de búsqueda.

¡Finalizando!
¡Más registros de aprendizaje del conocimiento del curso llegarán más tarde!

就酱,嘎啦!

Inserte la descripción de la imagen aquí

Nota:
1. La vida es diligente, no se gana nada.
2. Para conocer la diferencia entre el índice directo y el índice invertido, consulte la publicación del blog: https://blog.csdn.net/u011243684/article/details/85264284

Supongo que te gusta

Origin blog.csdn.net/qq_43543789/article/details/108661502
Recomendado
Clasificación