你知道ES的docValues吗?

起因:

  1. 倒排索引的弊端
    1. 倒排索引它也是有缺陷的,假如我们需要对数据做一些聚合操作,比如排序,分组时,lucene内部会遍历提取所有出现在文档集合 
      的排序字段然后再次构建一个最终的排好序的文档集合list,这个步骤的过程全部维持在内存中操作,而且如果排序数据量巨大的话,非常容易就造成solr内存溢出和性能缓慢
  2.  其实,Doc Values本质上是一个序列化了的列式存储结构,非常适合排序、聚合以及字段相关的脚本操作。而且这种存储方式便于压缩,尤其是数字类型。压缩后能够大大减少磁盘空间,提升访问速度。下面是一个数字类型的 Doc Values示例:

Doc      Terms
-----------------------------------------------------------------
Doc_1 | 100
Doc_2 | 1000
Doc_3 | 1500
Doc_4 | 1200
Doc_5 | 300
Doc_6 | 1900
Doc_7 | 4200
摘自原文:https://blog.csdn.net/baichoufei90/article/details/82669234 

Doc Values其实就是es在构建倒排索引的同时,构建了正排索引,保存了docId到各个字段值的映射,可以看作是以文档为维度,从而实现根据指定字段进行排序和聚合的功能。

另外doc Values 保存在操作系统的磁盘中,当docValues大于于节点的可用内存,ES可以从操作系统页缓存中加载或弹出,从而避免发生内存溢出的异常,docValues远小于节点的可用内存,操作系统自然将所有Doc Values存于内存中(堆外内存),有助于快速访问。

话不在多,在于精。相信看了以上内容,你就会对docValues基本了解了

复习下: 什么是docValues? 干什么用的? 有什么好处?

猜你喜欢

转载自blog.csdn.net/qq_29857681/article/details/88011394