进阶-第52__深入聚合数据分析_doc value机制内核级原理深入探秘 - 代码天地

进阶-第52__深入聚合数据分析_doc value机制内核级原理深入探秘

编程语言 2019-03-16 13:40:51 阅读次数: 0

1、doc value原理

（1）index-time生成(建立索引的时候生成)

PUT/POST的时候，就会生成doc value数据，也就是正排索引

（2）核心原理与倒排索引类似

正排索引，也会写入磁盘文件中，然后呢，os cache先进行缓存，以提升访问doc value正排索引的性能

如果os cache内存大小不足够放得下整个正排索引，doc value，就会将doc value的数据写入磁盘文件中

（3）性能问题：给jvm更少内存，64g服务器，给jvm最多16g

es官方是建议，es大量是基于os cache来进行缓存和提升性能的，不建议用jvm内存来进行缓存，那样会导致一定的gc开销和oom问题

给jvm更少的内存，给os cache更大的内存

如果你的机器内存是64G的服务器

64g服务器，给jvm最多16g，几十个g的内存给os cache

os cache可以提升doc value和倒排索引的缓存和查询效率

2、column压缩

Doc value 采用column压缩的方式，提高他的性能

doc1: 550

doc2: 550

doc3: 500

合并相同值，550，doc1和doc2都保留一个550的标识即可

（1）所有值相同，直接保留单值

（2）少于256个值，使用table encoding模式：一种压缩方式

（3）大于256个值，看有没有最大公约数，有就除以最大公约数，然后保留这个最大公约数

doc1: 36

doc2: 24

6 --> doc1: 6, doc2: 4 --> 保留一个最大公约数6的标识，6也保存起来

（4）如果没有最大公约数，采取offset结合压缩的方式：

3、disable doc value

如果的确不需要doc value，比如不需要聚合等操作，那么可以禁用，减少磁盘空间占用

PUT my_index

{

"mappings": {

"my_type": {

"properties": {

"my_field": {

"type": "keyword"

"doc_values": false

}

}

}

}

}

猜你喜欢

转载自blog.csdn.net/qq_35524586/article/details/88596712

进阶-第52__深入聚合数据分析_doc value机制内核级原理深入探秘

Elasticsearch 之（30）doc value机制内核级原理深入探秘

进阶-第51__深入聚合数据分析_基于doc value正排索引的聚合内部原理

进阶-第53__深入聚合数据分析_string field聚合实验以及fielddata原理初探

第十六篇深入elasticsearch聚合数据分析

进阶-第57__深入聚合数据分析_海量bucket优化机制：从深度优先到广度优先

进阶-第56__深入聚合数据分析_fielddata预加载机制以及序号标记预加载

进阶-第40__深入聚合数据分析_global bucket：单个品牌与所有品牌销量对比

进阶-第32__深入聚合数据分析_bucket与metric两个核心概念的讲解

进阶-第50__深入聚合数据分析_percentiles rank以及网站访问时延SLA统计

进阶-第54__深入聚合数据分析_fielddata内存控制以及circuit breaker断路器

进阶-第46__深入聚合数据分析_cardinality去重算法以及每月销售品牌数量统计

进阶-第55__深入聚合数据分析_fielddata filter的细粒度内存加载控制

进阶-第41__深入聚合数据分析_过滤+聚合：统计价格大于1200的电视平均价格

进阶-第38__深入聚合数据分析_下钻分析之统计每季度每个品牌的销售额

进阶-第36__深入聚合数据分析_实战hitogram按价格区间统计电视销量和销售额

进阶-第34__深入聚合数据分析_实战bucket+metric：统计每种颜色电视平均价格

进阶-第49__深入聚合数据分析_percentiles百分比算法以及网站访问时延统计

进阶-第37__深入聚合数据分析_掌握更多metrics：统计每种颜色电视最大最小价格

进阶-第43__深入聚合数据分析_排序：按每种颜色的平均销售额降序排序

进阶-第42__深入聚合数据分析_bucket filter：统计牌品最近一个月的平均价格

ElasticSearch系列七：深入ES聚合数据分析

ElasticSearch最佳入门实践（五十五）内核级知识点之 doc value 初步探秘

第55节：初识搜索引擎_内核级知识点之doc value初步探秘

“深入剖析JVM内部机制：探秘Java虚拟机的运行原理“

深入探秘OpenTelemetry Agent奇特的muzzle机制

深入源码解析ArrayList：探秘Java动态数组的机制与性能

[深入理解linux内核]-内核编译机制分析

深入理解Linux 内核追踪机制

Android Gradle原理及机制深入分析

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)