进阶-第57__深入聚合数据分析_海量bucket优化机制：从深度优先到广度优先 - 代码天地

进阶-第57__深入聚合数据分析_海量bucket优化机制：从深度优先到广度优先

其他 2019-03-17 11:21:32 阅读次数: 0

当buckets数量特别多的时候，深度优先和广度优先的原理

我们的数据，是每个演员的每个电影的评论

每个演员的评论的数量 --> 每个演员的每个电影的评论的数量

目的：评论数量排名前10个的演员 --> 每个演员的电影取到评论数量排名前5的电影

{

"aggs" : {

"actors" : {

"terms" : {

"field" : "actors",

"size" : 10,

"collect_mode" : "breadth_first" //广度优先

},

"aggs" : {

"costars" : {

"terms" : {

"field" : "films",

"size" : 5

}

}

}

}

}

}

(1)首先按照演员进行分组(获取评论排名前十的)

(2)然后每个演员按照电影进行分组（获取评论数前五的）

深度优先的方式去执行聚合操作的

actor1 actor2 .... actor

film1 film2 film3 film1 film2 film3 ...film

比如说，我们有10万个actor，最后其实是主要10个actor就可以了

但是我们已经深度优先的方式，构建了一整颗完整的树出来了，10万个actor，每个actor平均有10部电影，10万 + 100万 --> 110万的数据量的一颗树

裁剪掉10万个actor中的99990 actor，99990 * 10 = film，剩下10个actor，每个actor的10个film裁剪掉5个，110万 --> 10 * 5 = 50个

构建了大量的数据，然后裁剪掉了99.99%的数据，浪费了

广度优先的方式去执行聚合

actor1 actor2 actor3 ..... n个actor

10万个actor，不去构建它下面的film数据，10万 --> 99990，10个actor，构建出film，裁剪出其中的5个film即可，10万 -> 50个

10倍的差距

猜你喜欢

转载自blog.csdn.net/qq_35524586/article/details/88597774

进阶-第57__深入聚合数据分析_海量bucket优化机制：从深度优先到广度优先

进阶-第40__深入聚合数据分析_global bucket：单个品牌与所有品牌销量对比

进阶-第32__深入聚合数据分析_bucket与metric两个核心概念的讲解

进阶-第34__深入聚合数据分析_实战bucket+metric：统计每种颜色电视平均价格

进阶-第42__深入聚合数据分析_bucket filter：统计牌品最近一个月的平均价格

进阶-第52__深入聚合数据分析_doc value机制内核级原理深入探秘

进阶-第56__深入聚合数据分析_fielddata预加载机制以及序号标记预加载

ES优化聚合查询之深度优先和广度优先

第十六篇深入elasticsearch聚合数据分析

进阶-第53__深入聚合数据分析_string field聚合实验以及fielddata原理初探

进阶-第51__深入聚合数据分析_基于doc value正排索引的聚合内部原理

进阶-第50__深入聚合数据分析_percentiles rank以及网站访问时延SLA统计

进阶-第54__深入聚合数据分析_fielddata内存控制以及circuit breaker断路器

进阶-第46__深入聚合数据分析_cardinality去重算法以及每月销售品牌数量统计

进阶-第55__深入聚合数据分析_fielddata filter的细粒度内存加载控制

进阶-第41__深入聚合数据分析_过滤+聚合：统计价格大于1200的电视平均价格

进阶-第38__深入聚合数据分析_下钻分析之统计每季度每个品牌的销售额

进阶-第36__深入聚合数据分析_实战hitogram按价格区间统计电视销量和销售额

进阶-第49__深入聚合数据分析_percentiles百分比算法以及网站访问时延统计

进阶-第37__深入聚合数据分析_掌握更多metrics：统计每种颜色电视最大最小价格

进阶-第43__深入聚合数据分析_排序：按每种颜色的平均销售额降序排序

ElasticSearch系列七：深入ES聚合数据分析

遍历：广度优先与深度优先

深度优先与广度优先遍历

深度优先和广度优先

【算法】深度优先与广度优先

深度优先与广度优先的概念

十、深度优先 && 广度优先

【算法设计与分析】广度优先搜索、深度优先搜索

蜘蛛抓取策略：广度优先和深度优先分析

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)