ES聚合学习笔记之--HyperLogLog与BloomFilter - 代码天地

ES聚合学习笔记之--HyperLogLog与BloomFilter

企业开发 2018-11-11 23:30:42 阅读次数: 0

ES的聚合是其一大特色。然而出于性能的考虑， ES的聚合是以分片Shard为单位，而非Index为单位，所以
有些聚合的准确性是需要注意的。比如： TermAggregations.

es的基数聚合使用到了hyperloglog算法。出于好奇，了解了一下。

在海量数据场景下，我们通常会遇到这样的两个问题:

数据排重。比如在推送消息场景，消息重复对用户是打扰，用户发券场景，重复发券就是损失了。
pv/uv统计。这类场景下，对精确度要求没必要锱铢必较。

如何高效解决这两类问题呢？

对于数据排重，我们可以使用布隆过滤器。java 样列代码如下:

BloomFilter<String> bloomFilter = BloomFilter.create(new Funnel<String>() {

            private static final long serialVersionUID = 1L;

            @Override
            public void funnel(String arg0, PrimitiveSink arg1) {

                arg1.putString(arg0, Charsets.UTF_8);
            }

        }, 1024*1024*32);

        bloomFilter.put("asdf");
        bloomFilter.mightContain("asdf");

对于计数，我们可以使用HyperLogLog算法，ES中已经有相关的实现。

其实封装一下，布隆过滤器也是能直接实现HyperLogLog算法的功能的。

这里遗留几个问题，思考清楚后补充:

BloomFilter跟HyperLogLog算法的原理
相同量级数据下的效率及内存消耗
各自的适用场景有哪些

猜你喜欢

转载自blog.51cto.com/sbp810050504/2315596

ES聚合学习笔记之--HyperLogLog与BloomFilter

BitSet&BloomFilter&HyperLogLog

大数据去重的学习（BitSet、HyperLogLog、BitMap、BloomFilter）

Redis学习笔记（5）- HyperLogLog

ES学习笔记之---从源码启动ES

es聚合查询之指标聚合

es聚合查询之桶聚合

Elasticsearch学习笔记之（六）聚合分析

ES学习笔记之-ClusterState的学习

HBase之BloomFilter

Hadoop之BloomFilter

MongoDB学习笔记——聚合

ES6学习笔记之——Symbol

ES6学习笔记之——Set

ES学习笔记之--fielddata的起源

ES学习笔记之health api的实现

ES6学习笔记之Symbol

ES6学习笔记之promise

Elasticsearch学习笔记之（三）ES索引

Elasticsearch学习笔记之（二）ES索引

【Redis】Redis 的学习教程（八）之 BitMap、Geo、HyperLogLog

《MySQL 学习笔记》 SQL语句之聚合函数查询(八)

Django学习笔记之Django ORM Aggregation聚合详解

Elasticserch学习之聚合

[备忘]es查询之按天聚合

ES学习（四）--嵌套聚合、下钻分析、聚合分析

十三、Redis之HyperLogLog

redis之HyperLogLog

redis的HyperLogLog学习小结

redis学习 hyperloglog GEO

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)