Elasticsearch 2.4 cardinality(distinct count) aggregation 返回结果不准确

问题发现

测试人员遇到个问题, ES在查询的时候实际数量只有4条, 做去重计算的时候结果是5, 实际查询如下图: 输入图片说明

图中可以看出 doc_count: 4, dc_hostname:5 这就有点奇怪了,doc_count只有4, 去重之后的count怎么会是5

原因分析及解决方案

经过ES官方文档的检查, 问题出现在ES 2.4, ES对cardinality的计算是放在内存中的, 如果内存不够, 结果可能就不准确, 内存的控制是基于参数precision_threshold, 如果count大于该值, 返回结果就不准确, 大约是5%的误差, 如果count小于该值, 返回结果基于是接近准确

  • ES 2.4 参数说明 precision_threshold默认值是 聚合层数(aggregations)*分桶(buckets)数量, 最大值是40000

  • 参数调整 调整precision_threshold参数为3000

"aggregations": {
	"dc_hostname": {
		"cardinality": {
			"field": "hostname",
			"precision_threshold": 3000
		}
	}
}
  • 查询结果
"buckets": [
  {
    "key": "AM项目监控",
    "doc_count": 4,
    "dc_hostname": {
      "value": 4
    }
  }
]

cardinality-aggrestion官方文档

猜你喜欢

转载自my.oschina.net/u/2392330/blog/1649683