Elasticsearch数据建模笔记 - 代码天地

Elasticsearch数据建模笔记

其他 2020-03-16 00:34:08 阅读次数: 0

数据建模

数据建模是创建数据模型的过程

数据模型是对真实世界进行抽象描述的一种工具和方法，实现对现实世界的映射
三个过程：概念模型=》逻辑模型=》数据模型

数据模型：结合具体的数据库，在满足业务读写性能等需求的前提下，确定最终定义

数据建模：功能需求+性能需求

逻辑模型（功能需求）

实体属性
实体之间的关系
搜索相关的配置

物理模型（性能需求）

索引模版

分片数量

索引Mapping

字段配置
关系处理

对字段进行建模

字段类型：

Text vs Keyword

Text

用于全文本字段，文本会被Analyzer分词
默认不支持聚合分析及排序。需要设置fielddata为true

Keyword

用于id,枚举及不需要分词的文本。例如电话号码，email地址，手机号码，邮政编码，性别等
适用于Filter(精确匹配)，Sorting和Aggregations

设置多字段类型

默认会为文本类型设置成text,并且设置一个keyword的子字段
在处理人类语言时，通过增加“英文”，“拼音”和“标准”分词器，提高搜索结果

结构化数据

数值类型

尽量选择贴近的类型。例如可以用byte,就不要用long

枚举类型

设置为keyword。即便是数字，也应该设置成keyword,获取更加好的性能

其他

日期/布尔/地理信息

检索

如不需要检索

Enable设置成false

如不需要检索

Index设置成false

对需要检索的字段，可以通过如下配置，设定存储粒度

Index_options/Norms：不需要归一化数据时，可以关闭

聚合及排序

如不需要排序和聚合分析

Enable设置成false

如不需要排序或者聚合分析

Doc_value/fielddata设置成false

更新频繁，聚合查询频繁的keyword类型的字段

推荐eager_global_ordinals设置为true

额外的存储

是否需要专门存储当前字段数据
Disable _source:节约磁盘；适用于指标型数据

一般建议考虑增加压缩比
无法看到_source字段，无法ReIndex 无法Upadte
Kibana中无法做discovery

最佳实践

建模建议一：如何处理关联关系

建模建议二：避免过多字段

一个文档中，最好避免大量的字段

过多的字段数不容易维护
Mapping信息保存在Cluster State中，数据量过大，对集群性能会有影响（Cluster State信息需要和所有的节点同步）
删除或者修改数据需要reindex

默认最大字段数是1000，可以设置index.mapping.tatal_fields.limt限定最大字段数
Dynamic vs Strict
- Dynamic（生产环境中，尽量不用打开Dynamic）
  - true-未知字段会被自动加入
  - false-新字段不会被索引。但是会保存在_source
  - strict-新字段不会被索引，文档写入失败
- Strict
  - 可以控制道字段级别　　
当Dynamic设置为True,同时采用扁平化的设计且键值对过多会导致字段数量的膨胀，通过Nested对象保存key/value可以减少字段数量。

建模建议三：避免正则查询
- 通过 Inner Object避免低性能的正则匹配

{
  "version":{
  "display_name":"7.1.0",
  "marjor":7,
  "minor":1,
  "hot_fix":0  
  }
}

建模建议四：避免空值引起的聚合不准确

使用Null_Value解决空值的问题

建模建议五：为索引的Mapping加入Meta信息便于管理

{
  "mappings": {
    "_meta": {
      "software_version_mapping": "1.0"
    }
  }
}

Mapping字段的相关设置

https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-params.html

猜你喜欢

转载自www.cnblogs.com/Onlywjy/p/12501269.html

Elasticsearch数据建模笔记

elasticsearch数据建模

Elasticsearch 数据建模

elasticsearch(20) 数据建模

Elasticsearch之数据建模

Elasticsearch核心技术与实战学习笔记 54 | Elasticsearch数据建模最佳实践

Elasticsearch核心技术与实战学习笔记 53 | Elasticsearch数据建模实例

ElasticSearch——数据建模最佳实践

Elasticsearch数据建模最佳实践

数据建模笔记1

Elasticsearch: 权威指南 » 数据建模 » 嵌套对象

Elasticsearch 数据建模 - 处理关联关系

Elasticsearch 数据建模 - 处理关联关系(2)

Elasticsearch 数据建模 - 处理关联关系(1)

ElasticSearch系列八：掌握ES数据建模

8 Elasticsearch 篇之数据建模

数据建模-经典教程笔记

干货 | 论Elasticsearch数据建模的重要性

Elasticsearch数据建模之——mapping字段的相关配置

9.19学习笔记（数据清洗、建模）

建模笔记

杂项-建模：数据建模

数据建模 & 过程建模

Elasticsearch 之（33）document数据建模实战_文件搜索_嵌套关系_父子/祖孙关系数据

Elasticsearch学习笔记之—数据范围查询

[数据分析学习笔记] 数据挖掘建模过程

Elasticsearch 6.x版本全文检索学习之数据建模

数据建模

R语言笔记——回顾小结（数据清洗，建模简单流程）

机器学习笔记2：数据建模全流程

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)