Elasticsearch 权威指南一书总结

Elasticsearch权威指南一书官网网址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/_index_stats.html

一、概述

使用elasticsearch最初的目的就是为了创建索引、保存数据、搜索数据（数据默认按照评分进行排序），随着后续内容的深入，逐步了解处理人类语言（主要针对汉语和拼音）、聚合（数据聚合结合kibana做分析）、地理位置、（管理、监控和部署）。下面对各个模块做基本的介绍。

二、如何创建索引

一、创建索引注意事项：

1、创建索引之前先要分析这个索引主要存储什么数据，对数据的哪些属性（字段）做什么样的分析和处理；

2、因为创建索引后，索引无法修改，如果前期第一步没做好，后期会导致创建的索引满足不了现阶段的要求，导致索引删除重建，还要把就数据重新灌入索引中，重新生成block(索引片，默认是倒排索引片)；

二、创建索引步骤：

1、根据业务实际情况创建索引的settings（以下是本人实际业务中创建的settings 仅供参考）

       PUT /enterpriseextend //索引
       {
           "settings": {
               "analysis": { //自定义分析器包含过滤器和分词器
                   "filter": {   //过滤器
                       "edge_ngram_filter": {
                           "type": "edge_ngram",
                           "min_gram": 1,
                           "max_gram": 50
                       },
                       "pinyin_simple_filter": {
                           "type": "pinyin",
                           "keep_first_letter": true,
                           "keep_separate_first_letter": false,
                           "keep_full_pinyin": false,
                           "keep_original": false,
                           "limit_first_letter_length": 50,
                           "lowercase": true
                       },
                       "pinyin_full_filter": {
                           "type": "pinyin",
                           "keep_first_letter": false,
                           "keep_separate_first_letter": false,
                           "keep_full_pinyin": true,
                           "none_chinese_pinyin_tokenize": true,
                           "keep_original": false,
                           "limit_first_letter_length": 50,
                           "lowercase": true
                       }
                   },
                   "char_filter": {
                       "charconvert": {
                           "type": "mapping",
                           "mappings_path": "char_filter_text.txt"
                       }
                   },
                   "tokenizer": {
                       "ik_max_word": {
                           "type": "ik_max_word",
                           "use_smart": true
                       }
                   },
                   "analyzer": {   //分词器分词器里也包含自己的过滤器
                       "ngramIndexAnalyzer": {
                           "type": "custom",
                           "tokenizer": "keyword",
                           "filter": [
                               "edge_ngram_filter",
                               "lowercase"
                           ],
                           "char_filter": [
                               "charconvert"
                           ]
                       },
                       "ngramSearchAnalyzer": {
                           "type": "custom",
                           "tokenizer": "keyword",
                           "filter": [
                               "lowercase"
                           ],
                           "char_filter": [
                               "charconvert"
                           ]
                       },
                       "ikIndexAnalyzer": {
                           "type": "custom",
                           "tokenizer": "ik_max_word",
                           "char_filter": [
                               "charconvert"
                           ]
                       },
                       "ikSearchAnalyzer": {
                           "type": "custom",
                           "tokenizer": "ik_max_word",
                           "char_filter": [
                               "charconvert"
                           ]
                       },
                       "pinyiSimpleIndexAnalyzer": {
                           "tokenizer": "keyword",
                           "filter": [
                               "pinyin_simple_filter",
                               "edge_ngram_filter",
                               "lowercase"
                           ]
                       },
                       "pinyiSimpleSearchAnalyzer": {
                           "tokenizer": "keyword",
                           "filter": [
                               "pinyin_simple_filter",
                               "lowercase"
                           ]
                       },
                       "pinyiFullIndexAnalyzer": {
                           "tokenizer": "keyword",
                           "filter": [
                               "pinyin_full_filter",
                               "lowercase"
                           ]
                       },
                       "pinyiFullSearchAnalyzer": {
                           "tokenizer": "keyword",
                           "filter": [
                               "pinyin_full_filter",
                               "lowercase"
                           ]
                       }
                   }
               }
           }
       }

2、使用创建的settings创建mapping

           PUT enterpriseextend/_mapping/enterpriseextend
           {
               "properties": {
                   "id": {
                       "type": "long"
                   },
                   "entName": {
                       "type": "text",
                       "analyzer": "ikIndexAnalyzer", //IK分词器
                       "fields": {
                           "ngram": {
                               "type": "text",
                               "analyzer": "ngramIndexAnalyzer"
                           },
                           "SPY": {
                               "type": "text",
                               "analyzer": "pinyiSimpleIndexAnalyzer" //拼音分词器
                           },
                           "FPY": {
                               "type": "text",
                               "analyzer": "pinyiFullIndexAnalyzer" //拼音全拼分词器
                           }
                       }
                   },
                   "serviceFinanceEntType": {
                       "type": "text",
                       "analyzer": "ik_max_word",
                       "fields": {
                           "keyword": {
                               "type": "keyword",
                               "ignore_above": 256
                           }
                       }
                   },
                   "serviceSupport": {
                       "type": "text",
                       "analyzer": "ik_max_word",
                       "fields": {
                           "keyword": {
                               "type": "keyword",
                               "ignore_above": 256
                           }
                       }
                   },
                   "serviceEntRat": {
                       "type": "text",
                       "analyzer": "ik_max_word",
                       "fields": {
                           "keyword": {
                               "type": "keyword",
                               "ignore_above": 256
                           }
                       }
                   }
               }
           }

3、根据后台（java）Elasticsearch API进行数据的查询展示和分析

三、处理人类语言

每个地区使用的语言不同，elasticsearch针对不同的语言提供了不同的语言分词器，正如上面创建settings时使用的IK分词器和拼音分词器，这块的使用可根据情况参考文档具体使用。

四、聚合

聚合相当于数据库中的分组查询，聚合的功能主要是获取某种类型的数据并对数据做分析，这对于海量数据来说非常重要，虽然elasticsearch主要的功能是做海量数据查询。具体聚合的使用可根据业务逻辑参考文档使用。

五、地理位置

此功能主要用于搜索某个位置附近的坐标，具体内容参考文档。

六、管理、监控和部署

此块主要介绍，我们应如何维护我们的elasticsearch服务，如何修改配置文件，参数应如何设置，这里没有具体的答案，都是根据实际的业务场景逐步测试调至最优。

下面我复制写我在查看文档中觉得收益的内容：

把你的内存的（少于）一半给 Lucene编辑
一个常见的问题是给 Elasticsearch 分配的内存太大了。假设你有一个 64 GB 内存的机器，天啊，我要把 64 GB 内存全都给 Elasticsearch。因为越多越好啊！

当然，内存对于 Elasticsearch 来说绝对是重要的，它可以被许多内存数据结构使用来提供更快的操作。但是说到这里，还有另外一个内存消耗大户非堆内存（off-heap）：Lucene。

Lucene 被设计为可以利用操作系统底层机制来缓存内存数据结构。 Lucene 的段是分别存储到单个文件中的。因为段是不可变的，这些文件也都不会变化，这是对缓存友好的，同时操作系统也会把这些段文件缓存起来，以便更快的访问。

Lucene 的性能取决于和操作系统的相互作用。如果你把所有的内存都分配给 Elasticsearch 的堆内存，那将不会有剩余的内存交给 Lucene。这将严重地影响全文检索的性能。

标准的建议是把 50％的可用内存作为 Elasticsearch 的堆内存，保留剩下的 50％。当然它也不会被浪费，Lucene 会很乐意利用起余下的内存。

如果你不需要对分词字符串做聚合计算（例如，不需要 fielddata ）可以考虑降低堆内存。堆内存越小，Elasticsearch（更快的 GC）和 Lucene（更多的内存用于缓存）的性能越好。

不要超过 32 GB！编辑
这里有另外一个原因不分配大内存给 Elasticsearch。事实上， JVM 在内存小于 32 GB 的时候会采用一个内存对象指针压缩技术。

在 Java 中，所有的对象都分配在堆上，并通过一个指针进行引用。普通对象指针（OOP）指向这些对象，通常为 CPU 字长的大小：32 位或 64 位，取决于你的处理器。指针引用的就是这个 OOP 值的字节位置。

对于 32 位的系统，意味着堆内存大小最大为 4 GB。对于 64 位的系统，可以使用更大的内存，但是 64 位的指针意味着更大的浪费，因为你的指针本身大了。更糟糕的是，更大的指针在主内存和各级缓存（例如 LLC，L1 等）之间移动数据的时候，会占用更多的带宽。

Java 使用一个叫作内存指针压缩（compressed oops）的技术来解决这个问题。它的指针不再表示对象在内存中的精确位置，而是表示偏移量。这意味着 32 位的指针可以引用 40 亿个对象，而不是 40 亿个字节。最终，也就是说堆内存增长到 32 GB 的物理内存，也可以用 32 位的指针表示。

一旦你越过那个神奇的 ~32 GB 的边界，指针就会切回普通对象的指针。每个对象的指针都变长了，就会使用更多的 CPU 内存带宽，也就是说你实际上失去了更多的内存。事实上，当内存到达 40–50 GB 的时候，有效内存才相当于使用内存对象指针压缩技术时候的 32 GB 内存。

这段描述的意思就是说：即便你有足够的内存，也尽量不要超过 32 GB。因为它浪费了内存，降低了 CPU 的性能，还要让 GC 应对大内存。

到底需要低于 32 GB多少，来设置我的 JVM？编辑
遗憾的是，这需要看情况。确切的划分要根据 JVMs 和操作系统而定。如果你想保证其安全可靠，设置堆内存为 31 GB 是一个安全的选择。另外，你可以在你的 JVM 设置里添加 -XX:+PrintFlagsFinal 用来验证 JVM 的临界值，并且检查 UseCompressedOops 的值是否为 true。对于你自己使用的 JVM 和操作系统，这将找到最合适的堆内存临界值。