目录
Elasticsearch权威指南一书官网网址:https://www.elastic.co/guide/cn/elasticsearch/guide/current/_index_stats.html
一、概述
使用elasticsearch最初的目的就是为了创建索引、保存数据、搜索数据(数据默认按照评分进行排序),随着后续内容的深入,逐步了解处理人类语言(主要针对汉语和拼音)、聚合(数据聚合结合kibana做分析)、地理位置、(管理、监控和部署)。下面对各个模块做基本的介绍。
二、如何创建索引
一、创建索引注意事项:
1、创建索引之前先要分析这个索引主要存储什么数据,对数据的哪些属性(字段)做什么样的分析和处理;
2、因为创建索引后,索引无法修改,如果前期第一步没做好,后期会导致创建的索引满足不了现阶段的要求,导致索引删除重建,还要把就数据重新灌入索引中,重新生成block(索引片,默认是倒排索引片);
二、创建索引步骤:
1、根据业务实际情况创建索引的settings(以下是本人实际业务中创建的settings 仅供参考)
PUT /enterpriseextend //索引
{
"settings": {
"analysis": { //自定义分析器 包含过滤器和分词器
"filter": { //过滤器
"edge_ngram_filter": {
"type": "edge_ngram",
"min_gram": 1,
"max_gram": 50
},
"pinyin_simple_filter": {
"type": "pinyin",
"keep_first_letter": true,
"keep_separate_first_letter": false,
"keep_full_pinyin": false,
"keep_original": false,
"limit_first_letter_length": 50,
"lowercase": true
},
"pinyin_full_filter": {
"type": "pinyin",
"keep_first_letter": false,
"keep_separate_first_letter": false,
"keep_full_pinyin": true,
"none_chinese_pinyin_tokenize": true,
"keep_original": false,
"limit_first_letter_length": 50,
"lowercase": true
}
},
"char_filter": {
"charconvert": {
"type": "mapping",
"mappings_path": "char_filter_text.txt"
}
},
"tokenizer": {
"ik_max_word": {
"type": "ik_max_word",
"use_smart": true
}
},
"analyzer": { //分词器 分词器里也包含自己的过滤器
"ngramIndexAnalyzer": {
"type": "custom",
"tokenizer": "keyword",
"filter": [
"edge_ngram_filter",
"lowercase"
],
"char_filter": [
"charconvert"
]
},
"ngramSearchAnalyzer": {
"type": "custom",
"tokenizer": "keyword",
"filter": [
"lowercase"
],
"char_filter": [
"charconvert"
]
},
"ikIndexAnalyzer": {
"type": "custom",
"tokenizer": "ik_max_word",
"char_filter": [
"charconvert"
]
},
"ikSearchAnalyzer": {
"type": "custom",
"tokenizer": "ik_max_word",
"char_filter": [
"charconvert"
]
},
"pinyiSimpleIndexAnalyzer": {
"tokenizer": "keyword",
"filter": [
"pinyin_simple_filter",
"edge_ngram_filter",
"lowercase"
]
},
"pinyiSimpleSearchAnalyzer": {
"tokenizer": "keyword",
"filter": [
"pinyin_simple_filter",
"lowercase"
]
},
"pinyiFullIndexAnalyzer": {
"tokenizer": "keyword",
"filter": [
"pinyin_full_filter",
"lowercase"
]
},
"pinyiFullSearchAnalyzer": {
"tokenizer": "keyword",
"filter": [
"pinyin_full_filter",
"lowercase"
]
}
}
}
}
}
2、使用创建的settings创建mapping
PUT enterpriseextend/_mapping/enterpriseextend
{
"properties": {
"id": {
"type": "long"
},
"entName": {
"type": "text",
"analyzer": "ikIndexAnalyzer", //IK分词器
"fields": {
"ngram": {
"type": "text",
"analyzer": "ngramIndexAnalyzer"
},
"SPY": {
"type": "text",
"analyzer": "pinyiSimpleIndexAnalyzer" //拼音分词器
},
"FPY": {
"type": "text",
"analyzer": "pinyiFullIndexAnalyzer" //拼音全拼分词器
}
}
},
"serviceFinanceEntType": {
"type": "text",
"analyzer": "ik_max_word",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
},
"serviceSupport": {
"type": "text",
"analyzer": "ik_max_word",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
},
"serviceEntRat": {
"type": "text",
"analyzer": "ik_max_word",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
}
}
}
}
}
3、根据后台(java)Elasticsearch API进行数据的查询展示和分析
三、处理人类语言
每个地区使用的语言不同,elasticsearch针对不同的语言提供了不同的语言分词器,正如上面创建settings时使用的IK分词器和拼音分词器,这块的使用可根据情况参考文档具体使用。
四、聚合
聚合相当于数据库中的分组查询,聚合的功能主要是获取某种类型的数据并对数据做分析,这对于海量数据来说非常重要,虽然elasticsearch主要的功能是做海量数据查询。具体聚合的使用可根据业务逻辑参考文档使用。
五、地理位置
此功能主要用于搜索某个位置附近的坐标,具体内容参考文档。
六、管理、监控和部署
此块主要介绍,我们应如何维护我们的elasticsearch服务,如何修改配置文件,参数应如何设置,这里没有具体的答案,都是根据实际的业务场景逐步测试调至最优。
下面我复制写我在查看文档中觉得收益的内容:
把你的内存的(少于)一半给 Lucene编辑
一个常见的问题是给 Elasticsearch 分配的内存 太大了。 假设你有一个 64 GB 内存的机器, 天啊,我要把 64 GB 内存全都给 Elasticsearch。因为越多越好啊!
当然,内存对于 Elasticsearch 来说绝对是重要的,它可以被许多内存数据结构使用来提供更快的操作。但是说到这里, 还有另外一个内存消耗大户 非堆内存 (off-heap):Lucene。
Lucene 被设计为可以利用操作系统底层机制来缓存内存数据结构。 Lucene 的段是分别存储到单个文件中的。因为段是不可变的,这些文件也都不会变化,这是对缓存友好的,同时操作系统也会把这些段文件缓存起来,以便更快的访问。
Lucene 的性能取决于和操作系统的相互作用。如果你把所有的内存都分配给 Elasticsearch 的堆内存,那将不会有剩余的内存交给 Lucene。 这将严重地影响全文检索的性能。
标准的建议是把 50% 的可用内存作为 Elasticsearch 的堆内存,保留剩下的 50%。当然它也不会被浪费,Lucene 会很乐意利用起余下的内存。
如果你不需要对分词字符串做聚合计算(例如,不需要 fielddata )可以考虑降低堆内存。堆内存越小,Elasticsearch(更快的 GC)和 Lucene(更多的内存用于缓存)的性能越好。
不要超过 32 GB!编辑
这里有另外一个原因不分配大内存给 Elasticsearch。事实上 , JVM 在内存小于 32 GB 的时候会采用一个内存对象指针压缩技术。
在 Java 中,所有的对象都分配在堆上,并通过一个指针进行引用。 普通对象指针(OOP)指向这些对象,通常为 CPU 字长 的大小:32 位或 64 位,取决于你的处理器。指针引用的就是这个 OOP 值的字节位置。
对于 32 位的系统,意味着堆内存大小最大为 4 GB。对于 64 位的系统, 可以使用更大的内存,但是 64 位的指针意味着更大的浪费,因为你的指针本身大了。更糟糕的是, 更大的指针在主内存和各级缓存(例如 LLC,L1 等)之间移动数据的时候,会占用更多的带宽。
Java 使用一个叫作 内存指针压缩(compressed oops)的技术来解决这个问题。 它的指针不再表示对象在内存中的精确位置,而是表示 偏移量 。这意味着 32 位的指针可以引用 40 亿个 对象 , 而不是 40 亿个字节。最终, 也就是说堆内存增长到 32 GB 的物理内存,也可以用 32 位的指针表示。
一旦你越过那个神奇的 ~32 GB 的边界,指针就会切回普通对象的指针。 每个对象的指针都变长了,就会使用更多的 CPU 内存带宽,也就是说你实际上失去了更多的内存。事实上,当内存到达 40–50 GB 的时候,有效内存才相当于使用内存对象指针压缩技术时候的 32 GB 内存。
这段描述的意思就是说:即便你有足够的内存,也尽量不要 超过 32 GB。因为它浪费了内存,降低了 CPU 的性能,还要让 GC 应对大内存。
到底需要低于 32 GB多少,来设置我的 JVM?编辑
遗憾的是,这需要看情况。确切的划分要根据 JVMs 和操作系统而定。 如果你想保证其安全可靠,设置堆内存为 31 GB 是一个安全的选择。 另外,你可以在你的 JVM 设置里添加 -XX:+PrintFlagsFinal 用来验证 JVM 的临界值, 并且检查 UseCompressedOops 的值是否为 true。对于你自己使用的 JVM 和操作系统,这将找到最合适的堆内存临界值。