DSL语法

学习黑马- SpringCloud微服务技术栈项目的分布式搜索中DSL语法章节自行整理的笔记，方便日后的重构。

项目涉及技术

知识点是按照集数依次整理，方便日后回来查找。
考虑到不是固定的联网方式，时而WiFi，时而热点，配置静态IP会导致每次网络变更后都需要重新配置，所以虚拟机使用的动态路由，当需要运行相关程序时，IP变化，只需要修改测试时初始化的RestHighLevelClient即可。
将代码路径列举主要是为后续审查。
RestClient操作索引库的代码路径E:\微服务\实用篇\day05-Elasticsearch01\资料\hotel-demo。

实用篇

DSL查询语法（P101）
查询所有：查询出所有数据，一般测试用。例如：match_all。
全文检索（full text)查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如:match、multi_match；两者区别match根据一个字段查询，multi_match根据多个字段查询；参与查询的字段越多，查询性能越差。
精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。例如：ids、range、term；
地理(geo）查询:根据经纬度查询。例如：geo_distance、geo_bounding_box。
复合(compound)查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。例如：Boolean Query、function_score。
相关性打分算法(P105)
TF-IDF：在elasticsearch5.0之前，会随着词频增加而越来越大
BM25：在elasticsearch5.0之后，会随着词频增加而增大，但增长曲线会趋于水平。

# 查询所有
GET /hotel/_search
{
	"query": {
		"match_all": {}
	}
}

# 全文检索 -- match查询（效率高）
GET /hotel/_search
{
	"query": {
		"match": {
			"all": "外滩如家"
		}
	}
}
# 全文检索 -- multi_match
GET /hotel/_search
{
	"query": {
		"multi_match": {
			"query": "外滩如家",
			"fields": ["brand", "name", "business"]
		}
	}
}

# 精确查询 -- term查询 
GET /hotel/_search
{
	"query": {
		"term": {
			"city": {
				"value": "上海"
			}
		}
	}
}
# 精确查询 -- range查询  范围
GET /hotel/_search
{
	"query": {
		"range": {
			"price": {
				"gte": 100,
				"lte": 300
			}
		}
	}
}

# 地理查询 -- distance查询
GET /hotel/_search
{
	"query": {
		"geo_distance": {
			"distance": "2km",
			"location": "31.21, 121.5"
		}
	}
}

# 复合查询 -- function_score   参加打分
# 给“如家”这个品牌的酒店靠前一点
GET /hotel/_search
{
	"query": {
		"function_score": {
			"query": {
				"match": {
					"all": "外滩"
				}
			},
			"functions": [    //算分函数
				{
					"filter": {    //条件
						"term": {
							"brand": "如家"
						}
					},
					"weight": 10   //算分权重
				}
			],
			"boost_mode": "sum"  //加权分式
		}
	}
}
# 复合查询 -- Boolean Query 
# must:必须匹配的条件，可以理解为“与”
# should:选择性匹配的条件，可以理解为“或”
# must_not:必须不匹配的条件，不参与打分 - 提高效率
# filter:必须匹配的条件，不参与打分 - 提高效率
# 搜索名字包含“如家”，价格不高于400，在坐标31.21，121.5周围10km范围内的酒店
GET /hotel/_search
{
	"query": {
		"bool": {
			"must": [
				{"match":{"name": "如家"}}
			],
			"must_not": [
				{"range":{"price":{"gt": 400}}}
			],
			"filter":[
				{"geo_distance": {
					"distance": "20km",
					"location": {
						"lat": 31.21,
						"lon": 121.5
					}
				}}
			]
		}
	}
}

搜索结果处理（P108）
排序 – 经过排序就不做相关性打分，提高查询效率。
分页–文档全部查询，然后截取当前文档的位置+显示的文档数；默认top10，查询更多修改参数-from、size。
深度分页问题–ES集群处理的时候，是将所有节点的结果聚合，在内存中排序，在选中相应的文档；搜索页数过深，或结果集（from+size）越大，对内存和CPU的消耗也越高。
es设定结果集上限为10000。
分页方式(P109)
from + size–优点：支持随机翻页；缺点：深度分页问题。场景：百度、谷歌、京东等的随机翻页搜索。
after search–优点：没有查询上限（单词查询的size不超过10000），缺点：只能向后逐页查询，不支持随机翻页。场景：没有随机翻页需求的搜索，例如手机向下翻页。
scroll：优点：没有查询上限（单词查询的size不超过10000），缺点：会额外消耗内存，搜索结果是非实时的，场景：海量数据的获取和迁移。（已弃用）
高亮–将搜索结果中把搜索关键字突出显示。

# 对酒店数据按照用户评价降序排序，评价相同的按照价格升序排序
GET /hotel/_search
{
	"query": {
		"match_all": {}
	},
	"sort": [
		{
			"score": "desc"
		},
		{
			"price": "asc"
		}
	]
}
# 对酒店数据数据按照你的位置坐标的距离升序排序
GET /hotel/_search
{
	"query": {
		"match_all": {}
	},
	"sort": [
		{
			"_geo_distance": {
				"location": {
					"lat": 31.034661,
					"lon": 121.612282
				},
				"order": "asc",
				"unit": "km"
			}
		}
	]
}

# 分页查询 -- from-分页当前的位置  size-显示文档的总数
GET /hotel/_search
{
	"query": {
		"match_all": {}
	},
	"sort":[
		{
			"price": "asc"
		}
	],
	"from": 0,
	"size": 10
}

# 高亮查询，默认情况下，ES搜索字段必须与高亮字段一致，可以将"require_field_match":"false"-关闭搜索字段和高亮字段匹配
GET /hotel/_search
{
	"query": {
		"match": {
			"all": "如家"
		}
	},
	"highlight":{
		"fields":{
			"name":{
				"require_field_match":"false"
			}
		}
	}
}

RestClient查询文档–利用JavaRestClient查询文档。（P111）
基本步骤–创建SearchRequest对象-准备Request.source()，其中QueryBuilders来构建查询条件，再传入query()方法-发送请求，得到结果-解析结果（参考JSON结果，从外到内，逐层解析）。
全文检索 – 要构建条件只需要QueryBuilders。
高亮–高亮结果解析是参考JSON结果，逐层解析。

->微服务技术栈DSL语法课程视频

https://www.bilibili.com/video/BV1LQ4y127n4?p=100

<-

记录每一个学习瞬间

项目涉及技术

实用篇

猜你喜欢