copy_to

我们来着重讲解一下如何使用Elasticsearch中的copy来提高搜索的效率。比如在我们的搜索中，经常我们会遇到如下的文档：

    {
        "user" : "双榆树-张三",
        "message" : "今儿天气不错啊，出去转转去",
        "uid" : 2,
        "age" : 20,
        "city" : "北京",
        "province" : "北京",
        "country" : "中国",
        "address" : "中国北京市海淀区",
        "location" : {
          "lat" : "39.970718",
          "lon" : "116.325747"
        }
    }

在这里，我们可以看到在这个文档中，我们有这样的几个字段：

     "city" : "北京",
     "province" : "北京",
     "country" : "中国",

它们是非常相关的。我们在想是不是可以把它们综合成一个字段，这样可以方便我们的搜索。假如我们要经常对这三个字段进行搜索，那么一种方法我们可以在must子句中使用should子句运行bool查询。这种方法写起来比较麻烦。有没有一种更好的方法呢？我们其实可以使用Elasticsearch所提供的copy_to来提高我们的搜索效率。我们可以首先把我们的index的mapping设置成如下的项：

    PUT twitter
    {
      "mappings": {
        "properties": {
          "address": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          },
          "age": {
            "type": "long"
          },
          "city": {
            "type": "keyword",
            "copy_to": "region"
          },
          "country": {
            "type": "keyword",
            "copy_to": "region"
          },
          "province": {
            "type": "keyword",
            "copy_to": "region"
          },
          "region": {
            "type": "text",
            "store": true
          },
          .............
        }
      }
    }

在这里，我们特别注意如下的这个部分：

        "city": {
          "type": "keyword",
          "copy_to": "region"
        },
        "country": {
          "type": "keyword",
          "copy_to": "region"      
        },
        "province": {
          "type": "keyword",
          "copy_to": "region"
        },
        "region": {
          "type": "text"
        }

store:

众所周知_source字段存储的是索引的原始内容，那store属性的设置是为何呢？es为什么要把store的默认取值设置为no？设置为yes是否是重复的存储呢？

默认情况下，对字段值进行索引以使其可搜索，但不存储它们 (store)。这意味着可以查询该字段，但是无法检索原始字段值。在这里我们必须理解的一点是: 如果一个字段的mapping中含有store属性为true，那么有一个单独的存储空间为这个字段做存储，而且这个存储是独立于_source的存储的。它具有更快的查询。存储该字段会占用磁盘空间。如果需要从文档中提取（即在脚本中和聚合），它会帮助减少计算。在聚合时，具有store属性的字段会比不具有这个属性的字段快。此选项的可能值为false和true。

通常这无关紧要。该字段值已经是_source字段的一部分，默认情况下已存储。如果您只想检索单个字段或几个字段的值，而不是整个_source的值，则可以使用source filtering来实现。

mapping中有一个新的被称作为region的项。它将为我们的搜索带来方便。

那么假如我们想搜索country:中国，province:北京这样的记录的话，我们可以只写如下的一条语句就可以了：

    GET twitter/_search 
    {
      "query": {
        "match": {
          "region": {
            "query": "中国 北京",
            "minimum_should_match": 4
          }
        }
      }
    }

这样我们只对一个region进行操作就可以了，否则我们需要针对country, city及province分别进行搜索。

boost

搜索条件的权重，boost，可以将某个搜索条件的权重加大，
当匹配这个搜索条件和匹配另一个搜索条件的document知识点计算relevance score时，匹配权重更大的搜索条件的document，relevance score会更高，当然也就会优先被返回回来
默认情况下，搜索条件的权重都是一样的，都是1

GET /forum/article/_search 
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "title": "blog"
          }
        }
      ],
      "should": [
        {
          "match": {
            "title": {
              "query": "java"
            }
          }
        },
        {
          "match": {
            "title": {
              "query": "hadoop"
            }
          }
        },
        {
          "match": {
            "title": {
              "query": "spark",
              "boost": 5
            }
          }
        }
      ]
    }
  }
}

multi_match

-满足使用match在多个字段中进行查询的需求

POST     /shop/_doc/_search
{
    "query": {
        "multi_match": {
                "query": "皮特帕克慕课网",
                "fields": ["desc", "nickname"]

        }
    }
}

权重，为某个字段设置权重，权重越高，文档相关性得分就越高。通畅来说搜索商品名称要比商品简介的权重更高。

POST     /shop/_doc/_search
{
    "query": {
        "multi_match": {
                "query": "皮特帕克慕课网",
                "fields": ["desc", "nickname^10"]

        }
    }
}

nickname^10 代表搜索提升10倍相关性，也就是说用户搜索的时候其实以这个nickname为主，desc为辅，nickname的匹配相关度当然要提高权重比例了。

ngram

参考：Elasticsearch 的 NGram 分词器处理模糊匹配

（12）Elasticsearch copy_to、boost、multi_match、ngram

copy_to

boost

multi_match

ngram

猜你喜欢