ElasticSearch实战之基础入门(一)

ElasticSearch

1. 什么是RestFul

REST : 表现层状态转化(Representational State Transfer),如果一个架构符合REST原则,就称它为 RESTful 架构风格。

资源: 所谓"资源",就是网络上的一个实体,或者说是网络上的一个具体信息

表现层 :我们把"资源"具体呈现出来的形式,叫做它的"表现层"(Representation)。

状态转化(State Transfer):如果客户端想要操作服务器,必须通过某种手段,让服务器端发生"状态转 化"(State Transfer)。而这种转化是建立在表现层之上的,所以就是"表现层状态转化"。REST原则就是指一个URL代表一个唯一资源,并且通过HTTP协议里面四个动词:GET、POST、PUT、DELETE对应四种服务器端的基本操作: GET用来获取资源,POST用来添加资源(也可以用于更新资源),PUT用来更新资源,DELETE用来删除资源。

2. 什么是全文检索

全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。

全文检索(Full-Text Retrieval(检索))以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。

关于全文检索,我们要知道:

1. 只处理文本。

2. 不处理语义。

3. 搜索时英文不区分大小写。

4. 结果列表有相关度排序。

3. 什么是ElasticSearch

ElasticSearch 简称 ES是基于Apache Lucene构建的开源搜索引擎,是当前流行的企业级搜索引擎。Lucene本身就可以被认为迄今为止性能最好的一款开源搜索引擎工具包,但是lucene的API相对复杂,需要深厚的搜索理论。很难集成到实际的应用中去。同时ES是采用java语言编写,提供了简单易用的RestFul API,开发者可以使用其简单的RestFul API,开发相关的搜索功能,从而避免lucene的复杂性


4. ES的诞生

多年前,一个叫做Shay Banon的刚结婚不久的失业开发者,由于妻子要去伦敦学习厨师,他便跟着也去了。在他找工作的过程中,为了给妻子构建一个食谱的搜索引擎,他开始构建一个早期版本的Lucene。

直接基于Lucene工作会比较困难,所以Shay开始抽象Lucene代码以便Java程序员可以在应用中添加搜索功能。他发布了他的第一个开源项目,叫做“Compass”。

后来Shay找到一份工作,这份工作处在高性能和内存数据网格的分布式环境中,因此高性能的、实时的、分布式的搜索引擎也是理所当然需要的。然后他决定重写Compass库使其成为一个独立的服务叫做Elasticsearch。

第一个公开版本出现在2010年2月,在那之后Elasticsearch已经成为Github上最受欢迎的项目之一,代码贡献者超过300人。一家主营Elasticsearch的公司就此成立,他们一边提供商业支持一边开发新功能,不过Elasticsearch将永远开源且对所有人可用。

Shay的妻子依旧等待着她的食谱搜索……


5. ES的应用场景

Es主要以轻量级JSON作为数据存储格式,这点与MongoDB有点类似,但它在读写性能上优于 MongoDB 。同时也支持地理位置查询 ,还方便地理位置和文本混合查询 。 以及在统计、日志类数据存储和分析、可视化这方面是引领者。

国外:

Wikipedia(维基百科)使用ES提供全文搜索并高亮关键字、StackOverflow(IT问答网站)结合全文搜索与地理位置查询、Github使用Elasticsearch检索1300亿行的代码。

国内:

百度(在云分析、网盟、预测、文库、钱包、风控等业务上都应用了ES,单集群每天导入30TB+数据, 总共每天60TB+)、新浪 、阿里巴巴、腾讯等公司均有对ES的使用。

使用比较广泛的平台ELK(ElasticSearch, Logstash, Kibana)。

6. ES的安装

  1. 安装前准备
    centos7 +
    java 8 +
    elastic 6.2.4+
  1. 在官方网站下载ES
    wget http://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.1.tar.gz
  1. 安装JDK(必须JDK1.8+)
    rpm -ivh jdk-8u181-linux-x64.rpm
    注意:默认安装位置 /usr/java/jdk1.8.0_171-amd64
  1. 配置环境变量
    vim /etc/profile
    在文件末尾加入:
    export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64
    export PATH= P A T H : PATH: JAVA_HOME/bin
  1. 重载系统配置
    source /etc/profile
  1. 安装elasticsearche
    tar -zxvf elasticsearch-6.4.1.tar.gz
  1. elasticsearche的目录结构
    bin 可执行的二进制文件的目录
    config 配置文件的目录
    lib 运行时依赖的库
    logs modules 运行时日志文件
    plugins es中提供的插件
  1. 运行es服务
    在bin目录中执行 ./elasticsearch
    注意:root用户启动[2018-09-19T14:50:04,029][WARN ][o.e.b.ElasticsearchUncaughtExceptionHandler] [] uncaught exception in thread [main]org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root
  1. 不能以root用户身份启动

a.在linux系统中创建新的组
groupadd es

b.创建新的用户es并将es用户放入es组中
useradd es -g es

c.修改es用户密码
passwd es

d.将root用户解压的文件移动到es用户目录中
mv /root/elasticsearch-6.2.4 /home/es/

f.改变文件的所有者
chown -R es:es 当前es的安装目录(这里是:/home/es/elasticsearch)

  1. 登录es用户启动ES
    ./elasticsearch 启动ES
  1. 测试ES是否启动成功
    在命令终端中执行: curl http://localhost:9200 出现以下信息:
    {
    “name” : “xQK1cwT”,
    “cluster_name” : “elasticsearch”,
    “cluster_uuid” : “t7IYk7LKQ0mXcyyrdFWpLg”,
    “version” : {
    “number” : “6.2.4”,
    “build_hash” : “ccec39f”,
    “build_date” : “2018-04-12T20:37:28.497551Z”,
    “build_snapshot” : false,
    “lucene_version” : “7.2.1”,
    “minimum_wire_compatibility_version” : “5.6.0”,
    “minimum_index_compatibility_version” : “5.0.0”
    },
    “tagline” : “You Know, for Search”
    }
  1. 开启ES远程访问
    vim elasticsearch.yml 将原来network修改为以下配置:
    network.host: 0.0.0.0
  1. 启动时错误解决方案
	a.重新启动es出现如下错误
	  **ERROR: bootstrap checks failed[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]**
      解决方案:
       # 切换到root用户修改
        vim /etc/security/limits.conf
       # 在最后面追加下面内容
        *               soft    nofile          65536
        *               hard    nofile          65536
        *               soft    nproc           4096
        *               hard    nproc           4096
       # 退出重新登录检测配置是否生效:
        ulimit -Hn
        ulimit -Sn
        ulimit -Hu
        ulimit -Su

	b.重新启动出现如下错误
	  **ERROR: max number of threads [3802] for user [chenyn] is too low,increase to at least [4096]**
       解决方案:
       #进入limits.d目录下修改配置文件。
        vim /etc/security/limits.d/20-nproc.conf 
       # 修改为 启动ES用户名 soft nproc 4096
       
    c.重新启动出现如下错误
	  **ERROR: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]**
       解决方案:
        vim /etc/sysctl.conf
        vm.max_map_count=655360
       #执行以下命令生效:
        sysctl -p
  1. 关闭网络防火墙
    systemctl stop firewalld
    systemctl disable firewalld
  1. 外部浏览器访问即可
    http://es的主机名:9200 出现如下信息说明安装成功:
    {
    “name” : “xQK1cwT”,
    “cluster_name” : “elasticsearch”,
    “cluster_uuid” : “t7IYk7LKQ0mXcyyrdFWpLg”,
    “version” : {
    “number” : “6.2.4”,
    “build_hash” : “ccec39f”,
    “build_date” : “2018-04-12T20:37:28.497551Z”,
    “build_snapshot” : false,
    “lucene_version” : “7.2.1”,
    “minimum_wire_compatibility_version” : “5.6.0”,
    “minimum_index_compatibility_version” : “5.0.0”
    },
    “tagline” : “You Know, for Search”
    }

发布了33 篇原创文章 · 获赞 42 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/cx521600/article/details/89214281