elasticsearch:分布式检索引擎,扩展性好
使用Lucene作为核心,通过restful api来请求使搜索变得简单
特点:分布式,多用户,搜索引擎,restful web接口,支持实时get请求,适合作为nosql数据存储,但是缺少分布式事务
ES解决了这些问题
1、自动维护数据的分布到多个节点的索引的建立,还有搜索请求分布到多个节点的执行 即检索数据
2、自动维护数据的冗余副本,保证了一旦机器宕机,不会丢失数据
3、速度快
原理:
当ElasticSearch的节点启动后,它会利用多播(multicast)(或者单播,如果用户更改了配置)寻找集群中的其它节点,并与之建立连接。这个过程如下图所示
概念:
1.索引:相当于表名
2.类型:相当于表结构
3.文档: 表中数据
关系:一个 Elasticsearch 集群可以包含多个索引(数据库),也就是说其中包含了很多类型(表)。这些类型中包含了很多的文档(行),然后每个文档中又包含了很多的字段(列)
Cluster:集群:可运行在多个服务器上
node:节点:形成集群的每个服务器叫节点
shard:分片:文档多时,由于内存限制,磁盘处理不足速度变慢时,一个节点不够,数据可以分为较小的分片,每个分片放到不同的服务器上。当查询的索引分布在多个分片上时,es会把查询发送给每个相关的分片,并将结果组成一起返回
Replia:副本:为提高查询吞吐量或实现高可用性,可以使用分片副本。
副本是一个分片的精确复制,每个分片可以有零个或多个副本。ES中可以有许多相同的分片,其中之一被选择更改索引操作,这种特殊的分片称为主分片。
当主分片丢失时,如:该分片所在的数据不可用时,集群将副本提升为新的主分片。
master-slave架构:建立索引回先发到master,master建立完索引后将集群状态同步到slave
只有建立索引和类型菜经过master,数据(文档)的写入有个简单的routing规则,可以route到集群任意节点,所以写压力是分散到整个集群的
keyword有分词
搜索引擎的原理:反向索引,倒排索引:通过对内容进行分词建立倒排索引,指向title索引,内容->标题反向查询
一个内容如果在多个标题的内容中存在则可指向多个标题;对关键字建立倒排索引
和百度,谷歌原理比较像,谷歌有停顿词,无意义的词或者符号
典型应用:ELK系统 ELK=elasticsearch+Logstash+kibana