Os produtos secos mais recentes da Elastic China Developers Conference 2023 - Elasticsearch 7, 8 novos recursos de uma só vez

f93902f60f90a04a6a6196cf9652f541.png

Com o rápido desenvolvimento do Elasticsearch em escala global, suas funções e cenários de aplicação estão se tornando cada vez mais abundantes. Na ElasticConference 2023 de hoje, aprendemos sobre uma série de novos recursos interessantes para as séries 7 e 8 do Elasticsearch. Este artigo apresentará esses novos recursos e seus aplicativos em detalhes para ajudá-lo a entender e usar melhor o Elasticsearch.

413647414f5cad352b44635cd6a60e0f.png

1. Nova estratégia de balanceamento de cluster

5975c7c0f1d4c778007e9408fb9a710e.png

Estratégia 1: Rebalancear o disco de acordo com o tamanho do fragmento Nesta estratégia, o sistema monitora o uso do disco em cada nó do cluster. Se o uso do disco de um nó exceder o limite predefinido, o sistema acionará automaticamente uma operação de migração de estilhaços para migrar alguns estilhaços no nó para outros nós com menor uso. Essa estratégia de rebalanceamento baseada no tamanho do shard ajuda a obter uma alocação balanceada de recursos de disco no cluster, melhorando assim o desempenho geral.

Estratégia 2: Rebalancear o índice de acordo com a carga de dados importados Para a carga das requisições de leitura e escrita, o sistema irá monitorar a carga de dados importados em cada nó do cluster. De acordo com a carga de dados de entrada, o sistema ajustará automaticamente a distribuição de shards de índice em cada nó, de modo que o número de shards em nós com carga mais alta diminua, enquanto o número de shards em nós com carga mais baixa aumente. Desta forma, a distribuição balanceada da carga de dados introduzida no cluster pode ser realizada enquanto garante o desempenho do sistema.

Essa nova estratégia de balanceamento de cluster tem as seguintes vantagens: a nova estratégia de balanceamento de cluster pode fazer uso total dos recursos de cada nó e melhorar o desempenho geral equilibrando a distribuição do disco e introduzindo a carga de dados. Realize o balanceamento de carga entre os nós, reduza o impacto de uma única falha de nó no cluster e melhore a estabilidade do sistema.

Além disso, essa estratégia pode ajustar automaticamente a alocação de recursos de acordo com as necessidades reais, evitar desperdício de recursos e melhorar a utilização de recursos. Ao mesmo tempo, o ajuste automático reduz a carga do pessoal de O&M, reduz o risco de intervenção manual e ajuda a reduzir os custos de O&M.

2. O Kibana oferece suporte à arquitetura ARM

f9f9cc2c7997af8e7238fe929de4a84c.png

3. Plataforma de coleta centralizada e funções de cena de segurança

af1d3b4ac08957937c0456922d4e0464.png

O Elastic Stack apresenta uma plataforma de coleta centralizada e fornece uma série de soluções de integração e uma plataforma de gerenciamento unificado.

Além disso, em termos de cenários de segurança, o Elastic Stack fornece a função de série temporal EQL, adequada para cenários que exigem correspondência de sequência.

f6568ca061454a7f5f8ff328d26cbfe4.png

4. Arquitetura de separação de computação de armazenamento e nova linguagem de pesquisa ESQL

A direção de desenvolvimento futuro do Elastic Stack gira principalmente em torno da arquitetura de separação de serviço e armazenamento e cálculo. Na arquitetura nativa da nuvem, o uso de armazenamento de objetos como meio pode reduzir o custo de manipulação de dados e melhorar a capacidade de dimensionamento automático.

ea4541ccd3a12c371b31d27763e279d9.png

Além disso, o Elastic Stack também apresentará uma nova linguagem de pesquisa ESQL para fornecer maior flexibilidade e desempenho de processamento de dados. O ESQL usa pipelines para conectar e pode realizar operações de pesquisa em várias etapas, como conversão e filtragem de dados.

4544b2aaf3efb933a44fbaf695662eb1.png

62cc3c2cd5d0a2b813e073c2da2f857e.png

5. Solução de observação completa

O Elastic Stack fornece soluções completas de observação, incluindo logs, indicadores, APM, monitoramento de usuário real RUM, monitoramento sintético, análise geral de desempenho, etc. Essas funções podem ajudar os usuários a entender e monitorar o status de execução do sistema de forma mais abrangente.

edcf24ebb0aa92a6e3a34620d2d1164a.png

1f7f89d41f7f5c836055164350b435cb.png

e2cff84c6e536cae7e501eee367aee42.png

6. Soluções de segurança

O Elastic Stack também fornece soluções de segurança, incluindo coleta de dados relacionados à segurança, análise e detecção de comportamento anormal e resposta automática. A Elastic Security pode fornecer uma solução de segurança completa, integrando funções de SIEM, Endpoint Security e Threat Hunting em uma plataforma para ajudar as empresas a obter proteção de segurança mais eficiente.

5ee612dd8c8ba21bf958bd35c384aa0a.png

7. Integração de aprendizado de máquina

O Elasticsearch integrou funções de aprendizado de máquina, que podem ser usadas para tarefas como detecção de anomalias e previsão de séries temporais. A nova versão do Elasticsearch otimizará ainda mais as funções de aprendizado de máquina, melhorará o treinamento de modelos e o desempenho de previsão e fornecerá mais algoritmos de aprendizado de máquina para os usuários escolherem.

Para isso, eu pessoalmente recomendo o GPT4 VS Elasticsearch ensinado pelo Sr. Li Jie na segunda parte. É muito bom e vale a pena aprender repetidamente! (Como mostrado abaixo)

5f705373c98ff0177230bf0337208f5b.png

Mais do que rápido, o Elasticsearch 8.0 foi lançado oficialmente!

8. Pesquisa e Visualização Geoespacial

As séries Elasticsearch 7 e 8 aprimoram ainda mais os recursos de pesquisa e visualização geoespacial. Novos recursos incluem suporte para dados GeoJSON, otimizações para processamento de dados geoespaciais e mais agregação geoespacial e ferramentas de visualização. Essas funções ajudarão os usuários a processar e analisar dados geoespaciais de forma mais conveniente.

2a90be73159080f9da981b8ec35edb8f.png

Visualização do mapa de distribuição de endereços IP baseado em Elasticsearch + kibana

9. Agendamento flexível de recursos de computação e otimização de custos

O Elasticsearch apresenta a função de agendamento de recursos de computação elástica, que pode alocar recursos de computação dinamicamente de acordo com as necessidades reais de negócios. Além disso, a nova versão também fornece ferramentas de otimização de custos para ajudar os usuários a avaliar e otimizar os custos operacionais dos clusters Elasticsearch.

10. API mais poderosa e suporte à biblioteca cliente

As séries Elasticsearch 7 e 8 fornecerão APIs mais poderosas e suporte à biblioteca cliente para atender às necessidades de várias linguagens e plataformas de programação. Isso tornará mais fácil para os desenvolvedores integrar e usar a funcionalidade do Elasticsearch.

11. Otimização no nível de recuperação

Em relação à otimização no nível de recuperação, as séries Elasticsearch 7 e 8 também apresentam muitas melhorias significativas. Aqui estão alguns dos principais recursos de otimização de pesquisa:

655339e13fa68a3ae210c01fd48d979a.png

Explicação detalhada da classificação de recuperação do Elasticsearch - artigos básicos

11.1. Ponto no Tempo (PIT)

Point In Time (PIT) é um novo recurso introduzido após o lançamento do Elasticsearch 7.10. Ele permite que os usuários criem um instantâneo durante a pesquisa que permaneça consistente ao longo do tempo. Isso permite que os usuários tenham uma visão consistente em diferentes solicitações de pesquisa, evitando resultados inconsistentes devido a atualizações de índice.

7dddecaf16e87518b2d7e5acf783b919.png

Produtos secos | Interpretação abrangente e aprofundada da consulta de paginação do Elasticsearch

11.2. Tipos de campos curinga

O tipo de campo curinga é um novo tipo de campo projetado para oferecer suporte a consultas eficientes com curinga e expressões regulares. Ele pode ajudar os usuários a executar consultas complexas contendo curingas e expressões regulares mais rapidamente e melhorar o desempenho da consulta.

096e7f6ac2edd109ae89096bad82344a.png

Produtos secos | Guia de seleção do tipo de pesquisa do Elasticsearch

11.3. Campos de tempo de execução

Runtime Fields é um novo tipo de campo que permite aos usuários calcular dinamicamente os valores dos campos no momento da consulta. Isso significa que os usuários não precisam calcular e armazenar esses campos ao indexar, economizando espaço de armazenamento e melhorando o desempenho da indexação. Além disso, o Runtime Fields também oferece suporte à linguagem de script Painless, permitindo que os usuários definam com flexibilidade a lógica de cálculo do campo.

b4c425892ac5c37de528f0c02c3199f4.png

Explicação detalhada dos campos de tempo de execução do tipo de tempo de execução do Elasticsearch

11.4. Recuperando instantâneos

As séries Elasticsearch 7 e 8 suportam a função de instantâneo de recuperação, permitindo que os usuários especifiquem um instantâneo de índice histórico durante a consulta. Isso é muito útil para cenários de aplicativos que precisam consultar dados históricos ou analisar alterações de dados. Os usuários podem facilmente voltar ao status dos dados a qualquer momento para atender a várias necessidades de negócios.

c682aa6abf8d867cf439aee5584eb7d0.png

96a8dac887fdf41830f85b148b8b14d6.png

Produtos secos | Instantâneo pesquisável do Elasticsearch explicação detalhada

11.5. Enriquecer Pipeline

Enrich Pipeline é um novo pipeline de processamento de dados que permite aos usuários localizar e enriquecer dados em tempo real durante a indexação. Isso é semelhante à operação de pesquisa no banco de dados, que pode ajudar os usuários a combinar dados relacionados em um documento para pesquisa e análise subsequentes. O Enrich Pipeline oferece suporte a várias estratégias de pesquisa, como correspondência exata, correspondência difusa e correspondência geoespacial, para atender às necessidades de diferentes cenários.

fa0cb52304204a7f84b405f74f6b33c9.png

Enrich Processor - uma nova maneira do Elasticsearch vincular dados entre índices

11.6 Classificação de otimização de pesquisa

O algoritmo Block Max WAND é um algoritmo de recuperação de documentos eficiente baseado em um índice invertido, projetado para identificar e pular rapidamente documentos que não são competitivos, melhorando assim a eficiência da consulta.

919a8cc81a37f320c0d8513a79448694.png

O processo de implementação do algoritmo Block Max WAND inclui dividir a coleção de documentos em vários blocos, construir um índice invertido para cada bloco e usar o índice invertido para calcular a pontuação do documento. Ao selecionar os chunks com classificação mais alta para a próxima rodada de recuperação, os chunks com pontuação inferior à pontuação mais baixa dos documentos já encontrados são ignorados. Esse processo é repetido até que um número suficiente de documentos seja encontrado ou todos os blocos sejam ignorados.

11.7 Correspondência apenas de texto

A consulta "Corresponder apenas texto" é adequada para cenários que exigem consultas de correspondência difusa em campos do tipo texto, por exemplo, em aplicativos como mecanismos de pesquisa e plataformas de comércio eletrônico, os usuários inserem palavras-chave para consulta ou dados não estruturados ou semiestruturados . Correspondência de palavras, como dados de log, dados de mídia social, etc. No entanto, deve-se observar que esta consulta geralmente não é adequada para cenários que exigem correspondências exatas ou consultas de intervalo. Nesse caso, outros tipos de consulta devem ser selecionados, como consulta "termo" ou consulta "intervalo".

7487ee8921cb572635a4b6bd39859829.png

Por meio da otimização do nível de recuperação acima, as séries Elasticsearch 7 e 8 obtiveram melhorias significativas no desempenho da consulta, armazenamento de dados, computação em tempo real e processamento de dados, fornecendo aos usuários funções de recuperação mais poderosas e flexíveis.

11.8 Salve apenas o campo Doc Value

O Elasticsearch pode optar por salvar apenas Doc Values ​​ao processar dados de campo. Doc Values ​​​​é um formato de armazenamento colunar em disco que permite ao Elasticsearch realizar consultas e agregações com mais eficiência. Os benefícios de salvar apenas os campos Doc Value incluem: Economia de espaço em disco: Manter apenas Doc Values ​​pode reduzir o espaço em disco necessário para armazenar o índice, pois contém apenas os dados realmente necessários para consulta e agregação. Melhore o desempenho da consulta: como o Doc Values ​​é um armazenamento colunar, o Elasticsearch pode processar dados com mais eficiência ao realizar operações como agregação e classificação.

ab0996bbe5649baec018252e97a93760.png

Interpretação detalhada da estrutura interna de dados do Elasticsearch

Isso ajuda a acelerar os tempos de resposta da consulta. Uso de memória reduzido: Doc Values ​​​​são armazenados em disco, não na memória, portanto, o uso de memória pode ser reduzido, especialmente ao executar operações de agregação pesadas. Compatível com cache: como os valores de documento são armazenados em colunas, as linhas de cache da CPU podem ser melhor utilizadas durante o armazenamento em cache. Isso ajuda a melhorar o desempenho da consulta.

Deve-se observar que salvar apenas o campo Doc Value limita algumas funcionalidades. Por exemplo, o campo de origem do documento (_source) não estará disponível, o que significa que o conteúdo do documento original não pode ser atualizado ou recuperado com um documento parcial. Portanto, essas limitações devem ser ponderadas em relação aos benefícios acima quando apenas os Doc Values ​​​​são retidos.

12. Resumo

O ElasticConference 2023 nos traz muitos novos recursos empolgantes para as séries Elasticsearch 7 e 8. Esses novos recursos ajudarão a aumentar os recursos de processamento de dados, reduzir os custos de armazenamento, aumentar a flexibilidade da computação em tempo real e melhorar a segurança e a capacidade de observação. Como um mecanismo maduro de pesquisa e análise, o Elasticsearch está sendo constantemente otimizado e aprimorado para proporcionar uma melhor experiência aos usuários.

Observação: o conteúdo deste artigo é baseado no compartilhamento do Sr. Zhu Jie , o arquiteto sênior oficial da Elastic .

A maior conta pública não oficial do ElasticStack da China

  1. Elastic China Developer Conference 2019 compartilhamento de produtos secos

  2. Produtos secos | Notas da conferência de desenvolvedores da Elastic China 2018

  3. Elasticsearch, você merece! ——Revisão panorâmica do aplicativo baseado em cenário Elasticsearch na Conferência de Yunqi

Acho que você gosta

Origin blog.csdn.net/wojiushiwo987/article/details/130037089
Recomendado
Clasificación