O serviço de pesquisa em nuvem Volcano Engine é atualizado para uma nova arquitetura nativa da nuvem, fornecendo bilhões de recursos de banco de dados de vetores distribuídos...

Tome uma atitude e preste atenção

a5c6bf9b54eac430cb3d2604b4ee42fb.gif

Não se perca com informações úteis

‍Desde o início do desenvolvimento da Internet, a tecnologia de pesquisa floresceu com um valor social e econômico incrível. Com o rápido desenvolvimento da sociedade da informação, os dados estão a crescer de forma explosiva.A tecnologia de pesquisa satisfaz as necessidades de partilha de informação e recuperação rápida através da recolha e processamento de dados.

O serviço de pesquisa em nuvem ESCloud é um serviço de pesquisa distribuído on-line totalmente gerenciado fornecido pelo Volcano Engine . É compatível com Elasticsearch, Kibana e outros softwares e plug-ins de código aberto comumente usados. Ele pode fornecer recuperação multicondição, estatísticas e relatórios para texto estruturado e não estruturado, ajudando a alcançar implantação com um clique, dimensionamento elástico, operação e manutenção simplificadas e construir rapidamente serviços práticos, como análise de log e análise de recuperação de informações.

Com a ascensão do Serverless e a tendência geral, o serviço de pesquisa em nuvem Volcano Engine foi atualizado para uma nova arquitetura nativa da nuvem .

Versão nativa da nuvem do serviço de pesquisa em nuvem‍

14de9a2f16504e6aea17398b5248e6e6.png

k-NN, pesquisa vetorial nativa e banco de dados na era dos grandes modelos

Com o surgimento de aplicações em campos emergentes, como recomendação e áudio e vídeo, e a demanda por grandes cenários de modelos, é imperativo introduzir a pesquisa multimodal para atender às necessidades de pesquisa mais complexas. Adicionamos recursos de pesquisa vetorial com base na recuperação de texto completo para obter análise e recuperação de dados não estruturados .

No cenário de busca vetorial, um modelo de aprendizado de máquina é utilizado para gerar vetores para representar objetos de dados (texto, imagens, áudio e vídeo, etc.); a distância vetorial representa a semelhança entre os objetos. Bibliotecas de vetores comumente usadas usam o algoritmo RNA para completar a recuperação de vetores massivos em um tempo muito curto.

k-NN pode ser usado como um banco de dados vetorial.Ao introduzir uma biblioteca avançada de algoritmos vetoriais para construir um índice vetorial, ele também persistirá o índice vetorial construído no disco, tornando o índice mais estável. Combinado com o índice invertido dos produtos ESCloud, os recursos de recuperação vetorial e de texto completo podem ser integrados para obter recursos de pesquisa híbrida mais poderosos. Baseado no cluster ESCloud, o banco de dados de vetores k-NN pode fornecer recursos distribuídos em larga escala e oferecer aos usuários pesquisas de vetores escaláveis.

cff15302191f18ef7a1870e429585d5a.png

Caso de cenário

Os cenários de negócios baseados em k-NN se enquadram principalmente nas seis categorias a seguir, que são atualmente usadas em cenários de negócios complexos dentro do ByteDance:

  • Pesquisa multimodal: incluindo pesquisa de imagens, pesquisa semântica, recuperação de similaridade de áudio e vídeo, etc.;

  • Recomendação inteligente: recomendação de vídeo, recomendação de publicidade, recomendação de relacionamento, recomendação de produto, etc.;

  • Perguntas e respostas inteligentes: perguntas frequentes baseadas no Transformer, perguntas e respostas de conhecimento de domínio baseadas em LLM e controle de qualidade generativo baseado na coleção LangChain;

  • Desduplicação de dados: revisão e desduplicação de vídeos, áudios e imagens e detecção de direitos autorais de diversos materiais;

  • Controle de riscos de segurança: detecção de fraude, detecção anticrime, avaliação de risco, detecção de anomalias;

  • Outras aplicações: mineração de dados, análise de dados, reordenação de pesquisas, pesquisa de texto e pesquisa de imagens.

Tomemos como exemplo o esquema de reconhecimento de similaridade de direitos autorais.

3b35bde3cb2d1e2eeafd9d62e35b2d15.png

No cenário em que os usuários enviam copywriting, para garantir a experiência do usuário, é necessário garantir que o copywriting enviado não contenha conteúdo duplicado, portanto, será realizada a identificação de similaridade e desduplicação de cada conteúdo enviado. Cada cópia é gerada por incorporação por meio do modelo BERT e recuperada uma vez na busca na nuvem. Se a similaridade for inferior ao limite, será julgado como novo copywriting, que será gravado no banco de dados vetorial k-NN e gradualmente melhorado em uma biblioteca de copywriting; se a similaridade for superior ao limite, será julgado como direitos autorais duplicados e a quantidade de push será reduzida.


O serviço de pesquisa em nuvem ESCloud é compatível com Elasticsearch, Kibana e outros softwares e plug-ins de código aberto comumente usados. Ele fornece recuperação de múltiplas condições, estatísticas e relatórios de texto estruturado e não estruturado. Ele pode obter implantação com um clique e escalonamento elástico , operação e manutenção simplificadas e criação rápida de análise de log., análise de recuperação de informações e outros recursos de negócios.

8c7cacc7ee245b7aa27b6216fdd88da5.png

Digitalize o código QR para saber mais detalhes do produto

063d1149a57ba51be745d77e3c40bad8.png Clique em "Ler o texto original" para saber mais detalhes do produto

Acho que você gosta

Origin blog.csdn.net/ByteDanceTech/article/details/131714527
Recomendado
Clasificación