Tome uma atitude e preste atenção
Não se perca com informações úteis
Desde o início do desenvolvimento da Internet, a tecnologia de pesquisa floresceu com um valor social e econômico incrível. Com o rápido desenvolvimento da sociedade da informação, os dados estão a crescer de forma explosiva.A tecnologia de pesquisa satisfaz as necessidades de partilha de informação e recuperação rápida através da recolha e processamento de dados.
O serviço de pesquisa em nuvem ESCloud é um serviço de pesquisa distribuído on-line totalmente gerenciado fornecido pelo Volcano Engine . É compatível com Elasticsearch, Kibana e outros softwares e plug-ins de código aberto comumente usados. Ele pode fornecer recuperação multicondição, estatísticas e relatórios para texto estruturado e não estruturado, ajudando a alcançar implantação com um clique, dimensionamento elástico, operação e manutenção simplificadas e construir rapidamente serviços práticos, como análise de log e análise de recuperação de informações.
Com a ascensão do Serverless e a tendência geral, o serviço de pesquisa em nuvem Volcano Engine foi atualizado para uma nova arquitetura nativa da nuvem .
Versão nativa da nuvem do serviço de pesquisa em nuvem
k-NN, pesquisa vetorial nativa e banco de dados na era dos grandes modelos
Com o surgimento de aplicações em campos emergentes, como recomendação e áudio e vídeo, e a demanda por grandes cenários de modelos, é imperativo introduzir a pesquisa multimodal para atender às necessidades de pesquisa mais complexas. Adicionamos recursos de pesquisa vetorial com base na recuperação de texto completo para obter análise e recuperação de dados não estruturados .
No cenário de busca vetorial, um modelo de aprendizado de máquina é utilizado para gerar vetores para representar objetos de dados (texto, imagens, áudio e vídeo, etc.); a distância vetorial representa a semelhança entre os objetos. Bibliotecas de vetores comumente usadas usam o algoritmo RNA para completar a recuperação de vetores massivos em um tempo muito curto.
k-NN pode ser usado como um banco de dados vetorial.Ao introduzir uma biblioteca avançada de algoritmos vetoriais para construir um índice vetorial, ele também persistirá o índice vetorial construído no disco, tornando o índice mais estável. Combinado com o índice invertido dos produtos ESCloud, os recursos de recuperação vetorial e de texto completo podem ser integrados para obter recursos de pesquisa híbrida mais poderosos. Baseado no cluster ESCloud, o banco de dados de vetores k-NN pode fornecer recursos distribuídos em larga escala e oferecer aos usuários pesquisas de vetores escaláveis.
Caso de cenário
Os cenários de negócios baseados em k-NN se enquadram principalmente nas seis categorias a seguir, que são atualmente usadas em cenários de negócios complexos dentro do ByteDance:
Pesquisa multimodal: incluindo pesquisa de imagens, pesquisa semântica, recuperação de similaridade de áudio e vídeo, etc.;
Recomendação inteligente: recomendação de vídeo, recomendação de publicidade, recomendação de relacionamento, recomendação de produto, etc.;
Perguntas e respostas inteligentes: perguntas frequentes baseadas no Transformer, perguntas e respostas de conhecimento de domínio baseadas em LLM e controle de qualidade generativo baseado na coleção LangChain;
Desduplicação de dados: revisão e desduplicação de vídeos, áudios e imagens e detecção de direitos autorais de diversos materiais;
Controle de riscos de segurança: detecção de fraude, detecção anticrime, avaliação de risco, detecção de anomalias;
Outras aplicações: mineração de dados, análise de dados, reordenação de pesquisas, pesquisa de texto e pesquisa de imagens.
Tomemos como exemplo o esquema de reconhecimento de similaridade de direitos autorais.
No cenário em que os usuários enviam copywriting, para garantir a experiência do usuário, é necessário garantir que o copywriting enviado não contenha conteúdo duplicado, portanto, será realizada a identificação de similaridade e desduplicação de cada conteúdo enviado. Cada cópia é gerada por incorporação por meio do modelo BERT e recuperada uma vez na busca na nuvem. Se a similaridade for inferior ao limite, será julgado como novo copywriting, que será gravado no banco de dados vetorial k-NN e gradualmente melhorado em uma biblioteca de copywriting; se a similaridade for superior ao limite, será julgado como direitos autorais duplicados e a quantidade de push será reduzida.
O serviço de pesquisa em nuvem ESCloud é compatível com Elasticsearch, Kibana e outros softwares e plug-ins de código aberto comumente usados. Ele fornece recuperação de múltiplas condições, estatísticas e relatórios de texto estruturado e não estruturado. Ele pode obter implantação com um clique e escalonamento elástico , operação e manutenção simplificadas e criação rápida de análise de log., análise de recuperação de informações e outros recursos de negócios.
Digitalize o código QR para saber mais detalhes do produto
Clique em "Ler o texto original" para saber mais detalhes do produto