El servicio de búsqueda en la nube Volcano Engine se actualiza a una nueva arquitectura nativa de la nube, proporcionando miles de millones de capacidades de bases de datos vectoriales distribuidas...

Actúa y presta atención.

a5c6bf9b54eac430cb3d2604b4ee42fb.gif

No te pierdas con información útil

‍Desde el comienzo del desarrollo de Internet, la tecnología de búsqueda ha florecido con un valor social y económico asombroso. Con el rápido desarrollo de la sociedad de la información, los datos están creciendo de manera explosiva. La tecnología de búsqueda satisface las necesidades de compartir y recuperar información rápidamente mediante la recopilación y el procesamiento de datos.

El servicio de búsqueda en la nube ESCloud es un servicio de búsqueda distribuido en línea totalmente administrado proporcionado por Volcano Engine , compatible con Elasticsearch, Kibana y otros software y complementos de código abierto de uso común. Puede proporcionar recuperación de múltiples condiciones, estadísticas e informes para texto estructurado y no estructurado, lo que ayuda a lograr implementación con un solo clic, escalamiento elástico, operación y mantenimiento simplificados y crear rápidamente servicios prácticos como análisis de registros y análisis de recuperación de información.

Con el auge de Serverless y la tendencia general, el servicio de búsqueda en la nube Volcano Engine se ha actualizado a una nueva arquitectura nativa de la nube .

Versión nativa de la nube del servicio de búsqueda en la nube‍

14de9a2f16504e6aea17398b5248e6e6.png

k-NN, búsqueda de vectores nativos y base de datos en la era de los grandes modelos

Con la aparición de aplicaciones en campos emergentes como la recomendación y el audio y video y la demanda de escenarios de modelos grandes, es imperativo introducir la búsqueda multimodal para satisfacer necesidades de búsqueda más complejas. Agregamos capacidades de búsqueda vectorial basadas en la recuperación de texto completo para lograr el análisis y la recuperación de datos no estructurados .

En el escenario de búsqueda de vectores, se utiliza un modelo de aprendizaje automático para generar vectores para representar objetos de datos (texto, imágenes, audio y video, etc.); la distancia vectorial representa la similitud entre objetos. Las bibliotecas de vectores de uso común utilizan el algoritmo ANN para completar la recuperación de vectores masivos en muy poco tiempo.

k-NN se puede utilizar como una base de datos vectorial. Al introducir una biblioteca de algoritmos vectoriales avanzada para crear un índice vectorial, también mantendrá el índice vectorial construido en el disco, lo que hará que el índice sea más estable. Combinado con el índice invertido de los productos ESCloud, las capacidades de recuperación de vectores y recuperación de texto completo se pueden integrar para lograr capacidades de búsqueda híbrida más poderosas. Basada en el clúster de ESCloud, la base de datos de vectores k-NN puede proporcionar capacidades distribuidas a gran escala y brindar a los usuarios búsquedas de vectores escalables.

cff15302191f18ef7a1870e429585d5a.png

Caso escenario

Los escenarios comerciales basados ​​en k-NN se dividen principalmente en las siguientes seis categorías, que actualmente se utilizan en escenarios comerciales complejos dentro de ByteDance:

  • Búsqueda multimodal: incluida búsqueda de imágenes, búsqueda semántica, recuperación de similitudes de audio y video, etc.;

  • Recomendación inteligente: recomendación de vídeo, recomendación de publicidad, recomendación de relación, recomendación de producto, etc.;

  • Preguntas y respuestas inteligentes: preguntas frecuentes basadas en Transformer, preguntas y respuestas sobre conocimientos de dominio basadas en LLM y control de calidad generativo basado en la colección LangChain;

  • Deduplicación de datos: revisión y deduplicación de videos, audios e imágenes, y detección de derechos de autor de diversos materiales;

  • Control de riesgos de seguridad: detección de fraude, detección contra delitos, evaluación de riesgos, detección de anomalías;

  • Otras aplicaciones: minería de datos, análisis de datos, reordenación de búsquedas, búsqueda de imágenes de texto.

Tomemos como ejemplo el esquema de reconocimiento de similitudes de redacción publicitaria.

3b35bde3cb2d1e2eeafd9d62e35b2d15.png

En el escenario donde los usuarios envían redacción publicitaria, para garantizar la experiencia del usuario, es necesario asegurarse de que la redacción publicitaria enviada no contenga contenido duplicado, por lo que se realizará la identificación de similitud y la deduplicación de cada contenido enviado. Cada copia se genera incrustando a través del modelo BERT y se recupera una vez en la búsqueda en la nube. Si la similitud es inferior al umbral, se considerará como nueva redacción, que se escribirá en la base de datos vectorial k-NN y se mejorará gradualmente en una biblioteca de redacción; si la similitud es superior al umbral, se juzgará como redacción duplicada y la cantidad de push se reducirá.


El servicio de búsqueda en la nube ESCloud es compatible con Elasticsearch, Kibana y otros software y complementos de código abierto de uso común. Proporciona recuperación de múltiples condiciones, estadísticas e informes de texto estructurado y no estructurado. Puede lograr implementación con un solo clic y escalamiento elástico. , operación y mantenimiento simplificados y creación rápida de análisis de registros, análisis de recuperación de información y otras capacidades comerciales.

8c7cacc7ee245b7aa27b6216fdd88da5.png

Escanee el código QR para conocer más detalles del producto

063d1149a57ba51be745d77e3c40bad8.png Haga clic en "Leer el texto original" para conocer más detalles del producto.

Supongo que te gusta

Origin blog.csdn.net/ByteDanceTech/article/details/131714527
Recomendado
Clasificación