Entrevista exclusiva de Mo Tianlun con Liu Xi de Xinghuan Technology: El pensamiento frío detrás de la "fiebre vectorial", ¿cómo crea Hippo una ventaja de "primer movimiento"?

Introducción: Profundamente comprometidos con la investigación y el desarrollo de tecnología durante décadas, nos adherimos a un camino de desarrollo independiente y controlable. Xinghuan Technology ha seguido avanzando hasta el final, insistiendo en la innovación primero, creando una matriz de productos integral y cotizando con éxito en 2022 como la primera empresa independiente de productos de software básico. Xinghuan Technology lanzó la base de datos de vectores distribuidos Transwarp Hippo y dos modelos a gran escala "Wuya" y "Quest" en la Conferencia de Tecnología Futura Xiangxingli de este año . Con respecto a los logros de Xinghuan Technology en el campo de las bases de datos vectoriales, las historias detrás de ellos y sus puntos de vista en este campo, Mo Tianlun invitó a Liu Xi, subdirector general del Departamento de Infraestructura de Xinghuan Technology, a compartir sus puntos de vista y puntos de vista .

Introducción : Liu Xi, subdirector general del departamento de infraestructura de Xinghuan Technology, ha trabajado en Xinghuan Technology durante 10 años y se ha dedicado a la investigación de bases de datos. Tiene experiencia en bases de datos relacionales, motores de búsqueda, bases de datos de series de tiempo, bases de datos espaciotemporales, vectores. bases de datos y otros campos de productos. Con una rica experiencia práctica, ha dirigido y participado en cientos de proyectos de big data en diversas industrias, como panfinanzas y fabricación de energía .

Empresa afiliada: Xinghuan Technology se compromete a crear software básico de big data a nivel empresarial, proporcionando software y servicios básicos durante todo el ciclo de vida de los datos, incluida la integración, el almacenamiento, la gobernanza, el modelado, el análisis, la extracción y la circulación de datos, y construyendo el mundo de datos del mañana. Después de años de investigación y desarrollo independientes, Xinghuan Technology ha establecido múltiples series de productos: plataforma básica integral de big data TDH, base de datos de análisis distribuido ArgoDB y base de datos de transacciones KunDB, plataforma de nube de datos inteligente basada en contenedores TDC y herramienta de desarrollo de big data TDS. la herramienta de análisis inteligente Sophon y la máquina todo en uno hiperconvergente de big data TxData Appliance, etc., y cuenta con varias tecnologías patentadas. En la actualidad, los productos de la empresa se han aplicado en más de una docena de industrias y tienen más de 1.400 usuarios finales. En octubre de 2022, cotizó con éxito en la Junta de Innovación Científica y Tecnológica de la Bolsa de Valores de Shanghai.

——El siguiente es el texto completo de la entrevista——

1. En primer lugar, dígales a todos en términos fáciles de entender qué es una base de datos vectorial, qué tipo de problemas resuelve principalmente y cuál es la diferencia entre esta y una base de datos relacional tradicional.

Liu Xi: Las bases de datos tradicionales se ocupan principalmente de datos numéricos y de tipos de caracteres, normalmente tablas relacionales de alta calidad. Por supuesto, ahora existen muchas bases de datos que procesan datos semiestructurados (como datos JSON), como MongoDB, Elasticsearch, etc. Sin embargo, la semántica de estos datos suele ser sólo superficial y no tiene un significado profundo. La base de datos vectorial es diferente, maneja datos no estructurados, como imágenes, videos, textos largos y audio, etc. El significado de estos datos no es su representación física, no son solo un montón de bytes, el verdadero significado reside en la semántica oculta.

Para las bases de datos tradicionales, no podemos abordar directamente cuestiones semánticas. Entonces, ¿cómo solucionar este problema? Utilizando tecnología de inteligencia artificial, como las redes neuronales típicas, para identificar, extraer y codificar las características semánticas detrás de los datos no estructurados. Finalmente, la semántica de estos datos se mapea o incrusta en un espacio vectorial de alta dimensión. ¿Cuáles son los beneficios de hacer esto? En realidad, esto transforma problemas semánticos que la base de datos no puede manejar directamente en problemas de búsqueda en el espacio vectorial. En resumen, utilizamos tecnología de inteligencia artificial para transformar la semántica detrás de los datos que la base de datos no puede procesar directamente en un proceso estructurado.

Al procesar datos no estructurados, generalmente extraemos no solo la dimensión del vector de características, sino también algunas etiquetas de atributos estructurados. Por ejemplo, el gran modelo financiero que estamos desarrollando utiliza algoritmos de reconocimiento de entidades para extraer personas jurídicas corporativas y otra información de las noticias financieras. Esta información no son sólo vectores, son más bien etiquetas de atributos. De manera similar, en el comercio electrónico anterior, para las imágenes de productos, además de los vectores de características, también era posible extraer etiquetas estructuradas como precio y color.

Por lo tanto, se puede decir que sin la tecnología de IA, no existiría una categoría de base de datos tan subdividida como la base de datos vectorial. Por otro lado, las bases de datos vectoriales pueden resolver el problema de la implementación de la tecnología de IA.

Los modelos grandes han atraído mucha atención recientemente, pero la capacidad de los modelos grandes es limitada: no pueden responder preguntas que nunca antes han visto, es decir, no pueden responder conocimientos que no están en el corpus de entrenamiento, como algunos datos privados o datos. en ámbitos profesionales, que normalmente no pueden presentarse en el corpus general. Cuando nos enfrentamos a situaciones que requieren responder preguntas especializadas, los modelos grandes pueden proporcionar respuestas incorrectas. En la era anterior de los modelos pequeños, normalmente hacíamos ajustes finos, pero los parámetros del modelo actual pueden alcanzar cientos de miles de millones o billones. En este caso, el costo del ajuste es muy alto y no resuelve el problema de que los modelos grandes no puedan obtener los datos más recientes. Por lo tanto, al separar el conocimiento del modelo grande e introducir la base de datos vectorial, en realidad se agrega una unidad de memoria al modelo grande, la llamada arquitectura de modelo grande + base de datos vectorial + Prompt (MVP). Bajo esta arquitectura, la implementación técnica de todo el modelo grande es más sencilla. Al utilizar una base de datos vectorial, podemos manejar datos privados o en tiempo real y tener un mejor control sobre la seguridad de los datos. Por lo tanto, como instalación básica de IA, la base de datos vectorial puede resolver eficazmente problemas en la aplicación práctica de la tecnología de IA.

En resumen, se puede ver que la relación entre la base de datos vectorial y la IA es muy estrecha. Se origina en la IA y al mismo tiempo proporciona soluciones efectivas para resolver problemas de aplicación de tecnología de IA.

2. Introduzca los antecedentes del nacimiento de la base de datos vectorial de Xinghuan Technology, así como el significado del nombre del producto Hippo y Logo.

Liu Xi: Antes de hablar sobre los antecedentes del nacimiento de la base de datos vectorial de Starlink Technology, me gustaría compartir algunas historias de esa época. Alrededor de 2018, en ese momento nosotros en Starring Technology todavía nos centrábamos en desarrollar tecnología de procesamiento unificado multimodelo. Transformamos gradualmente algunas funciones comunes de las bases de datos, como el almacenamiento distribuido, la informática distribuida, la seguridad y la gestión de recursos, de una arquitectura estrechamente acoplada a una arquitectura débilmente acoplada. Nuestro objetivo en ese momento era brindar un mejor soporte a varias bases de datos, como bases de datos de gráficos y bases de datos de series de tiempo, a través de una arquitectura unificada.

Durante este tiempo, el equipo de IA de nuestra empresa se acercó a mí y me dijo que existe un tipo de datos llamados datos vectoriales, que son muy importantes para nuestro negocio de IA. Sin embargo, sólo cuentan con una biblioteca llamada Faiss para manejar este tipo de datos. En ese momento, la versión de Faiss podría ser 1.1 o 1.2, que aún se encontraba en una etapa relativamente temprana. El problema que enfrentan es que estos datos requieren que escriban su propio código para administrarlos. Básicamente, cada proyecto necesita repetir ese trabajo, lo que requiere mucho tiempo y mano de obra, y puede no garantizar una alta disponibilidad y seguridad. Por lo tanto, querían que desarrollemos una base de datos que maneje específicamente datos vectoriales para que los utilice su equipo de IA.

Realizamos algunas investigaciones en ese momento y finalmente llegamos a la conclusión de que, aunque el mercado no era grande en ese momento, esta tecnología tenía un gran potencial. Aunque es posible que no se comercialice de inmediato, seguimos pensando que es necesario preparar dicha tecnología para el futuro. Entonces decidimos empezar a trabajar en ello. La primera versión de 0 a 1 avanzó rápidamente porque los requisitos eran relativamente claros y el equipo interno no necesitaba pensar demasiado en los problemas relacionados con el cliente. Nuestra primera versión básicamente transformó la biblioteca Faiss en una biblioteca distribuida: mediante la fragmentación basada en la ID de los datos, hay algunas copias debajo de cada fragmento y la coherencia de los datos se garantiza mediante el algoritmo Raft. Durante este período, completamos el trabajo de desacoplamiento mencionado anteriormente y tenemos muchos componentes técnicos directamente reutilizables a mano, por lo que nuestra primera versión se entregó rápidamente al equipo de IA y todo el proceso tomó menos de dos meses.

El equipo de IA se siente bastante bien después de usarlo, tiene una base de datos para administrar datos vectoriales y es muy confiable. Posteriormente también plantearon muchas exigencias. A continuación, agregamos almacenamiento independiente y índices de vectores de consulta a esta base de datos, y gradualmente agregamos funciones de adición, eliminación, modificación y consulta de datos, así como búsquedas mixtas escalares y vectoriales, índices escalares, etc. En resumen, desarrolle la primera versión rápidamente y continúe agregando funciones.

Cuando surgió el concepto del gran modelo, nos dimos cuenta de que la capacidad de la base de datos vectorial debería admitirse como un producto de base de datos independiente, no solo como un componente interno. Por lo tanto, comenzamos el trabajo de productización e invertimos mucho tiempo, incluida la resolución de seguridad, facilidad de uso lista para usar, capacidades de gestión de operación y mantenimiento, etc. Como producto completo para los usuarios del mercado, debemos considerar de manera integral varios aspectos. Finalmente, lanzamos oficialmente nuestra base de datos vectorial Transwarp Hippo en la conferencia de prensa de mayo de este año.

Como se mencionó anteriormente, la base de datos vectorial desempeña el papel de almacenamiento intermedio. Creemos que la base de datos vectorial es el hipocampo de un modelo de lenguaje grande y es una memoria. Por lo tanto, el nombre del producto Hippo se deriva del prefijo inglés hippocampus, y el logotipo también está cuidadosamente diseñado, incorporando la forma del hipocampo y elementos de íconos comúnmente utilizados en las bases de datos y, en última instancia, está representado por elementos vectoriales multidimensionales.

3. Recientemente, han aparecido repentinamente en el mercado muchos productos de bases de datos vectoriales. ¿Cree que el umbral técnico de las bases de datos vectoriales es alto? ¿Cuáles son los desafíos de las bases de datos vectoriales?

Liu Xi: Este fenómeno es algo interesante. Algunas personas pueden especular si realmente existe una demanda de bases de datos vectoriales, o simplemente estos fabricantes las lanzaron para seguir su ejemplo. ¿Se puede utilizar un producto de este tipo lanzado en un corto período de tiempo?

De hecho, hay muchos problemas que superar al desarrollar un nuevo producto de base de datos, lo que requiere mucho tiempo y recursos humanos. Además, las bases de datos vectoriales implican conocimientos en múltiples campos, incluido el conocimiento transversal de IA, el conocimiento de bases de datos y la seguridad. Crear una base de datos vectorial desde cero es costoso tanto en tiempo como en práctica.

En cuanto a la situación de nuestra tecnología Star Ring, la pregunta anterior ha sido respondida: nuestros productos evolucionaron a partir de las necesidades internas del equipo de IA hace unos años. Basándonos en nuestra práctica de los últimos años, creemos que los desafíos técnicos incluyen principalmente varios aspectos.

El primero es la cuestión de la escalabilidad. Con el desarrollo de aplicaciones como AIGC, especialmente el aumento de modelos grandes, la demanda de capacidades de incrustación y vectorización ha aumentado dramáticamente. La popularidad de los modelos grandes también ha provocado que la escala de datos vectoriales siga aumentando, desde millones de volúmenes de datos hasta decenas de millones o incluso más. Esto requiere que la base de datos admita eficazmente el almacenamiento y la recuperación de datos vectoriales a gran escala, lo que impone mayores demandas de recursos de hardware, especialmente cuando se implementa en la nube. El costo puede convertirse en un tema importante.

El segundo desafío es el costo. En las búsquedas de vectores, el tamaño del índice y el almacenamiento son factores clave, y los índices de vectores son generalmente más caros. En el pasado, cuando la cantidad de datos era pequeña, sólo unas pocas máquinas podían ser suficientes y el costo no era un tema crítico. Sin embargo, a medida que aumenta la escala de los datos, se requieren más recursos para respaldarlos, lo que implica consideraciones de costos.

El tercer desafío es la usabilidad. A diferencia de las bases de datos relacionales tradicionales, la búsqueda vectorial implica consideraciones más dimensionales, incluido el rendimiento y la recuperación. Para equilibrar el rendimiento y la recuperación, es necesario ajustar varios parámetros, pero esto puede no ser fácil de usar. Por lo tanto, simplificar la selección de parámetros y mejorar la experiencia del usuario es un desafío importante.

El desafío final es el problema de optimización de rutas en la búsqueda híbrida. En comparación con los optimizadores tradicionales, los optimizadores de búsqueda vectorial son más complejos porque necesitan considerar múltiples dimensiones. Cómo diseñar un modelo que pueda describir el costo de la búsqueda de vectores para lograr un equilibrio entre rendimiento y recuperación es un problema difícil que debe resolverse.

Por supuesto, las bases de datos vectoriales también enfrentan otros desafíos interesantes, como implementar filtrado de similitud de vectores en la búsqueda de vectores y cómo realizar uniones de similitud entre diferentes conjuntos de datos. Estos problemas requieren una investigación y solución en profundidad para que las bases de datos vectoriales puedan hacer frente mejor a diversos escenarios de aplicación en el mundo real.

4. Desde el lanzamiento de GPT 3.5, las bases de datos vectoriales se han vuelto repentinamente populares, con proyectos y escalas de inversión y financiamiento sin precedentes. ¿Qué opinas de esta ola de "fiebre vectorial"? ¿Crees que esta popularidad continuará?

Liu Xi: En la actualidad, la popularidad de las bases de datos de vectores nacionales y AIGC en la industria es evidente. Como dije antes, las bases de datos vectoriales se originan a partir de la IA y, al mismo tiempo, brindan soluciones efectivas para resolver los problemas de aplicación de la tecnología de la IA. El auge de los modelos grandes ha atraído una gran atención a campos como las bases de datos vectoriales y también ha generado más productos y soluciones, lo que ha provocado que el mercado madure rápidamente.

En los últimos seis meses en Xinghuan Technology, nos hemos comunicado con muchos clientes y socios, y hemos descubierto que los clientes están muy interesados en estas aplicaciones de aprendizaje profundo. Sin embargo, los clientes aún se encuentran en la etapa de aprendizaje y selección. Trabajamos con varios clientes en esfuerzos profundos de creación de prototipos. Antes de que los clientes introduzcan nuevas tecnologías en sus negocios reales, necesitan tiempo para adaptarse y comprender estos nuevos conceptos. Creemos que en la segunda mitad del año, las aplicaciones de modelos grandes nacionales pueden marcar el comienzo de un clímax.

En los próximos meses, veremos a más clientes comenzar a implementar estas nuevas tecnologías en negocios reales, porque cada vez que hablen con los clientes, tendrán una comprensión clara de cómo aplicar estas tecnologías y cómo funcionarán en sus empresas. Es una comprensión más clara, que es un proceso paso a paso.

5. Actualmente debería haber muchas bases de datos vectoriales en el mercado, incluidos complementos y bases de datos dedicadas, ¿a qué puntos deben prestar atención los usuarios al seleccionar bases de datos vectoriales?

Liu Xi: En términos generales, actualmente existen dos rutas técnicas para las bases de datos vectoriales: una se basa en bases de datos relacionales tradicionales que encapsulan funciones de cálculo vectorial y la otra son bases de datos vectoriales profesionales. Según la experiencia práctica de nuestra tecnología Star Ring, si los requisitos de volumen de datos pequeño y retraso de concurrencia de acceso no son altos, el método de encapsular cálculos vectoriales de la base de datos original puede ser factible, pero si el tamaño de los datos, la concurrencia de acceso y Otros requisitos no son altos. Después de que tales indicadores aumentan, en realidad necesitamos una base de datos vectorial profesional por razones de rendimiento, escalabilidad y elasticidad de recursos.

De hecho, abandonamos el camino de extender los cálculos vectoriales basados en Lucene desde el principio. Esto se debió principalmente a las limitaciones de la eficiencia de ejecución del lenguaje Java y la administración de memoria dinámica de JVM. Es difícil realizar cálculos vectoriales de manera eficiente para CPU y cargas de trabajo de gran memoria.

Si se basa en una base de datos relacional, el enfoque actual es tratar el vector como una columna. Algunas implementaciones crearán un tipo de datos vectoriales separados y otras implementarán directamente matrices flotantes para representarlo y luego crearán un índice vectorial para esta columna de vector Finalmente, amplíe la sintaxis de SQL o cree algunas UDF para que la sintaxis de búsqueda de vectores pueda representarse mediante el lenguaje SQL. Parece bastante simple, pero este enfoque tiene algunos problemas arquitectónicos, lo que dificulta la realización de búsquedas vectoriales de manera eficiente.

El primer problema es que si queremos expandir una nueva implementación de índice en la base de datos, debe implementarse de acuerdo con las especificaciones de índice de la base de datos, lo que provocará una pérdida de rendimiento del índice vectorial, y el índice vectorial es el núcleo. lógica de la base de datos vectorial, que también es directa. Como resultado, el rendimiento de este tipo de base de datos vectorial de propósito general será más débil que el de una base de datos vectorial dedicada. Hay muchos conjuntos de datos públicos y resultados de pruebas de vectores, que son fáciles de encontrar en Internet, y los cuellos de botella de rendimiento de este método se pueden descubrir mediante pruebas simples. Además, en términos de eficiencia de las consultas, razones similares también causarán pérdidas obvias de rendimiento.

El segundo problema es que el patrón de uso de recursos de la búsqueda vectorial es diferente del de las bases de datos tradicionales, lo que da como resultado que la escalabilidad y la elasticidad de los recursos de dichas bases de datos vectoriales sean inferiores a las de las bases de datos vectoriales profesionales. Habrá otras cuestiones técnicas, como cómo diseñar un modelo de optimización que sea compatible con datos estructurados y datos vectorizados, etc. La tercera cuestión de la que quiero hablar no es la tecnología, sino el costo para el usuario. Cuando hablamos por primera vez sobre el concepto de "base de datos vectorial", dijimos que la base de datos vectorial sirve para escenarios de aplicación de IA en la mayoría de los casos. En estos escenarios, las funciones estándar de la base de datos tradicional son en realidad difíciles de producir valor de aplicación real, por lo que para los usuarios En otros En palabras, en comparación con la compra de una base de datos vectorial dedicada, la compra de una base de datos general para su aplicación en escenarios vectoriales puede ser en realidad más desventajosa. La transformación de los sistemas de bases de datos existentes también puede tener un impacto inestable en el funcionamiento normal de las empresas existentes.

6. El umbral para utilizar bases de datos vectoriales parece ser relativamente alto. ¿Qué tipo de empresas cree que serán las primeras en utilizar bases de datos vectoriales? Además, ¿cuáles son los casos de éxito actuales en la base de datos de vectores de Xinghuan Technology?

Liu Xi: Es posible que las bases de datos vectoriales no hayan recibido mucha atención antes del surgimiento de los modelos grandes, pero de hecho se han estado desarrollando durante mucho tiempo y tienen muchas aplicaciones. Nosotros mismos hemos estado utilizando bases de datos vectoriales, y algunas grandes empresas también las están utilizando, así como empresas importantes como la IA generativa. Además, las bases de datos vectoriales tienen muchos otros escenarios de aplicación fuera de AIGC.

Por ejemplo, el campo del comercio electrónico se centra principalmente en aplicaciones como la búsqueda y las recomendaciones publicitarias, que son cruciales para el comercio electrónico. Las bases de datos vectoriales también se utilizan ampliamente en el campo de la conducción autónoma, por ejemplo, para anotaciones automáticas, reconocimiento de escenas, etc. En las redes sociales, las bases de datos vectoriales se pueden utilizar para controlar el riesgo del contenido, lo que ayuda a las plataformas a filtrar el discurso confidencial para mejorar la calidad y seguridad del contenido. El campo financiero también puede aprovechar al máximo la aplicación de bases de datos vectoriales, como la recomendación de servicios. Además, también es muy utilizado en campos como la biomedicina y la propiedad intelectual.

Como se mencionó anteriormente, nuestra base de datos de vectores de Xinghuan Technology nació originalmente debido a las necesidades del equipo interno de IA, por lo que también hay algo de práctica. Por ejemplo, algunas reglas de intercambio, regulaciones de futuros, informes de estudios de viabilidad y otros materiales se procesan y almacenan en una base de datos vectorial, y se construye una base de conocimientos basada en modelos de dominio grande. La base de datos vectorial se utiliza para mejorar la capacidad de recordar las últimas novedades. conocimiento en algunas industrias. En escenarios financieros similares, muchas instituciones crearán una base de datos de preguntas y respuestas sobre leyes y regulaciones financieras, y estos problemas pueden resolverse bien mediante bases de datos vectoriales.

7. En China, ¿las bases de datos vectoriales serán tan complejas como las bases de datos relacionales? ¿Y cómo planea Starlink Technology abrirse paso y establecer una ventaja de “primero en actuar”?

Liu Xi: Actualmente podemos ver que muchos fabricantes están lanzando sus propios productos de bases de datos vectoriales. A medida que la tecnología de bases de datos vectoriales madure gradualmente y los clientes se den cuenta gradualmente del valor de esto después de la práctica, creo que aparecerán más productos. Con tantos productos, ¿cómo puede avanzar la tecnología Xinghuan? Creo que hay algunos puntos principales.

En primer lugar, como se mencionó anteriormente, la base de datos de vectores de Xinghuan Technology se utilizó dentro de la empresa hace unos años y se lanzó oficialmente en mayo de este año. Es el primer producto de base de datos de vectores lanzado oficialmente en China. Creo que esto se ha establecido "ventaja de primer movimiento". Las bases de datos vectoriales implican conocimientos en múltiples campos, incluidos conocimientos transversales de IA y conocimientos de bases de datos, que deben acumularse y no pueden empaquetarse simplemente en una biblioteca de búsqueda de código abierto. Xinghuan Technology ha acumulado muchos años de tecnología de bases de datos y tecnología de inteligencia artificial, así como práctica en tecnología de bases de datos vectoriales, por lo que tenemos absoluta confianza en términos de disponibilidad y estabilidad del producto. Recientemente, también lanzamos la versión comunitaria de la base de datos vectorial, que tiene varias características, incluida la adquisición gratuita, la implementación rápida y la simplicidad de uso. Esto también tiene como objetivo reducir aún más el umbral y el costo para los usuarios al usar bases de datos vectoriales. Los usuarios pueden rápidamente y Utilice de forma rentable los vectores existentes basados en La base de datos explora el campo de modelos grandes y realiza innovaciones comerciales.

Además de sus ventajas en tecnología de bases de datos vectoriales, Xinghuan Technology también tiene sus propios grandes modelos verticales industriales de desarrollo propio, el gran modelo financiero "Wuya" y el gran modelo de campo de big data "Quest", con el objetivo de promover el análisis financiero y big data. análisis respectivamente para democratizar la informática y promover la popularización de la informática y la IA. Mediante la combinación de grandes modelos y bases de datos vectoriales, la retroalimentación mutua ayudará a mejorar aún más las ventajas de cada producto y la solución general.

Además, Starlink Technology también tiene bases de datos vectoriales distribuidas y gráficos de conocimiento de desarrollo propio. Al combinar bases de datos vectoriales distribuidas con bases de datos de gráficos distribuidos y gráficos de conocimiento, junto con herramientas de construcción de visualización de modelos grandes de un extremo a otro, proporciona extracción e integración de conocimientos. Las funciones de circuito cerrado, como el modelado de conocimiento, la generación y el almacenamiento de gráficos de conocimiento y las preguntas y respuestas de conocimiento basadas en modelos grandes, pueden crear servicios de aplicaciones para gráficos de conocimiento y sistemas comerciales del dominio empresarial, inspirando aplicaciones de IA cada vez más profundas en escenarios empresariales. .

Además de los aspectos anteriores que están fuertemente relacionados con la IA, una excelente plataforma también es inseparable de una base de datos sólida. Xinghuan Technology tiene una gran acumulación en el campo de big data. Tenemos nuestro big data multimodelo integral. También está disponible una plataforma básica que puede manejar todos los tipos de datos principales de la industria, como relacionales, gráficos, series temporales y espaciotemporales, así como plataformas de nube de datos basadas en tecnología de contenedorización, así como varias herramientas de desarrollo de datos enriquecidos, etc. ., cubriendo todo el ciclo de vida de los datos de los productos para satisfacer las necesidades de datos de los usuarios Diversas necesidades para la construcción de plataformas.

Como se puede ver en lo anterior, en este mercado de campo, desde el punto de la base de datos vectorial hasta el diseño que incluye la base de datos de gráficos, el gráfico de conocimiento, el modelo grande de dominio, las herramientas de desarrollo de modelos grandes, etc., se ha formado el sistema de productos de Xinghuan Technology. Una tienda de fideos a gran escala es muy competitiva en el mercado, estamos muy seguros de ello.

8. Para escenarios de búsqueda, actualmente se utilizan ampliamente bases de datos como Elasticsearch. En primer lugar, ¿pueden las bases de datos vectoriales cumplir con los escenarios de búsqueda de texto en los que Elasticsearch y otras especialidades son buenos? Además, ¿cuáles son las deficiencias de las bases de datos de búsqueda tradicionales en comparación con las bases de datos vectoriales?

Liu Xi: Para escenarios de búsqueda de texto, la búsqueda vectorial y la búsqueda de texto completo son buenas para resolver diferentes problemas. La búsqueda de texto completo es más adecuada para la concordancia de palabras clave, mientras que la búsqueda vectorial puede encontrar contenido que es literalmente diferente pero semánticamente similar. También existen grandes diferencias en el almacenamiento y el cálculo entre los datos vectoriales y los datos de texto completo. Es difícil para las bases de datos de búsqueda tradicionales como Elasticsearch soportar eficientemente estos dos escenarios al mismo tiempo. Si está interesado, puede consultar el público. conjuntos de datos en Internet como Ann Benchmark y Elasticsearch. El rendimiento está muy por detrás de las bases de datos vectoriales profesionales y, si no recuerdo mal, su tipo de índice solo admite HNSW y no admite índices vectoriales de varios tipos. Como todos sabemos, cada El tipo de índice tiene su propio escenario de uso y HNSW se utiliza en grandes volúmenes de datos. El rendimiento es estable, pero la sobrecarga de recursos es muy grande.

Según nuestra experiencia práctica, en escenarios de búsqueda de texto, el uso de la recuperación conjunta de vectores y texto completo puede lograr una mayor precisión que el uso de vectores o texto completo solo, como se incluye en la próxima base de datos de vectores Hippo1.1, versión de Starring Technology. , llamada búsqueda híbrida, funciona muy bien cuando se aplica a proyectos internos.

9. ¿A qué tendencias tecnológicas crees que merece la pena prestar atención en el futuro de las bases de datos vectoriales?

Liu Xi: En cuanto a las tendencias tecnológicas, creo que hay varios puntos clave que deben destacarse. En primer lugar, en el campo de las bases de datos vectoriales, para lograr la aplicación óptima de la tecnología de aprendizaje profundo, es necesario tener capacidades en inteligencia artificial, bases de datos y seguridad. Las bases de datos suelen almacenar algunos datos confidenciales, por lo que cómo garantizar la seguridad de estos datos se convertirá en una cuestión extremadamente importante. Especialmente a medida que la tecnología de aprendizaje profundo se introduce gradualmente en campos como las bases de datos vectoriales, la demanda de capacidades de inteligencia artificial y seguridad de los datos será cada vez más urgente.

En segundo lugar, creo que en el corto plazo, el rápido aumento de la tecnología de modelos grandes intensificará aún más la intensidad de la competencia en el mercado. El auge de los modelos grandes ha atraído una gran atención a campos como las bases de datos vectoriales y también ha generado más productos y soluciones, lo que ha provocado que el mercado madure rápidamente. Esto es bueno tanto para los profesionales como para los usuarios de la tecnología, porque la competencia ofrece más opciones y soluciones más rentables.

Creo que en esta era de big data, el campo de las bases de datos vectoriales tiene un enorme potencial. Al mismo tiempo, me gustaría aprovechar esta oportunidad para hacer un pequeño anuncio para estudiantes interesados en este campo, pueden comunicarse con nosotros en línea o enviar su currículum. Nuestro equipo seguirá trabajando duro, seguirá acumulando y compartiendo la experiencia de los grandes modelos de la industria y progresará junto con todos.

Lea el texto original: https://www.modb.pro/db/1701130013479358464

Para obtener más información, puede visitar Motianlun Technology Community , que proporciona servicios integrales integrales relacionados con el aprendizaje y el crecimiento de las personas de datos, creando una colección de información de noticias, preguntas y respuestas en línea, transmisiones en vivo de eventos, cursos en línea, lectura de documentos y descargas de recursos. , intercambio de conocimientos y en línea Una plataforma unificada que integra operación y mantenimiento continúa promoviendo la difusión del conocimiento y la innovación tecnológica en el campo de los datos.

Entrevista exclusiva de Mo Tianlun con Liu Xi de Xinghuan Technology: El pensamiento frío detrás de la "fiebre vectorial", ¿cómo crea Hippo una ventaja de "primer movimiento"?

Supongo que te gusta