Jiuzhang Yunji DataPilot: Un navegador de datos para grandes modelos navegando en el mar de vectores

El poder de cómputo, los algoritmos y los datos se conocen como los tres elementos principales de la IA. La IA generativa y los grandes modelos del fuego actual no son una excepción.

Con el florecimiento de los fabricantes de hardware y de la nube nacionales y extranjeros, el poder de cómputo de IA se ha convertido en el elemento más fácil de realizar; los algoritmos de IA también tienen métodos de ajuste y algoritmos clásicos relativamente maduros, y hay muchos software básicos de IA para brindar una garantía sólida.

La razón por la que el modelo grande es "grande" está más relacionada con los datos. Cuanto mayor sea la cantidad de datos y mayor sea la calidad de los datos, mejor será el efecto del modelo grande. Internet para PC, Internet móvil, Internet de las cosas, etc. han generado cantidades masivas de datos, y las formas multimodales, como texto, imágenes y videos, han aumentado aún más la complejidad de los datos. Cómo resolver de manera efectiva el almacenamiento, el cálculo y la circulación de datos, a fin de proporcionar una fuente de aprendizaje confiable para la evolución de modelos grandes, se ha convertido en una prioridad principal para el desarrollo de modelos grandes.

El 30 de junio de 2023, Jiuzhang Yunji DataCanvas, un proveedor de software básico de IA, celebró una nueva conferencia de lanzamiento de productos en Beijing. Mientras lanzaba AIFS, una plataforma de infraestructura para la construcción de aplicaciones de inteligencia artificial, también lanzó el primer "Vector Ocean" de datos del mundo. (Vector Ocean) y lanzó el navegador de datos DataPilot, una nueva generación de productos de herramientas de arquitectura de datos basada en modelos grandes que nadan en el "mar de vectores".

Jiuzhang Yunji DataCanvas Mapa de estrategia de productos

Mar vectorial , la forma definitiva de desarrollo de datos

La IA y los datos siempre han estado estrechamente relacionados. En el pasado, era más una salida unidireccional de datos a la IA, que generalmente se considera como la materia prima y los elementos básicos de la IA. Sin embargo, la aparición de modelos grandes permite que la IA potencie los datos de manera inversa.

¿Dónde está el futuro de los datos cuando las capacidades de IA avancen y logren "viajes de ida y vuelta" con datos? La respuesta dada por DataPilot es - "mar vectorial".

Vector, un término matemático, se refiere a una cantidad que tiene magnitud y dirección. En el espacio bidimensional, un vector generalmente consta de dos valores, que representan la magnitud en las direcciones horizontal y vertical. En el espacio tridimensional, un vector generalmente consta de tres valores, que representan la magnitud en tres direcciones.

En informática, un vector es una estructura de datos de uso común, también conocida como matriz o lista. Cada vector contiene una cantidad de elementos, y cada elemento tiene un índice que se puede usar para acceder o modificar su valor correspondiente.

En el aprendizaje automático y la ciencia de datos, un vector generalmente se representa como un conjunto de números que forman un espacio numérico multidimensional. Cada dimensión del vector representa una característica o atributo diferente del espacio, como el valor de color de los diferentes píxeles de la imagen, la frecuencia de cada palabra en el texto, etc. Al realizar operaciones matemáticas en vectores, se pueden implementar varios algoritmos de aprendizaje automático y técnicas de análisis de datos, como agrupación, clasificación, regresión, etc.

La propuesta de "Vector Sea" es la última forma de desarrollo de datos creativamente propuesta por Jiuzhang Yunji DataCanvas basada en años de investigación y práctica en el campo de las bases de datos, combinada con la dirección de desarrollo de datos vectoriales.

DataPilot , el navegador de datos para grandes modelos navegando en el mar de los vectores

Como puente entre el mar vectorial y el modelo grande, el DataPilot propuesto por Jiuzhang Yunji DataCanvas esta vez tiene la función de establecer vínculos y señalar la dirección para la aplicación de datos vectoriales en modelos grandes.

Como un nuevo paradigma de procesamiento de datos y una nueva generación de productos de herramientas de arquitectura de datos basados ​​en modelos grandes, DataPilot ayuda a los usuarios a darse cuenta de la inteligencia y la automatización del modelado de datos en todo el ciclo de vida.

Según Zhou Xiaoling, vicepresidente de Jiuzhang Yunji DataCanvas, las características de DataPilot incluyen arquitectura de datos de "mar vectorial" multimodo, integración automática de datos bajo demanda, generación de código, disposición de procesos y cálculo de análisis, así como adquisición y análisis de datos. y análisis basado en lenguaje natural Capacidades de modelado de aprendizaje automático. DataPilot puede reducir en gran medida el umbral técnico de integración de datos, gobernanza, modelado, cálculo, consulta, análisis y modelado de aprendizaje automático, reducir el costo del desarrollo empresarial basado en datos y acelerar el proceso de innovación digital.

Se basa precisamente en el concepto de "mar vectorial", DataPilot incluye la plataforma del centro de toma de decisiones en tiempo real DataCanvas RT, la base de datos de vectores multimodal DingoDB de código abierto y otro software de datos, para que los usuarios puedan tener en tiempo real, multi- datos modales que se necesitan con urgencia en el caso de la capacidad de avance de la tecnología de IA.

Entre ellos, DingoDB, como base de datos vectorial multimodal de código abierto, será un poderoso motor de la era del mar vectorial. Combina las características de los lagos de datos y las bases de datos vectoriales, y admite el almacenamiento de datos de cualquier tipo (valor clave, PDF, audio, video, etc.) y de cualquier tamaño. A través de DingoDB, los usuarios pueden construir un "mar vectorial" de datos exclusivo, ya sea que se trate de datos estructurados o no estructurados, solo un conjunto de SQL puede completar el análisis y el cálculo científico de datos multimodales.

Base de datos vectorial , el futuro ha llegado

Desde el año pasado, con la explosión de la IA generativa y los modelos grandes, la base de datos vectorial se ha estancado.

Como un sistema de base de datos dedicado a almacenar, indexar y consultar vectores incrustados, las bases de datos vectoriales permiten que los modelos grandes almacenen y lean bases de conocimiento de manera más eficiente y realicen Fine Tune (ajuste fino del modelo) a un costo menor. Al mismo tiempo, la base de datos vectorial también tiene funciones multimodales, que pueden ampliar en gran medida los límites de tiempo y espacio de los modelos grandes. Todos estos están destinados a hacer de la base de datos vectorial un buen compañero de datos para modelos grandes.

El mercado de bases de datos vectoriales es enorme y todavía está en la etapa 0-1. Desde el año pasado, muchos productos de bases de datos de vectores en el país y en el extranjero han obtenido una financiación considerable. Según el pronóstico de Northeast Securities, para 2030, se espera que el mercado mundial de bases de datos vectoriales alcance los 50.000 millones de dólares estadounidenses, y se espera que el mercado nacional de bases de datos vectoriales supere los 60.000 millones de yuanes.

"El almacenamiento, el cálculo y la circulación efectivos de datos todavía tienen un amplio espacio para el desarrollo. En el mundo real, hay muchos dominios de datos independientes entre industrias, empresas y profesiones. La gran cantidad de datos y la dificultad de penetrar los dominios de datos indican que el modelo grande general La dificultad de aterrizaje ", dijo Fang Lei, presidente de Jiuzhang Yunji DataCanvas.

La aparición de DataPilot con mar vectorial y la base de datos vectorial DingoDB nació para resolver los problemas de datos de nueva generación de modelos grandes. De cara al futuro, se espera que DataPilot deje una fuerte huella en el desarrollo de modelos de gran tamaño.

Acho que você gosta

Origin blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/131667530
Recomendado
Clasificación