ImageBind, modelo de código abierto MetaAI en 6 modalidades diferentes (imagen, texto, audio, profundidad, temperatura y datos IMU)

¡MetaAI, el joven que ha sido aplastado en el metaverso y la Web 3.0, ahora empuña la espada de código abierto en el campo de AIGC para matar al Cuarteto!

Solo en los últimos meses, MetaAI ha abierto muchos proyectos útiles en GitHub:

- Segmentar cualquier cosa (SAM), que puede segmentar automáticamente todos los elementos en una imagen o video, completar la segmentación automática con un clic y admite la transferencia de muestra cero a otras tareas de segmentación.

- DINOv2, sin ajuste fino, obtiene características visuales a través de la autosupervisión, promoviendo directamente el progreso de la tecnología de visión artificial.

- Dibujos animados, utilizando capacidades de IA para agregar rápidamente efectos de animación a las pinturas.

La lista sigue y sigue.

¡Hoy, Meta hizo otro movimiento y anunció oficialmente ImageBind de código abierto , que permite que el modelo se comunique a través de 6 modalidades diferentes (imagen, texto, audio, profundidad, temperatura y datos IMU)!

Aquí hay un video publicado por Zuckerberg en Facebook hace unos días, para que puedas sentir intuitivamente cuán poderoso es ImageBind:

GitHub: https://github.com/facebookresearch/ImageBind

Como dije antes, los modelos de IA se acercan más a las capacidades humanas con cada modalidad que admiten.

Podemos ver las calles bulliciosas, escuchar el silbato en el camino y sentir el calor del verano, todo lo cual proviene de las habilidades sensoriales innatas de los seres humanos sin excepción.

El oído, el olfato, el gusto, la vista y otras habilidades nos permiten interactuar mejor con el mundo.

Si queremos acercar las capacidades de la IA a los humanos, debemos darle más capacidades a la IA para que pueda percibir mejor el mundo.

En el pasado, para lograr la asociación de búsqueda entre varias modalidades, era necesario mantener y entrenar varias copias de datos al mismo tiempo.

Ahora, con ImageBind, las imágenes se pueden generar directamente desde el audio. Por ejemplo, si escucha el sonido de las olas del océano para la IA, puede generar directamente imágenes del mar, lo que ahorrará muchos costos de capacitación.

Desde el punto de vista de la interfaz, la IA es como los seres humanos, que pueden comenzar a crear la imagen en función del sonido.

Además, ImageBind también tiene percepción 3D integrada y sensores IMU, que se pueden usar para medir la aceleración y el movimiento de rotación, lo que permite que la IA sienta los cambios en nuestro mundo físico.

Además, ImageBind también proporciona un nuevo tipo de método de recuperación de memoria enriquecida, que permite que la IA utilice directamente los datos combinados de texto, audio e imágenes para buscar directamente imágenes, videos, archivos de audio o mensajes de texto.

De esta manera, podemos permitir que las aplicaciones AIGC anteriores generen contenido de mayor calidad.

Por ejemplo, si se aplica al campo de la edición de video, la IA puede buscar directamente clips de video con un mayor grado de coincidencia en función del sonido, la imagen y el texto que proporcionamos, ¡realizando la verdadera función de edición de video con un solo clic!

En los sistemas tradicionales de IA, cada modalidad tiene una incrustación específica (un vector numérico de datos y su relación en el aprendizaje automático).

Esto dificulta la interacción y la recuperación entre diferentes modalidades, y no podemos recuperar con precisión imágenes y videos relacionados directamente en función del audio.

Sin embargo, ImageBind puede hacerlo. Permite la recuperación intermodal al alinear las incrustaciones de las seis modalidades en un espacio común.

Como modelo multimodal, ImageBind integra el SAM y DINOv2 que mencioné anteriormente, por lo que sus propias capacidades se han mejorado por completo.

Unir varias modalidades para construir un puente para una comunicación fluida es la función central implementada por ImageBind.

La herramienta Make-A-Scene desarrollada previamente por MetaAI puede generar imágenes a partir de texto.

Ahora, con la ayuda de ImageBind, puede generar imágenes directamente a través del sonido. Esto permite que la IA tenga una comprensión más profunda de las emociones humanas, comprenda sus emociones y luego brinde mejores servicios para los humanos.

Al mismo tiempo, en función de las capacidades de comunicación intermodal de ImageBind, la mejora de la capacidad de cada modalidad también impulsará el progreso de otra modalidad y luego logrará un efecto similar a una bola de nieve.

Para verificar esto, el equipo técnico de MetaAI también realizó una prueba comparativa y encontró que ImageBind es significativamente mejor que otros modelos profesionales en términos de audio y profundidad, lo que se deriva de la experiencia absorbida y resumida por AI de otras modalidades.

Actualmente, es predecible que la edición de video sea más fácil y simple en el futuro.

Cuando levanta su teléfono y graba un video de una puesta de sol junto al mar, AI puede generar automáticamente redacción y subtítulos basados ​​​​en el contenido del video, y combinarlo con la música de fondo adecuada.

Incluso es posible que AI genere directamente un MV de video para el cantante a través de una canción.

En los juegos de realidad virtual y realidad aumentada, los usuarios también pueden interactuar con los personajes del juego a través de varias voces, gestos y movimientos de la cabeza para mejorar la interactividad y la inmersión en el juego.

En el campo de la medicina, los médicos pueden recopilar información sobre la condición del paciente a través de varios métodos, como voz e imágenes, y luego procesarla y analizarla mediante el aprendizaje automático y otras tecnologías, para obtener resultados de diagnóstico y planes de tratamiento más precisos.

Aunque ImageBind actualmente solo tiene 6 modos, con la integración de más funciones sensoriales, como el olfato y el tacto, las capacidades del modelo de IA serán más fuertes y la industria AIGC también marcará el comienzo de cambios trascendentales.

El surgimiento de este proyecto traerá la tecnología AIGC a una gama más amplia de escenarios de aplicación, y pronto llegará una gran ola de proyectos de IA más interesantes y prácticos.

Supongo que te gusta

Origin blog.csdn.net/qq_41771998/article/details/130618624
Recomendado
Clasificación