Los modelos fundamentales definen una nueva era de visión: descripción general y perspectiva

En esta revisión, proporcionamos una revisión exhaustiva de los modelos de visión básicos, incluidos los diseños de arquitectura típicos que combinan diferentes modalidades (visual, texto, audio, etc.), objetivos de entrenamiento (comparación, generación), conjuntos de datos de entrenamiento previo, mecanismos de ajuste, y el modo de solicitud común.

Ingrese al grupo de PNL —> únase al grupo de intercambio de PNL

05dde1ced81954c57cf0fdf475d68a56.jpeg

论文:Modelos fundamentales que definen una nueva era en la visión: una encuesta y una perspectiva

Dirección: https://arxiv.org/pdf/2307.13721.pdf

项目:https://https://github.com/awaisrauf/Awesome-CV-Foundational-Modelsesome-CV-Foundational-Models

El sistema visual para observar y razonar sobre las propiedades compositivas de las escenas visuales es fundamental para comprender nuestro mundo. Las complejas relaciones entre los objetos y sus posiciones, las ambigüedades y los cambios en los entornos del mundo real se pueden describir mejor en el lenguaje humano, que naturalmente se rige por las reglas gramaticales y otras modalidades, como el audio y la profundidad.

043d84cama2789ba1597fd9bf7c8c4911.jpeg

Estos modelos aprenden a cerrar las brechas entre estos patrones y, combinados con datos de entrenamiento a gran escala, facilitan el razonamiento contextual, la generalización y las indicaciones en el momento de la prueba. Estos modelos se denominan modelos base.

9cd423077bfac46457917d15389d5ab6.jpeg

La salida de dichos modelos se puede modificar sin necesidad de volver a entrenar mediante señales proporcionadas por humanos, por ejemplo, proporcionando cuadros delimitadores para segmentar objetos específicos, haciendo preguntas sobre imágenes o escenas de video para participar en un diálogo interactivo, o mediante instrucciones de lenguaje para manipular el comportamiento. del robot

153872e43dbc1e16aecbd5b32d7555bc.jpeg

En esta encuesta, brindamos una revisión exhaustiva de tales modelos fundacionales emergentes, incluidos los diseños arquitectónicos típicos que combinan diferentes modalidades (visual, textual, de audio, etc.), objetivos de capacitación (comparativos, generativos), conjuntos de datos pre-entrenados, mecanismos de ajuste fino. , y modos comunes de incitación; textual, visual y heterogénea.

3a520ef486088c218050de0fdbda27b7.jpeg
6ca57f1a487ac9d7f34cba106f914dde.jpeg

Discutimos los desafíos abiertos y las direcciones de investigación para los modelos fundamentales de visión por computadora, incluidas las dificultades en la evaluación y la evaluación comparativa, las brechas en la comprensión del mundo real, las limitaciones en la comprensión contextual, los sesgos, las vulnerabilidades a los ataques adversarios y los problemas de interpretabilidad.

25041ed663e63d71dd144fffd7500d3f.jpeg

Revisamos los desarrollos recientes en el campo, cubriendo de manera sistemática y completa una amplia gama de aplicaciones de los modelos subyacentes.

215b590b708c5ca7894358fe01b04b37.jpeg 731c4441d45a41fbb3782f332178033e.jpeg 7481f0b023e2aad8fa82d8160ae572b2.jpeg 5db672b40d8ac7b53064bd691747adee.jpeg
f0b6b63348d4013d0231312e561dafaf.jpeg f4b214b23012fd8b23fa8f2cd9e5cf98.jpeg
d8c8820cea417c0776efc9fe3c9ad513.jpeg 2f36ab60edfd82d1aa46d86820b34917.jpeg a34ee003eda3d2b3c155b129f04af7b9.jpeg b07bc196dadcc4e50bb75c1cbdf26b58.jpeg f1e4321ad10a25494c5a037ae92c9e7b.jpeg
2c9c826397d1ecd74d381e5cdcf99025.jpeg

Ingrese al grupo de PNL —> únase al grupo de intercambio de PNL

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/132033577
Recomendado
Clasificación