En esta revisión, proporcionamos una revisión exhaustiva de los modelos de visión básicos, incluidos los diseños de arquitectura típicos que combinan diferentes modalidades (visual, texto, audio, etc.), objetivos de entrenamiento (comparación, generación), conjuntos de datos de entrenamiento previo, mecanismos de ajuste, y el modo de solicitud común.
Ingrese al grupo de PNL —> únase al grupo de intercambio de PNL
论文:Modelos fundamentales que definen una nueva era en la visión: una encuesta y una perspectiva
Dirección: https://arxiv.org/pdf/2307.13721.pdf
项目:https://https://github.com/awaisrauf/Awesome-CV-Foundational-Modelsesome-CV-Foundational-Models
El sistema visual para observar y razonar sobre las propiedades compositivas de las escenas visuales es fundamental para comprender nuestro mundo. Las complejas relaciones entre los objetos y sus posiciones, las ambigüedades y los cambios en los entornos del mundo real se pueden describir mejor en el lenguaje humano, que naturalmente se rige por las reglas gramaticales y otras modalidades, como el audio y la profundidad.
Estos modelos aprenden a cerrar las brechas entre estos patrones y, combinados con datos de entrenamiento a gran escala, facilitan el razonamiento contextual, la generalización y las indicaciones en el momento de la prueba. Estos modelos se denominan modelos base.
La salida de dichos modelos se puede modificar sin necesidad de volver a entrenar mediante señales proporcionadas por humanos, por ejemplo, proporcionando cuadros delimitadores para segmentar objetos específicos, haciendo preguntas sobre imágenes o escenas de video para participar en un diálogo interactivo, o mediante instrucciones de lenguaje para manipular el comportamiento. del robot
En esta encuesta, brindamos una revisión exhaustiva de tales modelos fundacionales emergentes, incluidos los diseños arquitectónicos típicos que combinan diferentes modalidades (visual, textual, de audio, etc.), objetivos de capacitación (comparativos, generativos), conjuntos de datos pre-entrenados, mecanismos de ajuste fino. , y modos comunes de incitación; textual, visual y heterogénea.
Discutimos los desafíos abiertos y las direcciones de investigación para los modelos fundamentales de visión por computadora, incluidas las dificultades en la evaluación y la evaluación comparativa, las brechas en la comprensión del mundo real, las limitaciones en la comprensión contextual, los sesgos, las vulnerabilidades a los ataques adversarios y los problemas de interpretabilidad.
Revisamos los desarrollos recientes en el campo, cubriendo de manera sistemática y completa una amplia gama de aplicaciones de los modelos subyacentes.
Ingrese al grupo de PNL —> únase al grupo de intercambio de PNL