Traducción en papel Segment Anything, modelo SAM, papel SAM, traducción en papel SAM; una nueva tarea, modelo y conjunto de datos para la segmentación de imágenes; conjunto de datos SA-1B

【Traducción en papel】- Segmento Cualquier cosa / Modelo / Papel SAM

Enlace de papel:

Enlace de código: https://github.com/facebookresearch/segment-anything

Traducción en papel:

Resumen

Este documento presenta el proyecto Segment Anything (SA): una nueva tarea, modelo y conjunto de datos para la segmentación de imágenes. Usando nuestro modelo eficiente en un ciclo de recopilación de datos, construimos el conjunto de datos de segmentación más grande hasta la fecha (hasta ahora), con más de mil millones de máscaras en 11 millones de imágenes con licencia y que respetan la privacidad. El modelo está diseñado y capacitado para que se pueda solicitar, por lo que puede transferir sin disparos a nuevas tareas y distribuciones de imágenes. Evaluamos sus capacidades en una serie de tareas y descubrimos que su rendimiento de disparo cero era impresionante, a menudo compitiendo con, o incluso superando, los resultados anteriores totalmente supervisados. Publicaremos el Segment Anything Model (SAM) y el conjunto de datos correspondiente (SA-1B) en https://segment-anything.com" que contiene máscaras 1B y 11 millones de imágenes para facilitar el conocimiento de los fundamentos de la investigación del modelo de visión
1-18.PNG

1. Introducción

Los grandes modelos de lenguaje entrenados previamente en conjuntos de datos a escala web están revolucionando la PNL con una poderosa generalización de disparos cero y pocos disparos [10]. Estos "modelos básicos" [8] pueden generalizarse más allá de las tareas y distribuciones de datos vistas durante el entrenamiento. Esta capacidad a menudo se logra a través de la ingeniería de sugerencias, donde el texto hecho a mano se usa para incitar a los modelos de lenguaje a generar respuestas textuales válidas para la tarea en cuestión. Cuando se escalan y entrenan con corpus de texto enriquecido de la web, el rendimiento de cero y pocos disparos de estos modelos se compara sorprendentemente bien (y en algunos casos incluso coincide) con modelos ajustados [10, 21]. Las tendencias empíricas muestran que este comportamiento mejora al aumentar el tamaño del modelo, el tamaño del conjunto de datos y el cálculo total del entrenamiento [56, 10, 21, 51].

También se han explorado modelos fundamentales, aunque en menor medida, en el campo de la visión artificial. Quizás las ilustraciones más destacadas alinean pares de texto e imágenes de toda la web. Por ejemplo, CLIP [82] y ALIGN [55] usan aprendizaje contrastivo para entrenar codificadores de texto e imagen que alinean dos modalidades. Después del entrenamiento, las señales de texto diseñadas pueden generalizarse a nuevos conceptos visuales y distribuciones de datos con zero-shot. Dichos codificadores también se pueden combinar de manera eficiente con otros módulos para lograr tareas posteriores como la generación de imágenes (por ejemplo, DALL·E [83]). Si bien se ha avanzado mucho en los codificadores de visión y lenguaje, la visión por computadora abarca una amplia gama de problemas más allá de eso, muchos de los cuales no existen abundantes datos de entrenamiento.

El objetivo de este artículo es construir un modelo básico para la segmentación de imágenes. Es decir, este documento intenta desarrollar un modelo que se puede solicitar y entrenarlo previamente en una amplia gama de conjuntos de datos mediante una tarea que logra una fuerte generalización. Usando este modelo, nuestro objetivo es resolver una serie de problemas de segmentación descendente en nuevas distribuciones de datos utilizando ingeniería rápida.

El éxito de este programa depende de tres componentes: tareas, modelos y datos. Para desarrollarlas, este artículo aborda las siguientes preguntas sobre la segmentación de imágenes.

1. ¿Qué tareas lograrán una generalización de tiro cero?

2. ¿Cuál es la arquitectura del modelo correspondiente?

3. ¿Qué datos pueden respaldar esta tarea y modelo?

Estos problemas son complejos y requieren una solución integral. En primer lugar, definimos una tarea de segmentación susceptible de sugerencias, lo suficientemente general como para proporcionar un poderoso objetivo de preentrenamiento y habilitar una amplia gama de aplicaciones posteriores. Esta tarea requiere un modelo que admita sugerencias flexibles y pueda generar máscaras de segmentación en tiempo real cuando se le solicite que permita el uso interactivo. Para entrenar nuestro modelo, necesitamos una fuente de datos diversa y a gran escala. Desafortunadamente, no existen fuentes de datos segmentados a escala web; para resolver este problema, construimos un "motor de datos", es decir, usamos modelos eficientes para ayudar a recopilar datos y usamos datos recién recopilados para mejorar los modelos entre iteraciones. Cada componente interrelacionado se presenta a continuación, seguido del conjunto de datos creado y los experimentos que demuestran la eficacia del método.

Tarea 2). En NLP y, más recientemente, en visión por computadora, los modelos fundamentales son un desarrollo prometedor que permite el aprendizaje de disparos cero y pocos disparos en nuevos conjuntos de datos y tareas mediante el uso de técnicas de "sugerencia". Inspirándose en esta línea de trabajo, este documento propone la tarea de segmentación solicitable, donde el objetivo es devolver una máscara de segmentación válida ante cualquier solicitud de segmentación (consulte la Figura 1a). Los avisos simplemente especifican lo que se va a segmentar en la imagen, por ejemplo, los avisos pueden incluir información espacial o textual que identifique objetos. El requisito de una máscara de salida válida significa que incluso si la señal es ambigua y puede apuntar a varios objetos (por ejemplo, un punto en una camisa puede indicar la camisa o la persona que la lleva puesta), la salida debe ser una máscara plausible durante al menos uno de esos objetos código. Utilizamos la tarea de segmentación de sugerencias como un objetivo de preentrenamiento y resolvemos las tareas generales de segmentación posteriores a través de la ingeniería de sugerencias.

modelo (§3). La tarea de segmentación indirecta y los objetivos del uso en el mundo real imponen restricciones en la arquitectura del modelo. En particular, el modelo debe admitir sugerencias flexibles, requiere el cálculo amortizado en tiempo real de máscaras para permitir el uso interactivo y debe ser consciente de la ambigüedad. Un diseño simple satisface las tres restricciones: un codificador de imágenes robusto calcula las incrustaciones de imágenes, un codificador de sugerencias incrusta sugerencias y luego combina las dos fuentes de información en un decodificador de máscara liviano que predice las máscaras de segmentación. Llamamos a este modelo el modelo Segment Anything, o SAM para abreviar (consulte la Figura 1b). Al separar el SAM en un codificador de imágenes y un codificador rápido/descodificador de máscara, la misma imagen incrustada se puede reutilizar (y compartir su costo) en diferentes mensajes. Dada la incrustación de una imagen, el codificador de sugerencias y el decodificador de máscara tardan 50 ms en predecir una máscara a partir de una sugerencia en un navegador web. Se enfoca en señales de puntos, cuadros y máscaras, y también presenta resultados preliminares con señales de texto de forma libre. Para hacer que SAM sea ambiguo, está diseñado para predecir múltiples máscaras para una sola señal, lo que permite que SAM maneje las ambigüedades de forma natural, como los ejemplos de camisa y persona.

02-18.PNG

Motor de datos (§4). Para lograr una generalización sólida a nuevas distribuciones de datos, es necesario entrenar SAM en un conjunto de máscaras grande y diverso que cualquier conjunto de datos dividido existente. Si bien el enfoque típico para los modelos base es obtener los datos en línea [82], las máscaras en sí mismas no son ricas, por lo que necesitamos otra estrategia. Nuestra solución es construir un "motor de datos", es decir, desarrollamos conjuntamente nuestros modelos con anotaciones del conjunto de datos del modelo en el ciclo (consulte la Figura 1c). Nuestro motor de datos tiene 3 etapas: manual asistido, semiautomático y totalmente automático. En la primera etapa, SAM ayuda a los anotadores a anotar máscaras, de forma similar a la configuración de segmentación interactiva clásica. En la segunda etapa, SAM puede generar automáticamente máscaras para un subconjunto de objetos indicando sus posibles ubicaciones de objetos, y el anotador se enfoca en anotar los objetos restantes, lo que ayuda a aumentar la diversidad de máscaras. En la etapa final, se solicita al SAM una cuadrícula regular de puntos de primer plano, lo que produce un promedio de 100 máscaras de alta calidad por imagen.

03-18.PNG

Conjuntos de datos (§5). El conjunto de datos final SA-1B incluye más de 1B de máscaras de 11 millones de imágenes autorizadas y que preservan la privacidad (consulte la Figura 2). Las máscaras para SA-1B recopiladas de forma totalmente automática utilizando la etapa final del motor de datos son 400 veces más que cualquier conjunto de datos de segmentación existente [66, 44, 117, 60] y han sido ampliamente validadas por su alta calidad y diversidad. Además de ser útil para capacitar a los SAM para que sean robustos y generales, esperamos que SA-1B sea un recurso valioso para la investigación destinada a construir nuevos modelos fundamentales.

IA responsable (§6). Se investigan e informan posibles problemas de equidad y sesgos al usar SA-1B y SAM. Las imágenes en SA-1B cubren un conjunto de países geográfica y económicamente diversos, y descubrimos que SAM se desempeñó de manera similar en todas las poblaciones. En general, esperamos que esto haga que nuestro trabajo sea más justo para los casos de uso del mundo real. Proporcionamos tarjetas modelo y tarjetas de conjuntos de datos en el apéndice.

Experimento (§7). Realizamos una extensa evaluación de SAM. Primero, utilizando un conjunto diverso de 23 conjuntos de datos de segmentación, SAM produce máscaras de alta calidad a partir de puntos de primer plano individuales, generalmente solo ligeramente por debajo de la realidad del terreno anotada manualmente. Mediante el uso del protocolo de transferencia de disparo cero diseñado rápidamente, logramos resultados cuantitativos y cualitativos consistentemente sólidos para una variedad de tareas posteriores, incluida la detección de bordes, la generación de propuestas de objetos, la segmentación de instancias y una exploración inicial de predicción de texto a máscara. Estos resultados demuestran que SAM se puede usar de forma inmediata con ingeniería rápida para resolver una variedad de tareas que involucran distribuciones de objetos e imágenes más allá de los datos de entrenamiento de SAM. Sin embargo, como discutimos en §8, todavía hay espacio para mejorar.

Liberar. Con fines de investigación, publicamos el conjunto de datos SA-1B y hacemos que SAM esté disponible en https://segment-anything.com bajo una licencia abierta permisiva (Apache 2.0). También demostramos las capacidades de SAM a través de una demostración en línea.

2. Segmenta cualquier tarea de objeto

Inspirándose en la PNL, la siguiente tarea de predicción de tokens se usa para el entrenamiento previo del modelo base y para resolver varias tareas posteriores a través de la ingeniería de sugerencias [10]. Para establecer un modelo base para la segmentación, este documento tiene como objetivo definir una tarea con capacidades similares.

04-18.png

Tarea. Primero, traducimos la idea de sugerencias de NLP a segmentación, donde una sugerencia puede ser un conjunto de puntos de primer plano/fondo, un cuadro o máscara áspera, texto de forma libre o, en general, cualquier información que represente la imagen a ser segmentado Por lo tanto, una tarea de división solicitable consiste en devolver una máscara dividida válida ante cualquier solicitud. El requisito de una máscara "válida" simplemente significa que incluso si la señal es ambigua y puede apuntar a varios objetos (por ejemplo, recuerde el ejemplo de la camisa y la persona, vea la Figura 3), la salida debe ser de al menos uno de estos objetos Máscara razonable . Este requisito es similar a esperar que un modelo de lenguaje genere respuestas coherentes a señales ambiguas. Se eligió esta tarea porque conduce a un algoritmo de preentrenamiento natural y un método general para la transferencia de disparo cero a tareas de segmentación posteriores a través de sugerencias.

Pre-entrenamiento. La tarea de segmentación solicitable propone un algoritmo de preentrenamiento natural que simula una serie de indicaciones (p. ej., puntos, cuadros, máscaras) para cada muestra de entrenamiento y compara las predicciones de la máscara del modelo con la realidad del terreno. Este documento adopta este enfoque de la segmentación interactiva [109, 70], aunque a diferencia de la segmentación interactiva cuyo objetivo es predecir una máscara válida después de que el usuario haya ingresado suficiente, nuestro objetivo es predecir siempre una máscara válida para cualquier pista, incluso el aviso es vago. . Esto garantiza que los modelos previamente entrenados sean efectivos en casos de uso que involucran ambigüedad, incluidas las anotaciones automáticas requeridas por nuestro motor de datos §4. Notamos que realizar bien esta tarea es un desafío y requiere opciones especializadas de modelado y pérdida de entrenamiento, que discutimos en §3.

Migración de tiro cero. La tarea de preentrenamiento dota al modelo de la capacidad de responder adecuadamente a cualquier señal en el momento de la inferencia, por lo que las tareas posteriores pueden resolverse mediante la ingeniería de señales adecuadas. Por ejemplo, si tenemos un detector de cuadro delimitador para gatos, podemos resolver la segmentación de instancias de gatos proporcionando la salida del cuadro del detector como una pista para nuestro modelo. En general, se pueden utilizar como pistas una serie de tareas prácticas de segmentación. Además del etiquetado automático de conjuntos de datos, se exploran cinco tareas de ejemplo diferentes en los experimentos del §7.

tareas relacionadas. La segmentación es un campo amplio: hay segmentación interactiva [57,109], detección de bordes [3], superpixelación [85], generación de propuestas de objetos [2], segmentación de primer plano [94], segmentación semántica [90], segmentación de instancias [66], segmentación panorámica [59], etc. El objetivo de la tarea de segmentación de sugerencias es producir un modelo ampliamente funcional que se pueda adaptar a muchas (aunque no a todas) las tareas de segmentación existentes y nuevas a través de la ingeniería de sugerencias. Esta habilidad es una forma de generalización de tareas [26]. Tenga en cuenta que esto difiere del trabajo anterior sobre sistemas de división multitarea. En un sistema multitarea, un único modelo realiza un conjunto fijo de tareas, como la segmentación conjunta semántica, de instancias y panóptica [114, 19, 54], pero las tareas de entrenamiento y prueba son las mismas. Una distinción importante en nuestro trabajo es que un modelo entrenado para la segmentación de señales se puede usar como un componente en un sistema más grande para realizar tareas nuevas y diferentes en el momento de la inferencia, por ejemplo, para realizar la segmentación de instancias al combinar un modelo de segmentación de señales con uno existente combinado con detectores de objetos

conversar. Las sugerencias y las combinaciones son herramientas poderosas que permiten que un solo modelo se use de manera escalable, lo que podría llevar a cabo tareas desconocidas en el momento en que se diseñó el modelo. Este enfoque es similar a cómo se utilizan otros modelos básicos, como CLIP [82], el componente de alineación de texto e imagen del sistema de generación de imágenes DALL E [83]. Anticipamos que los diseños de sistemas componibles impulsados ​​por técnicas como la ingeniería rápida permitirán aplicaciones más amplias que los sistemas entrenados específicamente para un conjunto fijo de tareas. También es interesante comparar la segmentación de señales y la segmentación de interacción a través de una perspectiva de composición: mientras que el modelo de segmentación de interacción está diseñado para usuarios humanos, los modelos entrenados para la segmentación de señales también se pueden combinar en un sistema algorítmico más grande, como demostraremos.

3. Segmente cualquier modelo de objeto

A continuación, describimos el modelo arbitrario de segmentación (SAM) para una segmentación rápida. SAM tiene tres componentes, como se muestra en la Figura 4: codificador de imágenes, codificador de sugerencias flexibles y decodificador de máscara rápida. Los modelos de visión de transformadores [14, 33, 20, 62] se construyen con compensaciones específicas para el rendimiento en tiempo real (amortizado). Describimos estos componentes en un alto nivel aquí, vea §A para más detalles.

05-18.PNG

codificador de imagen Motivado por la escalabilidad y los poderosos métodos de pre-entrenamiento, este documento utiliza MAE [47] para pre-entrenar el Transformador Visual (ViT) [33] mínimamente adaptado para manejar entradas de alta resolución [62]. El codificador de imágenes se ejecuta una vez por imagen y se puede aplicar antes de sugerir el modelo.

Codificador de sugerencias. Considere dos conjuntos de señales: escasas (puntos, cuadros, texto) y densas (máscaras). Representamos puntos y cajas a través de codificaciones posicionales [95] y sumamos las incrustaciones aprendidas para cada tipo de señal y texto de forma libre utilizando un codificador de texto estándar de CLIP [82]. Las señales densas (es decir, máscaras) usan incrustaciones convolucionales y se suman con elementos de incrustación de imágenes.

decodificador de máscara Un decodificador de máscara mapea de manera eficiente incrustaciones de imágenes, incrustaciones de señales y tokens de salida a máscaras. Inspirado en [14,20], el diseño emplea una modificación del bloque decodificador de transformador [103] seguido de un encabezado de predicción de máscara dinámica. El bloque del decodificador modificado actualiza todas las incrustaciones usando autoatención de señales y atención cruzada en ambas direcciones (señales para incrustaciones de imágenes y viceversa). Después de ejecutar ambos bloques, aumentamos la muestra de las incrustaciones de imágenes, el MLP asigna las etiquetas de salida a un clasificador lineal dinámico y luego calcula la probabilidad de primer plano enmascarada para cada ubicación de imagen.

Resuelva la ambigüedad. Con una salida, el modelo promediará varias máscaras válidas si se le da un toque de ambigüedad. Para abordar esto, modificamos el modelo para predecir múltiples máscaras de salida para una sola señal (ver Figura 3). Descubrimos que 3 salidas de máscara son suficientes para la mayoría de los casos comunes (las máscaras anidadas suelen tener hasta 3 de profundidad: total, parcial y parcial). Durante el entrenamiento, solo retropropagamos la pérdida mínima [15, 45, 64] para la máscara. Para clasificar las máscaras, el modelo predice una puntuación de confianza (es decir, IoU estimado) para cada máscara.

eficiencia. El diseño general del modelo está impulsado en gran medida por la eficiencia. Dada una incrustación de imagen precalculada, el codificador rápido y el decodificador de máscara se ejecutan en un navegador web, en una CPU, y tardan unos 50 milisegundos. Este rendimiento en tiempo de ejecución permite que nuestro modelo interactúe con las indicaciones sin problemas y en tiempo real.

pérdida y entrenamiento. Supervisamos la predicción de la máscara con una combinación lineal de pérdida focal [65] y pérdida de dados [73] utilizada en [14]. La tarea de segmentación solicitable se entrena utilizando una combinación de claves geométricas (ver §7.5 para indicaciones textuales). Siguiendo [92, 37], se simula una configuración interactiva mediante el muestreo aleatorio de señales en cada máscara durante 11 rondas, lo que permite que SAM se integre sin problemas en nuestro motor de datos.

4. Dividir cualquier motor de datos

Dado que las máscaras de segmentación no abundan en Internet, creamos un motor de datos para recopilar nuestro conjunto de datos de máscara 11b SA-1B. Este motor de datos tiene tres etapas: (1) una etapa de etiquetado manual asistido por modelo, (2) una etapa semiautomática en la que se mezclan máscaras predichas automáticamente y etiquetado asistido por modelo, y (3) una etapa totalmente automática en la que, Nuestro modelo genera máscaras sin la entrada de anotadores. A continuación describimos cada uno en detalle.

Etapa asistida-manual. En la primera etapa, similar a la segmentación interactiva clásica, un equipo de anotadores profesionales etiqueta las máscaras haciendo clic en los puntos de objeto de primer plano/fondo utilizando una herramienta de segmentación interactiva basada en navegador con tecnología SAM. Las máscaras se pueden refinar con las herramientas "Pincel" y "Borrador" con precisión de píxeles. Nuestra anotación asistida por modelos se ejecuta en tiempo real directamente en el navegador (utilizando incrustaciones de imágenes precalculadas), lo que permite una experiencia verdaderamente interactiva. No imponemos restricciones semánticas sobre los objetos anotados, y los anotadores etiquetan libremente "cosas" y "cosas" [1]. Recomendamos que los anotadores marquen los objetos que pueden nombrar o describir, pero que no recopilen estos nombres o descripciones. Se pidió a los anotadores que etiquetaran los objetos por su prominencia y se les animó a pasar a la siguiente imagen cuando la anotación de la máscara superó los 30 s.

Al comienzo de esta fase, el SAM se entrena utilizando conjuntos de datos de segmentación públicos comunes. Después de una anotación de datos suficiente, el SAM se vuelve a entrenar utilizando solo las máscaras anotadas recientemente. A medida que se recopilan más máscaras, el codificador de imágenes se amplía de ViT-B a ViT-H y se desarrollan otros detalles arquitectónicos; volvemos a entrenar nuestro modelo 6 veces en total. A medida que el modelo mejora, el tiempo promedio de anotación por máscara disminuye de 34 segundos a 14 segundos. Observamos que 14 segundos es 6,5 veces más rápido que la anotación de máscara de COCO [66] y solo 2 veces más lento que el etiquetado de puntos extremos [76, 71]. Con la mejora de SAM, el promedio de máscaras por imagen aumenta de 20 máscaras a 44 máscaras. En general, recopilamos 4,3 millones de máscaras de 120 000 imágenes en esta etapa.

etapa semiautomática. En esta etapa, nuestro objetivo es aumentar la diversidad de máscaras para mejorar la capacidad de nuestro modelo para segmentar cualquier cosa. Para permitir que los anotadores se centren en objetos menos destacados, primero detectamos automáticamente máscaras seguras. Luego mostramos a los anotadores imágenes precargadas con estas máscaras y les pedimos que anotaran cualquier otro objeto sin anotar. Para detectar máscaras de confianza, entrenamos un detector de cuadro delimitador [84] en todas las máscaras de primera etapa usando la categoría genérica de "objeto". En esta etapa, recopilamos 5,9 millones de máscaras adicionales en imágenes de 180k (un total de 10,2 millones de máscaras). Como en la primera etapa, volvemos a entrenar periódicamente el modelo (5 veces) en los datos recién recopilados. El tiempo promedio de anotación por máscara vuelve a 34 segundos (excluyendo el enmascaramiento automático), ya que estos objetos son más desafiantes. El número promedio de máscaras por imagen se incrementó de 44 a 72 (incluidas las máscaras automáticas).

Etapa totalmente automática. En la etapa final, el etiquetado es totalmente automático. Esto es posible porque nuestro modelo tiene dos mejoras importantes. Primero, al comienzo de esta etapa, recolectamos suficientes máscaras para mejorar en gran medida el modelo, incluidas diferentes máscaras de la etapa anterior. En segundo lugar, en esta etapa hemos desarrollado un modelo consciente de la borrosidad que nos permite predecir máscaras efectivas en presencia de ambigüedad. Específicamente, insinuamos el modelo con una cuadrícula regular de puntos de 32 × 32 y predecimos para cada punto un conjunto de máscaras que probablemente correspondan a objetos válidos. En los modelos sensibles a la borrosidad, si un punto está ubicado en una determinada parte o subparte, nuestro modelo devuelve subpartes, partes y el objeto completo. El módulo de predicción de IoU del modelo se usa para seleccionar máscaras de confianza; además, solo identificamos y seleccionamos máscaras estables (si umbralizamos los mapas de probabilidad de 0:5−δ y 0:5+δ, obtenemos una máscara similar, la máscara se considera estable ). Finalmente, después de seleccionar las máscaras de confianza y estabilidad, se utiliza el algoritmo de supresión no máxima (NMS) para el filtrado de datos duplicados. Para mejorar aún más la calidad de las máscaras más pequeñas, también procesamos múltiples cultivos superpuestos de imágenes ampliadas. Ver §B para más detalles sobre esta fase. Aplicamos la generación de máscaras completamente automatizada a los 11 millones de imágenes en el conjunto de datos, lo que resultó en un total de 1100 millones de máscaras de alta calidad. A continuación, describimos y analizamos el conjunto de datos resultante SA-1B.

5. Conjunto de datos

El conjunto de datos SA-1B propuesto consta de 11 millones de imágenes diversas, de alta resolución, con licencia y que preservan la privacidad y 1100 millones de máscaras de segmentación de alta calidad recopiladas con un motor de datos. Compare SA-1B con conjuntos de datos existentes y analice la calidad y las propiedades de las máscaras. Estamos lanzando SA-1B para ayudar en el desarrollo futuro de modelos fundamentales para la visión artificial. Tomamos nota de que SA-1B se lanzará bajo un acuerdo de licencia favorable para ciertos usos de investigación y para proteger a los investigadores.

imagen. Licenciamos un nuevo conjunto de 11 millones de imágenes de un proveedor que trabaja directamente con los fotógrafos. Las imágenes son de alta resolución (promedio de 3300 × 4950 píxeles) y el tamaño de los datos resultantes puede plantear desafíos de accesibilidad y almacenamiento. Por lo tanto, publicaremos la imagen reducida con el lado más corto establecido en 1500 píxeles. Incluso después de la reducción de resolución, la resolución de nuestras imágenes es significativamente mayor que la de muchos conjuntos de datos de visión existentes (p. ej., las imágenes COCO [66] tienen ~480 × 640 píxeles). Tenga en cuenta que la mayoría de los modelos actuales funcionan con entradas de resolución mucho más baja. En las fotos publicadas, los rostros y las placas de los autos están borrosos.

mascarilla. Nuestro motor de datos produjo 1100 millones de máscaras, el 99,1 % de las cuales se generaron de forma totalmente automática. Por lo tanto, la calidad de las máscaras automáticas es crítica. Los comparamos directamente con anotaciones profesionales e investigamos cómo se comparan varias propiedades de enmascaramiento con conjuntos de datos de segmentación destacados. Nuestra conclusión principal (como se demuestra en el análisis a continuación y los experimentos en §7) es que nuestras máscaras automáticas son de alta calidad y efectivas para entrenar modelos. Motivado por estos hallazgos, SA-1B solo incluye máscaras generadas automáticamente.

La calidad de la máscara. Para estimar la calidad de la máscara, muestreamos aleatoriamente 500 imágenes (~50k máscaras) y pedimos a nuestros anotadores profesionales que mejoraran la calidad de todas las máscaras en estas imágenes. Los anotadores hacen esto usando nuestros modelos y herramientas de edición de 'pincel' y 'borrador' con precisión de píxel. Este proceso produce pares de máscaras predichas automáticamente y corregidas profesionalmente. Calculamos los pagarés entre cada par y encontramos que el 94 % de las combinaciones tenían pagarés superiores al 90 % (el 97 % de las combinaciones tenían pagarés superiores al 75 %). A modo de comparación, el trabajo anterior estima el acuerdo entre anotadores en un 85-91 % IoU [44, 60]. Nuestros experimentos en §7 confirman mediante puntuación humana que la calidad de las máscaras es alta en relación con una variedad de conjuntos de datos, y entrenar nuestro modelo en máscaras automáticas es casi tan bueno como usar todas las máscaras producidas por el motor de datos.
06-18.PNG

Propiedades de la máscara. En la Fig. 5, trazamos la distribución espacial de los centros de objetos en SA-1B y la comparamos con los conjuntos de datos de segmentación máxima existentes. El sesgo común de los fotógrafos existe en todos los conjuntos de datos. Observamos que SA-1B tiene una mayor cobertura de las esquinas de la imagen en comparación con LVIS v1 [44] y ADE20K [117], los dos conjuntos de datos distribuidos más similares, mientras que COCO [66] y Open Images V5 [60] tienen un sesgo central más prominente . En la Figura 6 (leyenda), comparamos estos conjuntos de datos por tamaño. SA-1B tiene 11 veces más imágenes y 400 veces más máscaras que la siguiente imagen abierta más grande. En promedio, cada imagen tiene 36 veces más máscaras que las imágenes abiertas. El conjunto de datos más cercano a este respecto, ADE20K, todavía tiene 3,5 veces menos máscaras por imagen. La Figura 6 (izquierda) traza la distribución de máscara-periferia. A continuación, observamos el tamaño de la máscara (la raíz cuadrada del área de la máscara dividida por el área de la imagen) en relación con la imagen de la Figura 6 (centro). Como era de esperar, dado que nuestro conjunto de datos tiene más máscaras por imagen, también tiende a incluir una mayor proporción de máscaras de tamaños relativos pequeños y medianos. Finalmente, para analizar la complejidad de la forma, observamos la irregularidad de la máscara (1 menos el área de la máscara dividida por el área del casco convexo de la máscara) en la Figura 6 (derecha). Dado que la complejidad de la forma está relacionada con el tamaño de la máscara, la distribución del tamaño de la máscara del conjunto de datos se controla realizando primero un muestreo estratificado de los tamaños de máscara agrupados. La distribución de relieve de la máscara es más o menos similar a la de otros conjuntos de datos.

07-18.PNG

6, análisis RAI

Lleve a cabo un análisis de IA responsable (RAI) del trabajo mediante la investigación de posibles problemas de imparcialidad y sesgos al usar SA-1B y SAM. Nos enfocamos en la distribución geográfica y de ingresos de SA-1B y la equidad de SAM en todos los atributos protegidos. También proporcionamos conjuntos de datos, anotaciones de datos y tarjetas modelo en §F.

Geografía y representación de ingresos. Inferimos que las imágenes de estos países se tomaron usando métodos estándar (ver §C). En la Figura 7, visualizamos la cantidad de imágenes por país en SA-1B (izquierda) y los 50 países con más imágenes (derecha). Notamos que los tres primeros países provienen de diferentes regiones del mundo. A continuación, en la Tabla 1, comparamos la representación geográfica y de ingresos de SA-1B, COCO [66] y Open Images [60]. SA-1B tiene una relación de imagen más alta en Europa, Asia y Oceanía y países de ingresos medios. Todos los conjuntos de datos están subrepresentados para África y los países de bajos ingresos. Observamos que en SA-1B, todas las regiones, incluida África, tienen al menos 28 millones de máscaras, que es 10 veces más que el número total de máscaras en cualquier conjunto de datos anterior. La cantidad promedio de máscaras por imagen (no se muestra) es bastante consistente entre regiones e ingresos (94–108 por imagen).

08-18.PNG

equidad en la división de la población. Los posibles problemas de equidad entre la presentación de género percibida, el grupo de edad percibido y el color de piel percibido se investigaron midiendo las diferencias en el desempeño de SAM entre grupos. Utilizamos el conjunto de datos de Anotación de persona más inclusiva (MIAP) [87] para la representación de género y la edad, y un conjunto de datos patentado para el color de la piel (ver §C). Nuestra evaluación simula una división interactiva utilizando un muestreo aleatorio de 1 y 3 puntos (ver §D). La Tabla 2 (arriba a la izquierda) muestra los resultados de la presentación de género percibida. Observamos que se muestra que las mujeres están subrepresentadas en los conjuntos de datos de detección y segmentación [115], pero observamos que SAM funciona de manera similar en todos los grupos. Repetimos el análisis de la edad percibida en la Tabla 2 (abajo a la izquierda), observando que aquellos percibidos como más jóvenes y mayores mostraron estar subrepresentados en conjuntos de datos a gran escala [110]. SAM se desempeñó mejor en aquellos considerados más antiguos (a pesar de los amplios intervalos de confianza). Finalmente, repetimos el análisis del color de piel percibido en la Tabla 2 (derecha), observando que en conjuntos de datos a gran escala, las personas con piel significativamente más clara estaban sobrerrepresentadas, mientras que aquellas con piel más oscura estaban subrepresentadas [110]. Dado que MIAP no incluye anotaciones del tono de piel percibido, utilizamos un conjunto de datos patentado que contiene anotaciones de los tipos de piel Fitzpatrick percibidos [36] en una escala de 1 (tono de piel más claro) a 6 (tono de piel más oscuro). Aunque los valores medios fueron ligeramente diferentes, no encontramos diferencias significativas entre los grupos. Creemos que nuestros hallazgos se derivan de la naturaleza de la tarea y reconocemos que se puede producir un sesgo cuando el SAM se utiliza como componente de un sistema más grande. Finalmente, en §C ampliamos nuestro análisis a la segmentación de la ropa, encontrando signos de sesgo en la presentación de género percibida.
09-18.PNG

7. Experimento de migración de muestra cero

En esta sección, presentamos el experimento de transferencia de tiro cero de SAM (Segment Anything Model). Consideramos 5 tareas, 4 de las cuales difieren significativamente de las tareas de segmentación solicitadas utilizadas para entrenar SAM. Estos experimentos evalúan SAM en conjuntos de datos y tareas que no se ven durante el entrenamiento (nuestro uso de "transferencia de disparo cero" sigue al de CLIP [82]). El conjunto de datos puede incluir distribuciones novedosas de imágenes, como imágenes submarinas o egocéntricas (Fig. 8), que, hasta donde sabemos, no aparecen en SA-1B.
10-18.PNG

Los experimentos comienzan probando el objetivo central de la segmentación por señales: generar máscaras eficientes a partir de cualquier señal. Este documento enfatiza el escenario desafiante de una señal de un solo punto en primer plano, ya que es más probable que sea ambigua que otras señales más específicas. Se presenta una serie de experimentos, que atraviesan la comprensión de imágenes de bajo, medio y alto nivel, y son aproximadamente paralelos al desarrollo histórico del campo. (2) segmentar todo, es decir, generación de propuestas de objetos, (3) segmentar objetos detectados, es decir, segmentación de instancias, y (4), como prueba de concepto, segmentar objetos a partir de texto de formato libre. Estas cuatro tareas son significativamente diferentes de las tareas de segmentación solicitadas entrenadas por SAM e implementadas a través de ingeniería de solicitud. Nuestro experimento termina con un estudio de ablación.

lograr. A menos que se especifique lo contrario: (1) SAM utiliza MAE [47] codificador de imágenes ViT-H [33] entrenado previamente, (2) SAM está entrenado en SA-1B, tenga en cuenta que este conjunto de datos solo incluye datos de nuestro motor de datos La máscara es generado automáticamente en la etapa final. Para todos los demás detalles del modelo y entrenamiento, como los hiperparámetros, consulte §A.

7.1 Evaluación de máscara efectiva de punto único de muestra cero

Tarea. Este artículo evalúa la segmentación de objetos desde un único punto de primer plano. Esta tarea es patológica porque un punto puede apuntar a múltiples objetos. Las máscaras de verdad en tierra en la mayoría de los conjuntos de datos no enumeran todas las máscaras posibles, lo que puede hacer que las métricas automáticas no sean confiables. Por lo tanto, este documento complementa la métrica mIoU estándar (es decir, el promedio de todos los IOU entre las máscaras predichas y verdaderas) con un estudio humano en el que los anotadores calificaron la calidad de la máscara de 1 (ningún significado) a 10 (píxel perfecto). Semilla. 1, Detalles adicionales sobre §E y §G.

Por defecto, muestreamos puntos desde el "centro" de la máscara de verdad de tierra (el máximo de la transformación de distancia dentro de la máscara), siguiendo el protocolo de evaluación estándar en Segmentación Interactiva [92]. Dado que SAM es capaz de predecir varias máscaras, de forma predeterminada solo evaluamos la máscara más segura del modelo. Las líneas de base son todos métodos de máscara única. Comparamos principalmente con RITM [92], un poderoso segmentador interactivo que funciona mejor en nuestros puntos de referencia en comparación con otras líneas de base sólidas [67, 18].

conjunto de datos Utilizamos un conjunto recién compilado de 23 conjuntos de datos con diferentes distribuciones de imágenes. La Figura 8 enumera estos conjuntos de datos y muestra un ejemplo de cada conjunto de datos (consulte la Tabla 7 del Apéndice para obtener más detalles). Utilizamos los 23 conjuntos de datos para la evaluación de mIoU. Para los estudios en humanos, usamos el subconjunto enumerado en la Figura 9b (debido a los requisitos de recursos de dichos estudios). Este subconjunto incluye dos conjuntos de datos en los que SAM tiene un rendimiento superior e inferior a RITM en métricas automáticas.

resultado. Primero, investigamos la evaluación automática utilizando mIoU en un conjunto completo de 23 conjuntos de datos. Comparamos los resultados de cada conjunto de datos en la Figura 9a con RITM. SAM logra resultados más altos en 16 de 23 conjuntos de datos por 47 IoU. El documento también presenta un resultado de "oráculo" comparando las 3 máscaras del SAM con la verdad del terreno y seleccionando la máscara más relevante en lugar de elegir la más confiable. Esto revela el impacto de la ambigüedad en la evaluación automática. En particular, SAM supera a RITM en todos los conjuntos de datos cuando Oracle realiza la resolución de ambigüedades.

Los resultados de los estudios en humanos se muestran en la Figura 9b. Las barras de error son intervalos de confianza del 95 % para la puntuación media de la máscara (todas las diferencias fueron significativas; consulte §E para obtener más detalles). Los anotadores calificaron consistentemente la calidad de la máscara de SAM significativamente más alta que el RITM de referencia más fuerte. La versión atenuada de SAM con una sola máscara de salida obtiene puntuaciones consistentemente más bajas, pero aún más altas que RITM. La calificación promedio de SAM está entre 7 y 9, lo que corresponde a las pautas de calificación cualitativas: "Una puntuación alta (7-9): los objetos son identificables, los errores son pequeños y raros (p. ...)." Estos resultados muestran que SAM ha aprendido a segmentar máscaras efectivas a partir de puntos únicos. Tenga en cuenta que para conjuntos de datos como DRAM e IBD, SAM es pobre en métricas automáticas, pero logra puntajes altos consistentemente en estudios humanos.

11-18.PNG

La Figura 9c muestra las otras líneas base SimpleClick [67] y FocalClick [18], que tienen un rendimiento de punto único más bajo que RITM y SAM. A medida que el número de puntos aumenta de 1 a 9, la brecha entre los métodos disminuye. Esto es de esperar a medida que la tarea se vuelve más fácil. Además, SAM no está optimizado para regímenes de IOU muy altos. Finalmente, en la Figura 9d, reemplazamos el muestreo de punto central predeterminado con un muestreo de punto aleatorio. Observamos una brecha cada vez mayor entre SAM y la línea de base, y SAM puede lograr resultados comparables con ambos métodos de muestreo.

7.2 Detección de borde de muestra cero

método. Evaluamos SAM en la tarea clásica de detección de bordes de bajo nivel utilizando BSDS500 [72, 3]. Usamos una versión simplificada de la tubería de generación automática de máscaras. El SAM recibe una cuadrícula regular de 16 × 16 de puntos de primer plano, lo que da como resultado 768 máscaras de predicción (3 para cada punto). El NMS elimina las máscaras redundantes. Luego, los mapas de borde se calculan utilizando el filtrado Sobel de mapas de probabilidad enmascarados sin umbral y el posprocesamiento ligero estándar, incluido NMS de borde (ver §D.2).
12-18.PNG

resultado. Visualizamos mapas de borde representativos en la Figura 10 (consulte la Figura 15 para obtener más información). Cualitativamente, aunque el SAM no fue entrenado para la detección de bordes, produce mapas de bordes razonables. En comparación con la realidad básica, SAM predice más bordes, incluidos los bordes plausibles no etiquetados en BSDS500. Este sesgo se refleja cuantitativamente en la Tabla 3: el alto recuerdo con una precisión del 50 % (R50) se produce a expensas de la precisión. SAM, naturalmente, va a la zaga de los métodos de última generación que aprenden el sesgo BSDS500, es decir, qué bordes suprimir. Sin embargo, en comparación con los métodos pioneros de aprendizaje profundo como HED [108] (también capacitado en BSDS500), SAM funciona bien y supera significativamente a los métodos de transferencia de disparo cero anteriores, aunque es cierto que está desactualizado.

13-18.PNG

7.3 Sugerencia de objetivo de muestra cero

método. A continuación, SAM se evalúa en la tarea de nivel medio de generación de propuestas de objetos [2, 102]. Esta tarea ha jugado un papel importante en la investigación de detección de objetos como un paso intermedio en sistemas pioneros como [102, 41, 84]. Para generar propuestas de objetos, ejecutamos una versión ligeramente modificada de la canalización de generación automática de máscaras y generamos las máscaras como propuestas (ver §D.3).

Calculamos la métrica promedio de recuperación (AR) estándar en LVIS v1 [44]. Nos enfocamos en LVIS porque su gran cantidad de categorías presenta una prueba desafiante. Esto se compara con una línea de base fuerte implementada como un detector ViTDet [62] (usando Mask R-CNN [48, 11] ViT-H en cascada). Notamos que esta "línea de base" corresponde al método "Detector disfrazado de generador de propuestas" (DMP) [16] demostrado para juegos AR, por lo que es una comparación realmente exigente.
14-18.PNG

resultado. En la Tabla 4, como era de esperar, vemos que las detecciones que utilizan ViTDet-H como propuestas de objetos (es decir, el método DMP [16] para juegos AR) funcionan mejor en general. Sin embargo, SAM funciona muy bien en varias métricas. En particular, supera a ViTDet-H en objetos medianos y grandes, así como en objetos raros y comunes. De hecho, SAM solo supera a ViTDet-H en objetos pequeños y frecuentes, donde ViTDet-H puede aprender fácilmente el sesgo de anotación específico de LVIS porque, a diferencia de SAM, está entrenado en LVIS. También se hace una comparación con una versión desambiguada de SAM ("single out"), que funciona significativamente peor que SAM en todas las métricas de AR.

7.4 Segmentación de instancias de muestra cero

método. Hablando de visión de alto nivel, usamos SAM como el módulo de segmentación del segmentador de instancias. La implementación es simple: ejecutamos un detector de objetos (ViTDet utilizado anteriormente) y solicitamos al SAM sus cuadros de salida. Esto ilustra cómo se pueden combinar los SAM en un sistema más grande.

15-18.PNG

resultado. Comparamos las máscaras predichas por SAM y ViTDet en COCO y LVIS en la Tabla 5. Al observar la métrica AP de máscara, observamos una brecha en ambos conjuntos de datos, SAM está bastante cerca, pero definitivamente va a la zaga de ViTDet. Al visualizar el resultado, observamos que las máscaras SAM son generalmente cualitativamente mejores que las de ViTDet, con límites más nítidos (ver §D.4, Figura 16). Para investigar esta observación, realizamos un estudio humano adicional en el que se pidió a los anotadores que calificaran las máscaras ViTDet y las máscaras SAM en una escala de calidad del 1 al 10 utilizada anteriormente. En la Fig. 11, observamos que SAM supera constantemente a ViTDet en estudios con humanos.

16-18.PNG

Suponiendo que en COCO, la brecha AP de la máscara es grande y la calidad real del terreno es relativamente baja (confirmado por estudios en humanos), ViTDet aprende el sesgo específico de las máscaras COCO. SAM es un método de muestra cero que no puede explotar estos sesgos (a menudo indeseables). El conjunto de datos LVIS tiene una realidad básica de mayor calidad, pero aún tiene propiedades específicas (p. ej., las máscaras no contienen agujeros, son polígonos estructuralmente simples) y una desviación de las máscaras de modalidad de las máscaras de modalidad. Nuevamente, SAM no está capacitado para aprender estos sesgos, mientras que ViTDet puede explotarlos.

7.5, Texto a máscara de tiro cero

método. Finalmente, considere una tarea de nivel superior: la segmentación de objetos a partir de texto de formato libre. Este experimento es una prueba de concepto de la capacidad de SAM para procesar señales de texto. Si bien usamos exactamente el mismo SAM en todos los experimentos anteriores, el procedimiento de entrenamiento para este SAM se modificó para que admitiera texto, pero de una manera que no requiriera nuevas anotaciones de texto. Para cada máscara recopilada manualmente con un área superior a 1002, se extrae una imagen CLIP incrustada. Luego, durante el entrenamiento, la imagen CLIP extraída se integra como la primera interacción del SAM. La observación clave aquí es que debido a que las incrustaciones de imágenes de CLIP están entrenadas para alinearse con sus incrustaciones de texto, podemos entrenar con incrustaciones de imágenes pero usar incrustaciones de texto para la inferencia. Es decir, en el momento de la inferencia, ejecutamos el texto a través del codificador de texto de CLIP y luego alimentamos las incrustaciones de texto resultantes como sugerencias para SAM (ver §D.5 para más detalles).
17-18.PNG

resultado. Mostramos los resultados cualitativos en la Figura 12. SAM puede segmentar objetos en función de señales de texto simples como "una rueda", así como frases como "rejilla de dientes de castor". Cuando el SAM no puede seleccionar el objeto correcto solo a partir de las señales de texto, un punto adicional generalmente corrige la predicción, similar a [31].

7.6 Investigación de la ablación

Realizamos varias ablaciones en el conjunto de 23 conjuntos de datos utilizando el protocolo de señal de punto central único. Recuerde que los puntos individuales pueden ser ambiguos y que esta ambigüedad puede no estar representada en la verdad fundamental, ya que cada punto contiene solo una máscara. Dado que SAM se ejecuta en un entorno de transferencia de muestra cero, puede haber un sesgo sistemático entre las máscaras de nivel superior de SAM y las máscaras producidas por las pautas de anotación de datos. Por lo tanto, también informamos la mejor máscara ("oráculo") en la realidad del terreno.

18-18.PNG

La Figura 13 (izquierda) traza el rendimiento de SAM cuando se entrena con los datos acumulados en la etapa del motor de datos. Observamos que mIoU aumenta en cada etapa. Cuando se entrena usando las tres etapas, la cantidad de máscaras automáticas supera con creces a las máscaras manuales y semiautomáticas. Para abordar esto, encontramos que el sobremuestreo de máscaras manuales y semiautomáticas por un factor de 10 durante el entrenamiento produce los mejores resultados. Esta configuración complica el entrenamiento. Por lo tanto, probamos una cuarta configuración, que solo usa máscaras generadas automáticamente. Cuando se utilizan estos datos, el rendimiento de SAM es solo ligeramente inferior (alrededor de 0,5 mIoU) que cuando se utilizan todos los datos. Por lo tanto, de forma predeterminada, solo usamos máscaras generadas automáticamente para simplificar la configuración del entrenamiento.

En la Figura 13 (centro), observamos el efecto del tamaño de los datos. El SA-1B completo contiene 11 millones de imágenes, que muestreamos uniformemente a 1M y 0,1M para la ablación. En 0,1 millones de imágenes, observamos una gran caída en mIoU en todas las configuraciones. Sin embargo, con 1 millón de imágenes, aproximadamente el 10 % de todo el conjunto de datos, observamos resultados comparables a los que utilizan todo el conjunto de datos. Este mecanismo de datos todavía incluye alrededor de 100 millones de máscaras, lo que puede ser una configuración práctica para muchos casos de uso.

Finalmente, la Fig. 13 (derecha) muestra los resultados de los codificadores de imágenes ViT-B, ViT-L y ViT-H. ViT-H muestra una mejora significativa sobre ViT-B, pero solo una ganancia marginal sobre ViT-L. El escalado adicional del codificador de imágenes no parece ser fructífero en este momento.

8. Discusión

modelo base Los modelos preentrenados se han adaptado a tareas posteriores desde los primeros días del aprendizaje automático [99]. En los últimos años, con el creciente énfasis en la escala, este paradigma se ha vuelto cada vez más importante, y estos modelos han sido recientemente (re)llamados "modelos base": es decir, "modelos entrenados en datos a gran escala y adaptados a una amplia gama de las tareas posteriores” [8]. El trabajo en este documento está bien relacionado con esta definición, pero señala que el modelo subyacente para la segmentación de imágenes tiene un alcance inherentemente limitado, ya que representa un subconjunto importante pero fraccional de la visión artificial. Un aspecto del enfoque también se contrasta con [8], que enfatiza el papel del aprendizaje autosupervisado en el modelo subyacente. Aunque el modelo se inicializa con técnicas autosupervisadas (MAE [47]), la gran mayoría de su potencia proviene del entrenamiento supervisado a gran escala. En los casos en los que un motor de datos puede ampliar las anotaciones disponibles, como en nuestro caso, el entrenamiento supervisado proporciona una solución eficiente.

Combinación. Los modelos preentrenados pueden proporcionar nuevas capacidades incluso más allá de lo que se imaginó durante el entrenamiento. Un ejemplo destacado es cómo CLIP [82] se puede utilizar como componente en un sistema más grande, como DALL·E [83]. Nuestro objetivo es implementar esta combinación directamente con SAM. Este documento tiene como objetivo lograr esto solicitando a los SAM que predigan máscaras efectivas para una amplia gama de señales de segmentación. El efecto es crear una interfaz confiable entre SAM y otros componentes. Por ejemplo, MCC [106] puede usar fácilmente SAM para segmentar objetos de interés y lograr una fuerte generalización a objetos invisibles para la reconstrucción 3D a partir de una sola imagen RGB-D. En otro ejemplo, un SAM puede ser activado por la mirada detectada por un dispositivo portátil, lo que permite nuevas aplicaciones. Debido a la capacidad de los SAM para generalizarse a nuevos dominios, como imágenes egocéntricas, estos sistemas pueden funcionar sin capacitación adicional.

limitación. Si bien SAM se desempeñó bien en general, no fue perfecto. Puede pasar por alto estructuras finas, a veces da la ilusión de pequeños componentes desconectados, y no produce límites nítidos como los métodos computacionalmente intensivos de "acercamiento" como [18]. En general, esperamos que los métodos de segmentación interactivos dedicados superen a los SAM, como [67], cuando se proporcionan muchos puntos. A diferencia de estos métodos, SAM está diseñado para ser general y usar amplitud en lugar de una segmentación interactiva alta de IoU. Además, SAM puede procesar sugerencias en tiempo real, pero el rendimiento general de SAM no es en tiempo real cuando se utilizan codificadores de imágenes grandes. Nuestros intentos en la tarea de texto a máscara son exploratorios y no del todo sólidos, aunque creemos que se puede mejorar con más esfuerzo. Si bien los SAM pueden realizar muchas tareas, no está claro cómo diseñar señales simples para la segmentación semántica y panorámica. Finalmente, existen herramientas específicas de dominio como [7], que esperamos funcionen mejor que SAM en sus respectivos dominios.

en conclusión. El proyecto Segment Anything intenta llevar la segmentación de imágenes a la era de los modelos base. Las principales contribuciones de este artículo son una nueva tarea (segmentación promptable), modelo (SAM) y conjunto de datos (SA-1B) que hacen posible este salto. Queda por ver si SAM ha alcanzado el estado de un modelo base, cómo se usa en la comunidad, pero en cualquier caso esperamos con ansias la perspectiva de este trabajo, el lanzamiento de más de 1B máscaras y nuestro modelo de segmentación rápida ayudará. allanar el camino a seguir el camino.

Enlace de cita de referencia:

Supongo que te gusta

Origin blog.csdn.net/leiduifan6944/article/details/130080159
Recomendado
Clasificación