Colección de artículos sobre segmentación semántica CVPR2023

La Conferencia Internacional sobre Visión por Computador y Reconocimiento de Patrones (CVPR) es una de las principales conferencias en el campo de la informática y una conferencia interdisciplinaria en procesamiento de imágenes, aprendizaje automático, inteligencia artificial y otros campos.

Cada año, la conferencia CVPR tendrá una gran cantidad de presentaciones de artículos y actividades de intercambio académico, cubriendo múltiples direcciones de investigación, incluido el procesamiento de imágenes, la visión por computadora, el reconocimiento de patrones, el aprendizaje automático, el aprendizaje profundo, la inteligencia artificial, etc. Es el más influyente y influyente en este campo Uno de los congresos académicos representativos.

AMiner utiliza tecnología de IA para clasificar y ordenar los documentos de la conferencia incluidos en CVPR2023. Hoy, compartiremos 72 documentos sobre el tema de la segmentación semántica. Mostraremos los diez documentos más populares aquí. ¡Bienvenido a descargar y recopilar!

1. Segmentación semántica de vocabulario abierto con página de detalles del artículo CLIP adaptado a máscara
Autores: Feng Liang, Bichen Wu, Xiaoliang Dai, Kunpeng Li, Yinan Zhao, Hang Zhang, Peizhao Zhang, Peter Vajda, Diana Marculescu Enlace: https://
www .aminer.cn/pub/6344dede90e50fcafd24d0b0/
Revisión de IA (controlada por modelos grandes): el objetivo de la segmentación semántica abierta es dividir las imágenes en regiones semánticas. Los enfoques recientes de dos etapas primero generan hipótesis seguras para la clase y luego aprovechan un modelo visual-lingüístico previamente entrenado (por ejemplo, CLIP) para dividir las regiones segmentadas en regiones discriminativas. Definimos un cuello de botella de rendimiento en este paradigma que los modelos CLIP no funcionan bien en imágenes ocultas. Para abordar este problema, proponemos un método de capacitación CLIP mejorado que utiliza funciones CLIP previamente capacitadas. Los resultados experimentales muestran que la medida F del mejor sistema CLIP mejora en un 8,8 % en comparación con el mejor sistema CLIP anterior.

2. LaserMix para la página de detalles del documento de segmentación semántica LiDAR semisupervisada
Autores: Lingdong Kong, Jiawei Ren, Liang Pan, Ziwei Liu
Enlace: https://www.aminer.cn/pub/62c2a9595aee126c0fcf0a45/
Revisión de AI (unidad de modelo grande): Investigamos el potencial del aprendizaje semisupervisado desconocido en la segmentación LiDAR. Nuestra idea central es aprovechar al máximo los datos sin etiquetar utilizando características lineales. Proponemos un mezclador láser que mezcla rayos láser de diferentes escaneos LiDAR. Luego se alienta al modelo a hacer predicciones consistentes y convincentes en toda la mezcla. Nuestro marco tiene tres propiedades interesantes: 1) Vida: las combinaciones de láser son seguras para las representaciones de rayos (por ejemplo, vistas y matrices), por lo que podemos aplicarlas universalmente.

3. La página de detalles del artículo sobre la comprensión de
la segmentación semántica desequilibrada a través del colapso neuronal Autores: Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia
Enlace: https://www.aminer.cn/pub/ 63b63fd190e50fcafd8f584f/
AI Survey (Large Model Driven): En este documento, exploramos los centros de características subyacentes y las estructuras correspondientes de los clasificadores en su segmentación semántica. Con base en nuestro análisis empírico y teórico, señalamos que la segmentación semántica de palabras produce naturalmente relevancia contextual y distribución desequilibrada. Sin embargo, esta estructura coherente es beneficiosa para clases pequeñas. Para preservar estas ventajas, presentamos un aleatorizador en el centro de características para alentar a la red a aprender características más cercanas a las estructuras atractivas. Los resultados experimentales muestran que el método puede lograr mejoras significativas en la mejora del rendimiento en conjuntos de datos 2D y 3D. Además, nuestro método ocupa el primer lugar y rompe un nuevo récord en la tabla de clasificación de pruebas ScanNet200.

4. Aprendizaje de modelos de segmentación semántica de vocabulario abierto a partir de la página de detalles del artículo
de supervisión del lenguaje natural Autores: Jilan Xu, Junlin Hou, Yuejie Zhang, Rui Feng, Yi Wang, Yu Qiao, Weidi Xie
Enlace: https://www.aminer.cn/ pub/640559c290e50fcafddb3868/
AI Review (controlado por un modelo grande): en este documento, consideramos el problema de segmentación semántica de vocabulario abierto (OVS), que tiene como objetivo dividir entidades específicas de una clase arbitraria de objetos en categorías de cierre predefinidas. Las principales contribuciones incluyen: Primero, proponemos un sistema OVS basado en un modelo de transformación llamado OVSegmentor, que se entrena solo en pares gráfico-texto de búsquedas web sin usar marcadores ocultos. OVSegmentor ensambla segmentos de imágenes en un conjunto de etiquetas de una sola unidad que se puede aprender y las asigna a las incrustaciones de subtítulos correspondientes. En segundo lugar, proponemos dos tareas de inducción, finalización de entidades ocultas y consistencia oculta de gráficos cruzados. El primero intenta generalizar a todas las entidades ocultas en una etiqueta determinada, lo que permite que el modelo aprenda una alineación detallada de la entidad de vista.

5. Página de detalles del artículo sobre consultas posicionales conscientes del enfoque dinámico para la segmentación semántica
Autores: Haoyu He, Jianfei Cai, Zizheng Pan, Jing Liu, Jing Zhang, Dacheng Tao, Bohan Zhuang
Enlace: https://www.aminer.cn/pub/ 624bb3a25aee126c0fea4e5a/
AI Review (Modelo grande impulsado): Este documento propone un diseño de problema de segmentación semántica llamado Consultas posicionales conscientes del enfoque dinámico (DFPQ), que genera dinámicamente consultas posicionales, basándose en las puntuaciones de atención visual de bloques previamente decodificados y la codificación posicional correspondiente de características de la imagen. Por lo tanto, nuestro método es capaz de manejar de manera eficiente información de foco cruzado de alta resolución al incorporar solo etiquetas contextuales para el agrupamiento de relaciones locales. Extensos experimentos en Ade20K y Cityscapes muestran que este marco muestra un rendimiento excelente en SOTA y muestra una ventaja competitiva significativa en Mask2former.

6. Revisión de la coherencia de débil a fuerte en la página de detalles del artículo de segmentación semántica semisupervisada
Autores: Lihe Yang, Lei Qi, Litong Feng, Wayne Zhang, Yinghuan Shi
Enlace: https://www.aminer.cn/pub/6304456b90e50fcafd12fe39/
Encuesta de IA (impulsada por un modelo grande): este documento revisa los marcos de consenso populares de débil a fuerte de clasificadores semisupervisados. Argumentamos que esta tubería simple ya logra resultados competitivos contra el trabajo de vanguardia reciente, y cuando se traduce al escenario de partición, ya logra un rendimiento comparable al trabajo de vanguardia actual. En base a esto, proponemos un flujo de interferencia de características auxiliares como complemento para expandir el espacio de interferencia. Además, proponemos una técnica de perturbación bidireccional capaz de guiar dos vistas poderosas simultáneamente, superando así todos los métodos existentes en los puntos de referencia de Pascal, Cityscapes y COCO. Este estudio demuestra que el método muestra un rendimiento excelente tanto en la interpretación de sensores remotos como en el análisis de imágenes médicas.

7. El aumento importa: un enfoque simple pero efectivo para la página de detalles del artículo
de segmentación semántica semisupervisada Autores: Zhen Zhao, Lihe Yang, Sifan Long, Jimin Pi, Luping Zhou, Jingdong Wang
Enlace: https://www.aminer. cn/pub/63969ba790e50fcafdcf1c76/
Revisión de IA (impulsada por un modelo grande): este documento propone AugSeg, un método de agrupación semántica semisupervisado simple y limpio que se centra en el ruido de datos para mejorar el rendimiento de SSS. Empleamos una extensión de fuerza simplificada eligiendo un número arbitrario de transformaciones de datos, inyectando aleatoriamente información etiquetada del espacio continuo y estimando el rendimiento de diferentes muestras no etiquetadas según el modelo. Además, también inyectamos aleatoriamente información etiquetada para mejorar las muestras no etiquetadas, lo que da como resultado un nuevo estado del arte bajo diferentes protocolos de partición.

8. PIDNet: una red de segmentación semántica en tiempo real inspirada en la página de detalles del artículo de los controladores PID Autor: Jiacong Enlace: https://www.aminer.cn/pub/629ec1f85aee126c0fb6e78d/
Xu, Zixiang Xiong, Shankar P. Bhattacharyya Sin embargo, la combinación directa de detalles de bajo nivel y semántica de alto nivel produce un fenómeno, el defecto gráfico, que limita la mejora del rendimiento de los modelos de dos clases existentes. En este artículo, rompemos el vínculo entre la red de neurotransmisores (CNN) y el algoritmo del generador inductivo de máxima verosimilitud, y revelamos que las dos redes ramificadas no son en realidad los controladores del resolutor de verosimilitud total. Para abordar este problema, proponemos una nueva arquitectura de red de tres clases: pidnet, que contiene tres ramas para analizar información detallada, contextual y de límites (artefactos semánticos).

9. Segmentación semántica de vocabulario abierto con página de detalles del artículo de aprendizaje contrastivo alineado con parches
Autores: Jishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah, Philip HS Torr, Ser-Nam Lim Enlace: https:
//www.aminer .cn/pub/63969ba790e50fcafdcf1cbd/
Revisión de IA (impulsada por un modelo grande): presentamos una función de compatibilidad mejorada para el aprendizaje perceptivo basado en proyección (CLIP) basado en transformación, destinado a entrenar alineaciones para codificadores de anteojos y codificadores de texto. Al hacerlo, el modelo puede identificar la región de la imagen correspondiente a una entrada de texto determinada y, por lo tanto, pasarla de manera eficiente a la tarea de segmentación semántica de vocabulario abierto sin necesidad de anotaciones de segmentación durante el entrenamiento. Usando un decodificador CLIP previamente entrenado, evaluamos esta tarea en 4 criterios de clasificación diferentes, incluidos PASCAL VOC, PASCAL Context, COCO Stuff y ADVD20K. Además, también mostramos que cuando se aplica en la parte posterior de CLIP, PATL también es adecuado para la predicción de gráficos y logra una mayor precisión que CLIP para un sistema completo con 12 conjuntos de datos.

10. Coherencia cruzada basada en conflictos para la página de detalles del artículo de segmentación semántica semisupervisada
Autores: Zicheng Wang, Zhen Zhao, Xiaoxia Xing, Dong Xu, Xiangyu Kong, Luping Zhou
Enlace: https://www.aminer.cn/pub /640166a590e50fcafd68b4fb/
Revisión de IA (impulsada por modelos grandes): la segmentación semántica semisupervisada ha recibido una creciente atención de la investigación en los últimos años. En este documento, proponemos un nuevo método de consistencia de vista cruzada basado en colisiones (CCVC). Nuestro trabajo tiene como objetivo alentar a dos subredes a aprender características informativas útiles a partir de observaciones no correlacionadas. En particular, primero proponemos una nueva estrategia de consistencia de vista cruzada (CVC), que alienta a dos subredes a aprender diferentes funciones de la misma entrada, y se espera que estas diferentes funciones generen puntajes de predicción consistentes con la entrada. Además, también proponemos un método basado en el pseudo-etiquetado adversarial (CPL) para garantizar que el modelo aprenda información más útil de las predicciones contradictorias. Evaluamos nuestro nuevo método en los conjuntos de datos de referencia ampliamente utilizados PASCAL VOC2012 y Cityscapes.

———————————————————————————————————————

Para ver todos los documentos de segmentación semántica, haga clic aquí :
https://www.aminer.cn/conf/5eba43d8edb6e7d53c0fb8a1/CVPR2023

Supongo que te gusta

Origin blog.csdn.net/AI_Conf/article/details/130771790
Recomendado
Clasificación