Discusión sobre la función Norma en la búsqueda de personas

Título de la tesis: Incorporación consciente de normas para la búsqueda eficiente de personas

Enlace del artículo: http://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Norm-Aware_Embedding_for_Efficient_Person_Search_CVPR_2020_paper.pdf

Código: https://github.com/DeanChan/NAE4PS

Este artículo es DiChen, profesor shanshan zhang, profesor jianyang, el trabajo CVPR2020 de Bernt Schiele, recientemente estudiando, me dio mucha inspiración sobre Feature Norm. Mi comprensión puede no ser lo suficientemente profunda, solo tiro un ladrillo para atraer jade, gracias por sus valiosas opiniones. También puede contribuir a la columna de reidentificación de peatones ( https://zhuanlan.zhihu.com/personReid ).

Permítanme hacer una digresión primero, antes, Zhiding Yu, uno de los autores de cara de esfera, me dijo que el ángulo característico es el más importante, pero la norma característica no refleja mucha información. Esto se puede ver en detalle en su reciente trabajo "Angular Visual Hardness" ( https://arxiv.org/pdf/1912.02279.pdf ) La idea central principal es que el puntaje del modelo (puntaje de confianza) no es completamente consistente.

de https://wyliu.com/papers/ChenAVH_slides.pdf

Aquí, descomponemos la confianza del modelo final en norma y ángulo.

En el artículo se compararon 3 mapas de calor con la selección de personas. Se encuentra que la elección de las personas no está altamente correlacionada con la confianza del modelo, ni está altamente correlacionada con la magnitud, es decir, la norma, pero está altamente correlacionada con el ángulo (como se muestra en la figura a continuación).

Qué:

bien. Volviendo al tema. El problema de esta investigación de incorporación consciente de normas es la búsqueda de personas en una sola etapa. La etapa relativa de dos es detectar peatones primero y luego realizar el aprendizaje de reidentificación de personas.

Este artículo estudia la separación entre norma y ángulo, y la detección de personas y peatones al mismo tiempo:

Use la norma para representar el resultado de la detección (es humano)

2. Utilice el ángulo para distinguir la identificación de personas (es decir, la tarea de identificación de peatones)

Cómo:

Pérdida: como se muestra a continuación

Idealmente, los colores son las características de reID y los negros son las características del fondo detectado.

La parte reid todavía usa pérdida OIM, una variante de entropía cruzada, e introduce muestras negativas, por lo que las características coloreadas son relativamente abiertas.
La pérdida de detección se aplica a un escalar, que es la norma. Es necesario enfatizar aquí que r es un número. Si es una persona, empújelo a 1, si es el fondo, empújelo a 0, es decir, encójalo al centro de la bola. Entonces, las características negras se agrupan cerca del centro de la esfera.

Toda la canalización es la siguiente.

Durante la inferencia, también puede hacer algo de supresión en los candidatos cuyo IOU no es alto, específicamente multiplicar el puntaje de confianza de la detección.

Además, el autor también hizo algunas extensiones para hacer una red similar al mapa de atención. Lo más importante es que no junte inmediatamente cuando obtenga el retorno de la inversión. Realice algunos pasos más y, finalmente, agrupar.

Aquí, establezca el área superpuesta con gt bbox en 1 y establezca el área no superpuesta en 0. Aprendamos el mapa r de detección. Hay un bilineal en el borde para hacer un suave.

experimento:

Aquí hay una palabra mal escrita, no importa. Los resultados siguen siendo altos. Se puede ver que el resultado del detector ha mejorado, y la parte de reid también es mejor.

Mi comprensión es relativamente superficial, bienvenido a discutir,

Introduciendo ladrillos y jade, una pregunta, después de aprender la pérdida de entropía cruzada, ¿qué expresa la norma característica? ¿Es porque la razón para instalar softmax es cada vez más grande, por lo que no tiene ningún sentido?

Finalmente, todos son bienvenidos a revisar algunos de mis otros artículos, gracias ~ por su amabilidad.

Zheng Zhedong: [Nuevo conjunto de datos de UAV] Desde la reidentificación de peatones hasta el posicionamiento de objetivos de UAV

Zheng Zhedong: Usando CNN para clasificar 100,000 categorías de imágenes

Zheng Zhedong: use la incertidumbre para corregir pseudoetiquetas en la adaptación de dominio

¿Pytorch tiene algún truco para ahorrar memoria de video?

Discusión sobre la función Norma en la búsqueda de personas

Supongo que te gusta