PD: Estoy tan ocupado ahora que no tengo tiempo para actualizar el blog. Ahora hablaré de manera simple e intuitiva sobre la estructura del modelo de red retinanet.
La estructura de retinanet de muchos blogs en Internet es la siguiente:
La estructura entre (a) y (b) aquí es relativamente intuitiva y comprensible (a lo sumo, el cambio en el número de capas de salida de FPN en el proceso real estará sesgado), pero (b) y (c), (d ) Parece claro, pero para mí, como principiante al principio, tengo esta idea. Si hay dos salidas de W * H * KA y W * H * 4A detrás de una capa de una salida FPN, entonces hay tres en Capa, ¿no es necesario tener tres salidas de W * H * KA y W * H * 4A, un total de seis, y luego seis salidas para la pérdida?
Más tarde, cuando depuré el código paso a paso, descubrí que en realidad solo hay dos salidas. Como se muestra en la figura, cuando el número de capas de salida de FPN es tres
con
Es decir, el resultado de la matriz multidimensional se redimensiona a 2 dimensiones y luego se une.