读《FVT: Finger Vein Transformer for Authentication》

2022, LME
(Authentication这个词应当是鉴别的意思,那和recognition、identification识别本应是有区别的,起码在biometric里应是有区别的,但正文讲的其实就是识别)

introducción

Desarrolló bastantes fondos de FV

trabajo relacionado

Autenticación FV

Método de filtro tradicional y método DL (在且仅在传统方式里强调了ROI,DL是不需要ROI吗?)
Algunos sota actuales
[35] red ligera de dos flujos, mini-ROI
[36] preentrenamiento, aprendizaje de destilación [
37] codificador automático
[40] atención conjunta
[41] introducción de gradiente local ponderado Una CNN que codifica WLGC maneja trimodalidad
[42] canal de atención, pérdida central

vit

No está mal el resumen de los respectivos ViT

método

en general

4 bloques como columna vertebral, seguidos de la pérdida central y la pérdida NLL (实际就是交叉熵吧)emparejamiento + entrenamiento de clasificación
Cada bloque incluye las siguientes 4 partes

Incrustación de posición condicional

El problema de varias codificaciones de posición tradicionales es que no tiene nada que ver con la información contenida en el token de entrada. La
propuesta específica es restaurar primero la entrada de secuencia de bloque de parche de la capa superior a una imagen para determinar la relación de posición, y luego actualícelo en una secuencia de parches después de un mapeo, para que pueda agregarse.

Incrustación de token de expansión y el mecanismo SA

La razón principal es que para FV, la información de textura local en el parche es la clave en este campo, por lo que se establecen algunos MLP para que cada parche actualice su token incrustado.

El producto de Q y K se normaliza por un factor de temperatura (1/√k) para evitar ser uno caliente después del cálculo del softmax lateral [15], [43], [60] La explicación de la fórmula sobre SA menciona 1/√k
It se (什么鬼?没搜到啊)normaliza por tal factor de temperatura para evitar convertirse en un código caliente después de softmax horizontal(why?可能需要再复习一下基本的transformer论文)

FFN con información local mejorada

(那还不是超像素图块)ViT otorga gran importancia a la información global, que no es adecuada para FV, porque la información de FV se refleja básicamente en la diferencia de nivel de gris entre píxeles o parches , que también es la información de textura, por lo que
algunas personas como [48] propusieron cristalizar la secuencia para mejorar la información local, este artículo se basa en esta capa de alimentación hacia adelante mejorada

Mecanismo sin expansión

La estructura piramidal escala la longitud de la secuencia de tokens en cada capa para reducir la complejidad y, al mismo tiempo, extrae características de múltiples escalas para obtener información global.(本来想说有点图池化的感觉,但更不如说是下采样吧)

experimento

conjunto de datos

9 conjuntos de datos FV

configuración del experimento

El reconocimiento coincidente entre la sonda y la plantilla, por lo que sigue siendo el índice de rendimiento de EER, y se dice que la introducción de TAR@FAR = 0.01 es más propicia para la referencia intuitiva de aplicaciones prácticas.

Experimentos en 4 ViT

(这里的图表蛮适合参考的)
Evalúe simultáneamente la cantidad de parámetros y los cálculos de punto flotante de 4 ViT

experimento de ablación

Comparación con otros sota

(只能说困在传统方法蛮久了,才知道FV的DLsota也不少了)
(不过这里应该作者没有去复现这些方法,而是直接拿人家论文里的结果来对比,因为有些模型只在一个数据集上做过实验,这里的表格中它对应其他的数据集就没有实验结果)

podemos ver que hay bastantes valores vacantes, que no son propicios para la comparación de rendimiento.(这就很扯淡,你的结果已经不如已有的实验了,那些空白未做的实验又有什么影响,做出来不论比你好还是比你差都没啥区别啊)

Resumir

Plan del próximo paso
1. Ligero, continuar reduciendo los parámetros (pero en esencia, es necesario luchar con la cantidad de parámetros para los transformadores lineales)
2. Entrenamiento conjunto multigrupo (其实还是依赖于大规模数据集,但是biometric基本上就是不像其他CV领域那样丰富,因为隐私安全、姿态差异对DL来说没啥影响之类的原因吧就是类内样本极少。人脸啥的好歹还能有表情、遮挡啥的增加一些数据的复杂性,咱这手指纹理是真的饱和)
————————————— ————
(有些语法错误和排版偏差,但只能说是瑕不掩瑜,整篇文章说的太好了,看着很舒服,内容也很充实)

Supongo que te gusta

Origin blog.csdn.net/weixin_40459958/article/details/125076559
Recomendado
Clasificación