2022，SCI
（Authentication这个词应当是鉴别的意思，那和recognition、identification识别本应是有区别的，起码在biometric里应是有区别的，但正文讲的其实就是识别）

引言

梳理了相当多的FV背景

方法

整体

4个block作为主干，后接中心损失和NLL损失（实际就是交叉熵吧）的匹配+分类训练
每个block包括如下4部分

Conditional Position Embedding

传统几种位置编码的痛点在于和输入token蕴含的信息无关
具体提出的是一个将上层输进来的patch图块序列先还原成图像确定位置联系，经过一个映射后再更新成patch序列，从而能够聚合邻居的信息

Expansion Token Embedding and the SA Mechanism

主要是因为对于FV来说patch里的局部纹理信息是此领域的关键，所以对每个patch套了一些MLP更新它的嵌入token

The product of Q and K is normalized by a temperature factor (1/√k) to avoid being one hot after the lateral softmax calculation [15], [43], [60]
关于SA的公式解释提到1/√k是通过这样一个温度因子（什么鬼？没搜到啊）归一化来避免横向softmax后成为one hot编码（why？可能需要再复习一下基本的transformer论文）

Local Information-Enhanced FFN

ViT重视全局信息，这边不适于FV，因为FV的信息基本是靠像素间、或者patch间（那还不是超像素图块）的灰度差异体现的，这也就是纹理信息
于是有些像【48】就提出将序列晶格化来增强局部信息，本文是基于这个改进了前馈层

Expansion-Less Mechanism

金字塔结构放缩每一层的token序列长度来降低复杂度，同时提取多尺度的特征从而得到全局信息（本来想说有点图池化的感觉，但更不如说是下采样吧）

实验

数据集

9种FV数据集

实验设置

探针与模板的匹配识别，所以本身还是EER的性能指标，同时引入 TAR@FAR = 0.01说这样更有利于实际应用的直观参考

4种ViT上的实验

（这里的图表蛮适合参考的）
同时评估了4种ViT的参数量和浮点计算量

消融实验

与其他sota的对比

（只能说困在传统方法蛮久了，才知道FV的DLsota也不少了）
（不过这里应该作者没有去复现这些方法，而是直接拿人家论文里的结果来对比，因为有些模型只在一个数据集上做过实验，这里的表格中它对应其他的数据集就没有实验结果）

we can see that there are quite a few vacant values, which are not conducive to the performance comparison.（这就很扯淡，你的结果已经不如已有的实验了，那些空白未做的实验又有什么影响，做出来不论比你好还是比你差都没啥区别啊）

总结

下一步计划
1.轻量化，继续减少参数（但是本质上靠linear的transformer有必要去纠结参数量吗）
2.多组联合训练（其实还是依赖于大规模数据集，但是biometric基本上就是不像其他CV领域那样丰富，因为隐私安全、姿态差异对DL来说没啥影响之类的原因吧就是类内样本极少。人脸啥的好歹还能有表情、遮挡啥的增加一些数据的复杂性，咱这手指纹理是真的饱和）
————————————————
（有些语法错误和排版偏差，但只能说是瑕不掩瑜，整篇文章说的太好了，看着很舒服，内容也很充实）

读《FVT: Finger Vein Transformer for Authentication》

引言

相关工作

FV Authentication

ViT

方法

整体