FacT: Factor-Tuning for Lightweight Adaptation on Vision Transformer

AAAI2023| FacT: Factor-Tuning for Lightweight Adaptation on Vision Transformer

论文链接：https://arxiv.org/pdf/2212.03145.pdf
源码链接：https://github.com/JieShibo/PETL-ViT

简介

近期研究已经探索了将预训练的ViT模型通过调整较少比例的参数自适应并改善存储效率。该方法称为Parameter Efficient Transfer Learning (PETL)。目前PETL方法已经展示了只调整0.5%比例参数，ViT在下游任务中可以获得比完整微调方法更好的性能。

LoRA: Low-Rank Adaptation of Large Language Models还表明，优化密集层的权重增量的低秩分解矩阵是适应大模型的一种有前途的方法。虽然LoRA的矩阵分解显著减少了微调的密集层的存储，但离利用神经网络低秩分解的属性到极致还差的很远。

PETL相关工作

Adapter

典型的方法是瓶颈（bottlenect）模块，包含两个全连接层，权重分别是 $W_{down}\in \mathbb{R}^{d\times h}$ 与 $W_{up}\in \mathbb{R}^{h\times d}$ ，且满足 $h\ll d$ 。

LoRA

将查询变换 $W_{q}$ 和值变换 $W_{v}$ 的增量分解成 $A_{q/v}\in \mathbb{R}^{d\times r}$ 与 $B_{q/v}\in \mathbb{R}^{r\times d}$ ，且满足 $r\ll d$ 。查询和键计算可以表述为：
$\leftarrow XW_{q/v} + s\cdot XA_{q/v}B_{q/v}$

VPT

Visual Prompt Transformer（VPT）将输入 $X$ 与可训练的提示 $P\in \mathbb{R}^{l\times d}$ 在传入Transformer层前合并。

本文方法

张量化ViT

向量化神经网络意味着使用单一向量表示参数。之前视觉模型如ResNet通常使用不同层不同大小的权重。该属性限制了张量化的能力。然而由于ViT模型中Transformer层的一致性，可以使用更简单的方式张量化ViT。

除了块嵌入和分类头模块，ViT模型包括两种模块：多头自注意力（Multi-head self-attention，MHSA）和前向反馈模块（Feed-forward network, FFN）。MHSA模块中，查询键值和输出变换分别参数化为 $W_{q}$ ， $W_{k}$ ， $W_{v}$ ， $W_{o} \in R^{d\times d}$ 。这些变换划分为 $N_{h}$ 个头： ${W_{q}^{i}\}_{i=1}^{N_{h}},\{W_{k}^{i}\}_{i=1}^{N_{h}},\{W_{v}^{i}\}_{i=1}^{N_{h}},\{W_{o}^{i}\}_{i=1}^{N_{h}}$ 。MHSA可以描述为：
$MHSA(\mathbf{X}) = \sum_{i=1}^{N_{h}} softmax(\frac{XW_{q}^{(i)}W_{k}^{(i)^{T}}X^{T}}{\sqrt{d}})XW_{v}^{(i)}W_{o}^{(i)^{T}}$
FFN块包括两个全连接层。忽略偏置参数，FFN可以描述为：
$FFN(X) = GELU(XW_{up})W_{down}$
$W_{up}\in \mathbb{R}^{d\times4d}$ ， $W_{down}\in \mathbb{R}^{4d\times d}$ 是两个全连接层的权重。

FFN也可以是作为多头模块。将 $W_{up}$ 和 $W_{down}$ 划分为四个大小为 $d\times d$ 的矩阵 ${W_{up}^{(i)}\}_{i=1}^{4}$ 与 ${W_{down}^{(i)}\}_{i=1}^{4}$ 。FFN可以重写为：
$\sum_{i=1}^{4} GELU(XW_{up}^{(i)})W_{down}^{(i)}$
在每一层中，MHSA块有四个 $d\times d$ 矩阵，FFN中存在8个 $d\times d$ 矩阵。假设ViT模型中层数量为 $L$ ，可以将Transformer层所有的权重堆积成为一个 $12L\times d\times d$ 张量。
$\begin{array}{r} \mathcal{W}=\left\{\left\{\boldsymbol{W}_{q}^{j}, \boldsymbol{W}_{k}^{j}, \boldsymbol{W}_{v}^{j}, \boldsymbol{W}_{o}^{j}\right\} \cup\left\{\boldsymbol{W}_{u p}^{j,(i)}\right\}_{i=1}^{4} \cup\right. \\ \left.\left\{\boldsymbol{W}_{\text {down }}^{j,(i)}\right\}_{i=1}^{4}\right\}_{j=1}^{L} \in \mathbb{R}^{12 L \times d \times d} \end{array}$
值得注意的，分类头、块嵌入、正则化和所有的偏置参数没有考虑如张量形式，因为他们是稀少且不规则的。本文方法对分类头不张量化，其他模块在微调阶段冻结。

Factor-Tuning

预训练阶段ViT权重定义为 $\mathcal{W}_{0}$ ，微调后ViT权重更新为 $\mathcal{W}_{ft}$ ，定义 $\Delta\mathcal{W} = \mathcal{W}_{ft} - \mathcal{W}_{0}$ 。微调阶段，梯度可以描述为：
$g_{\mathcal{W}} = \frac{\partial \mathcal{L}(\mathcal{D};\mathcal{W})}{\partial \mathcal{W}}$
另一种形式： $g_{\mathcal{W}} = \frac{\partial \mathcal{L}(\mathcal{D};\mathcal{W}_{0}+\Delta\mathcal{W})}{\partial \mathcal{W}}$ 。

传统的全微调方法需要更新ViT内所有参数，这意味着需要存储至少 $\Delta W$ 或 $W_{ft}$ 的参数，每个任务需要复杂度为 $\mathcal{O}(Ld^{2})$ 。

由于 $\Delta W$ 矩阵的冗余性，可以通过很多方式提升存储效率。这里考虑多种形式：

Matrix-Batch形式

此方法类似LoRA方法中使用的形式。将 $\Delta \mathcal{W}$ 第一个维度视作为batch维度，独立分解batch每一个维度的 $d\times d$ 。正式地， $\Delta\mathcal{W}$ 分解为 $\in \mathbb{R}^{12L\times d\times r}$ 和 $V\in \mathbb{R}^{12L\times r\times d}$ ：
$\Delta \mathcal{W}_{i,:,:} = s\cdot U_{i,:,:}V_{i,:,:}$
LoRA方法的存储复杂度为 $\mathcal{O}(Ldr)$ ，且 $r\ll d$ 。

Tensor-Train形式

$\Delta \mathcal{W}$ 分解为 $U\in \mathbb{R}^{d\times r_{1}}$ ， $V\in \mathbb{R}^{d\times r_{2}}$ ， $\Sigma \in \mathbb{R}^{12L\times r_{1}\times r_{2}}$ ：
$\Delta \mathcal{W}=s \cdot \boldsymbol{\Sigma} \times_{2} \boldsymbol{U}^{\top} \times_{3} \boldsymbol{V}^{\top}$
$\times_{i}$ 是模式-i乘积：
$\Delta \mathcal{W} = s\cdot \sum_{t_{1}=1}^{r_{1}}\sum_{t_{2}=1}^{r_{2}}\Sigma_{i,t_{1},t_{2}}U_{j,t_{1}}V_{k,t_{2}}$
简洁起见，设置 $r=r_{1}=r_{2}\ll d$ 。存储大小： $2dr+12Lr^{2}\sim{\mathcal{O}(dr+Lr^{2}})$ 。

Tucker形式

$\Delta \mathcal{W}$ 分解为 $U\in \mathbb{R}^{d\times r_{2}}$ ， $V\in \mathbb{R}^{d\times r_{3}}$ ， $P\in \mathbb{R}^{12L\times r_{1}}$ 。
$\Delta \mathcal{W} = s\cdot C\times_{1}P^{T}\times_{2} U^{T}\times_{3} V^{T}$
且满足：
$\Delta \mathcal{W}_{i,j,k} = s\cdot \sum_{t_{1}=1}^{r_{1}}\sum_{t_{2}=1}^{r_{2}}\sum_{t_{3}=1}^{r_{3}}C_{t_{1},t_{2},t_{3}}P_{i,t_{1}}U_{j,t_{2}}V_{k,t_{3}}$
简洁起见，设置 $r=r_{1}=r_{2}=r_{3}\ll d$ 。存储大小： $2dr+12Lr+r^{3}\sim{\mathcal{O}(dr+Lr+r^{3})}$ 。

这里使用分解后训练的范式。微调钱分解 $\Delta \mathcal{W}$ ，在微调期间更新因子。

在后两种形式中，因子 $V$ 初始化为0，另外两个因子随机初始化使 $\Delta \mathcal{W}$ 随机初始化为0张量。分解后端到端优化因子。以Tensor-Train形式为例， $U$ 的梯度可以表示为：
$g_{U} = \frac{\partial \mathcal{L}(\mathcal{D};\mathcal{W_{0}}+\Delta \mathcal{W})}{\partial U} = s\cdot g_{\mathcal{W}}\frac{\partial \Sigma\times_{2}U^{T}\times_{3}V^{t}}{\partial U}$