[论文阅读笔记77]LoRA：Low-Rank Adaptation of Large Language Models

1. 基本信息

题目	论文作者与单位	来源	年份
LoRA: Low-Rank Adaptation of Large Language Models	microsoft	International Conference on Learning Representations	2021

524 Citations

论文链接：https://arxiv.org/pdf/2106.09685.pdf

论文代码：https://github.com/microsoft/LoRA

2. 要点

研究主题	问题背景	核心方法流程	亮点	数据集	结论	论文类型	关键字
微调大模型	对比较大的模型进行全部参数的微调显得不太可行，例如GPT-3 175B,每介任务都部署一个单独的GPT-3，这个显得十分的昂贵。	提出Low-Rank Adaptation，LoRA.	冻结了预先训练的模型权值，并将可训练的秩分解矩阵注入变压器架构的每一层，大大减少了下游任务的可训练参数的数量。		效果与全参微调相当或比全参要好，并且没有推理延迟。		LoRa

目的主要是不想微调模型的所有参数，去满足下游任务，因为这个成本太大的，特别是大模型例如175B的GPT-3；同时，这个方法也有人提出了相关的方法，可是这些方法存在问题，通过扩展模型的深度或减少模型的可用序列长度来实现存在推理延迟。最重要的是质量不太行呀。

启发于：学习到的过度参数化模型实际上存在于一个较低的intrinsic dimension(内在维度)上。即是训练下游任务不需要这么多参数，采用降秩的方法来保留最内在的参数。

Measuring the Intrinsic Dimension of Objective Landscapes, Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning. arXiv:2012.13255 [cs], December 2020.

优点：

只共享一个大模型，对于不同的任务，只训练不同的A,B.

训练更有效，训练参数少；

在推理方面，线性合并，没有推理延迟；

LoRA与许多先前的方法正交，可以与其中许多方法结合，比如前缀调优。