去掉softmax后Transformer会更好吗?复旦&华为诺亚提出SOFT

作者丨happy
​编辑丨极市平台

论文链接:https://arxiv.org/pdf/2110.11945.pdf

代码链接:https://github.com/fudan-zvg/SOFT

项目链接:https://fudan-zvg.github.io/SOFT/

本文是复旦大学&华为诺亚关于Transformer中自注意力机制复杂度的深度思考,首次提出了一种新颖的softmax-free 的Transformer 。本文从softmax self-attention局限性出发,分析了其存在的挑战;然后由此提出了线性复杂度的SOFT;再针对线性SOFT存在的训练问题,提出了一种具有理论保证的近似方案。所提SOFT在ImageNet分类任务上取得了比已有CNN、Transformer更佳的精度-复杂度均衡。

阅读完整原文:去掉softmax后Transformer会更好吗?复旦&华为诺亚提出SOFT:轻松搞定线性近似

Guess you like

Origin blog.csdn.net/Extremevision/article/details/121244782