Transformer接管大模型?RNN说 NO!

梦晨 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI

ChatGPT爆火以来,大语言模型和Transformer几乎成了同义词,然而真的如此吗?

刚刚,一个由国人主导,总共27所大学、研究机构和公司组成的开源研究团队,联名发表重磅论文《RWKV:在Transformer的时代重新发明RNN》,受到学术界大量关注。

968c27258ee18b65984ca8c37af7f2a4.png

RWKV就是论文中提出的新深度学习模型架构,以循环神经网络RNN为基础魔改而来。

实际上RWKV模型的开源发布比论文要早不少,并且已经在开源社区和行业内产生不小影响力。

0e44af8bb0b67bfb125d6b70812a1e1e.png

其创始人彭博在知乎等平台也非常活跃。

ae8f23d58ad9249f0bfd73c2f2ed9c4a.png

在人类玩家打分的大模型匿名竞技场Chatbot Arena最新一期榜单中,RWKV在一众Transformer中排名第6,并且与7-11名相比拉开一个分数段。

fd7441c127b09a92400a4d1980a0623c.png

并且RWKV也有在线Demo可玩。(地址在文末)

有意思的是,参与论文的EleutherAI实验室表示,论文还不是完全版本,由于不便公布的截止日期而被迫提前发布,以后还会继续完善。

c97d150e270f383a432f662826f2523c.png

那么就先来看一下,到目前为止RWKV团队都做出了哪些成果。

时间复杂度比GPT低‍‍

RWKV设计灵感来自苹果21年的研究《An Attention Free Transform》,团队意识到如果在公式中使用循环矩阵(circular matrices)就可以将网络结构写成RNN。

与GPT系列的时间复杂度O(n^2)相比,RNN的时间复杂度只有O(n),空间复杂度是O(1)。

这意味着生成内容的速度不会随长度而夸张增涨,显存占用也是恒定的。

一作彭博在接受36kr采访时曾这样形容:

GPT每写一个字就要重新看一遍前面所有文字,效率很低。而RWKV就相当于人类读了一遍资料后,在不再看资料的情况下直接回答。

传统RNN由于并行化的方式难以扩大规模,RWKV通过使每个通道的时间衰减与数据无关,可以在训练期间像Transformer一样做并行化。

e35f494cf52028ef624368ff5b9df218.png

训练好的140亿参数RWKV在多个数据集上的表现与开源Transformer大模型相当。

9506ecd6ed01fa0079a45ac6af9437a8.png

另外团队指出RWKV并非没有缺陷,虽然大致与Transformer的性能匹配,但对提示更敏感,并难以整合非常长的信息。

物理出身现在卖灯的论文一作

RWKV背后是一支不小的论文团队,总共27家大学、研究机构和公司组成,作者达30人。

论文一作Peng Bo,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。

2118cb2ed0d4059d0f6b1969160644e7.png

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。

目前,Peng Bo在Github有1.3k的followers,知乎粉丝已经超过了11万人,随着RWKV论文的发布,这个数字还在增加。

除了关注RWKV模型、论文发布和最新进展,吃瓜网友们最讶异的还是Peng Bo的身份之多样:

不仅仅是RWKV模型一作、元智能OS创始人,他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。

乍一看这个跨行有点猛,物理出生,搞过量化金融,写了20年程序,然后主业卖灯,根据爱好搞了个大模型,走的还不是主流transformer路线……

并且Peng Bo本人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只黄色橘猫的身影。

1b681c5dec99999d9367707f9952054f.png

ps. 如果你也好奇RWKV这个词该怎么读,根据元智能OS团队在播客《三五环》的读法,应该是“Rua库”

论文地址:
https://arxiv.org/abs/2305.13048
RWKV模型下载:
https://huggingface.co/BlinkDL/rwkv-4-raven
在线试玩:
https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B

参考链接:
[1]https://twitter.com/AiEleuther/status/1660811180901019648
[2]https://zhuanlan.zhihu.com/p/618011122
[3]https://36kr.com/p/2257744759205508
[4]https://www.xiaoyuzhoufm.com/episode/645b68e0306513184c97034b

关注公众号【机器学习与AI生成创作】,更多精彩等你来读:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

71639410074ec3c0235313b2f2ee65d9.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

f117cc4e3f8d888555614e0f7a5f2ba2.jpeg

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!

猜你喜欢

转载自blog.csdn.net/lgzlgz3102/article/details/130838386
今日推荐