所有你要知道的 BERT 模型压缩方法，都在这里！ - 代码天地

所有你要知道的 BERT 模型压缩方法，都在这里！

其他 2020-03-02 15:50:31 阅读次数: 0

模型压缩可减少受训神经网络的冗余，由于几乎没有 BERT 或者 BERT-Large 模型可直接在 GPU 及智能手机上应用，因此模型压缩方法对于 BERT 的未来的应用前景而言，非常有价值。

软件工程师 Mitchell A. Gordon 在本文中总结了所有的 BERT 压缩模型的方法，并对该领域的论文进行罗列及分类，我们下面来看：

压缩方法

1、剪枝——即训练后从网络中去掉不必要的部分。

这包括权重大小剪枝、注意力头剪枝、网络层以及其他部分的剪枝等。还有一些方法也通过在训练期间采用正则化的方式来提升剪枝能力（layer dropout）。

2、权重因子分解——通过将参数矩阵分解成两个较小矩阵的乘积来逼近原始参数矩阵。

这给矩阵施加了低秩约束。权重因子分解既可以应用于输入嵌入层（这节省了大量磁盘内存），也可以应用于前馈/自注意力层的参数（为了提高速度）。

3、知识蒸馏——又名「Student Teacher」。

在预训练/下游数据上从头开始训练一个小得多的 Transformer，正常情况下，这可能会失败，但是由于未知的原因，利用完整大小的模型中的软标签可以改进优化。

一些方法还将BERT 蒸馏成如LSTMS 等其他各种推理速度更快的架构。另外还有一些其他方法不仅在输出上，还在权重矩阵和隐藏的激活层上对 Teacher 知识进行更深入的挖掘。

4、权重共享——模型中的一些权重与模型中的其他参数共享相同的值。

例如，ALBERT 对 BERT 中的每个自注意力层使用相同的权重矩阵。

5、量化——截断浮点数，使其仅使用几个比特（这会导致舍入误差）。

模型可以在训练期间，也可以在训练之后学习量化值。

6、预训练和下游任务——一些方法仅仅在涉及到特定的下游任务时才压缩 BERT，也有一些方法以任务无关的方式来压缩 BERT。

喜欢打酱油的老鸟博客专家

发布了469 篇原创文章 · 获赞 718 · 访问量 151万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/weixin_42137700/article/details/104606246

所有你要知道的 BERT 模型压缩方法，都在这里！

关于Transformer你需要知道的都在这里------从论文到代码深入理解BERT类模型基石（包含极致详尽的代码解析！）

关于阿里巴巴基础设施，你要知道的都在这里

关于阿里基础设施，你要知道的都在这里

iOS多线程——你要知道的NSThread都在这里

iOS多线程——你要知道的RunLoop都在这里

iOS多线程——你要知道的NSOperation都在这里

iOS多线程——你要知道的GCD都在这里

关于软件测试，你需要知道的一切都在这里了

动态代理总结，面试你要知道的都在这里，无废话！

关于GPT-3和GPT-4，你需要知道都在这里

你知道的不知道的都在这里呀！

【干货】你想知道的PDF加密方法都在这里！

流程、方法、策略，你想知道的项目实施干货都在这里！

Android Toolbar，你想知道的都在这里了

你想知道的重试都在这里

你以为Excel求和只有sum求和？多种高级求和方法都在这里了！

Excel所有批注相关的操作都在这里了。

关于 RPA 的所有知识都在这里

构建有状态Kubernetes应用程序的方法，都在这里

一种p2p形式的p币你需要知道的都在这里

ERC1400提案中文版，关于ERC的新成员，你想要知道的都在这里了

关于Linux进程你所需要知道的一切都在这里！！

关于美国政府发布的开源软件安全RFI，你需要知道的都在这里

你要的所有数据源都在这里了！

微信聊天记录删除怎么才能恢复？所有的恢复方法都在这里

关于前端面试题css垂直居中的问题：所有的方法都在这里了

交易中的数理，你关心的都在这里！

2019你想要的Python资料都在这里

十问unwallet！你想问的都在这里

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)