【KD】KD 在bert上的应用

企业开发 2022-06-02 15:07:10 阅读次数: 0

简介

目录：

蒸馏是什么？怎么蒸BERT？
BERT蒸馏有什么技巧？如何调参？
蒸馏代码怎么写？有现成的吗？

今天rumor就结合Distilled BiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型，带大家把BERT蒸馏整到明明白白！

模型蒸馏原理

Hinton在NIPS2014[1]提出了知识蒸馏（Knowledge Distillation）的概念，旨在把一个大模型或者多个模型ensemble学到的知识迁移到另一个轻量级单模型上，方便部署。简单的说就是用小模型去学习大模型的预测结果，而不是直接学习训练集中的label。

在蒸馏的过程中，我们将原始大模型称为教师模型（teacher），新的小模型称为学生模型（student），训练集中的标签称为hard label，教师模型预测的概率输出为soft label，temperature(T)是用来调整soft label的超参数。

蒸馏这个概念之所以work，核心思想是因为好模型的目标不是拟合训练数据，而是学习如何泛化到新的数据。所以蒸馏的目标是让学生模型学习到教师模型的泛化能力&

猜你喜欢

转载自blog.csdn.net/lj2048/article/details/123776869

【KD】KD 在bert上的应用

KD-树（上）

kd树

KD tree

【KD】相关KD论文简读汇总

【KD】Self-KD自蒸馏

Kd-tree算法

【转载】KD-tree

KD-Tree

kd—tree算法实现

kd-tree板子

kd树的结构

kd-tree 小结

【DBSCAN——KD树优化】

KD树学习小结

kd树原理及实现

KNN算法与Kd树

KD-tree模板

kd31

浅谈KD-Tree

kd-树笔记

kd树的构造过程

KD-Tree的学习

KD-tree 总结

KD-tree讲解

KD-Tree总结

【模板】kd-tree

KD树的python实现

KD树的python实现

算法 | kd树

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)