【论文解读】One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers - 代码天地

【论文解读】One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers

其他 2023-04-08 08:31:50 阅读次数: 0

这是一篇关于NLP领域多模型知识蒸馏的文章，整体思路比较清晰，介绍了一种多模型蒸馏的方法。

1. 简介

论文题目：One Teacher is Enough?
Pre-trained Language Model Distillation from Multiple Teachers
地址：https://arxiv.org/pdf/2106.01023.pdf

2. motivation & abstract

单个教师模型指导学生模型训练时，教师模型的结果如果有偏，则容易导致最终模型结果有偏，最终学生模型的精度较低。

因此本文提出了一种多教师模型的知识蒸馏方法（co-finetune）。在这里引入shared pooling和prediction layer去对齐输出空间，从而保证更好地蒸馏。此外，对蒸馏的损失函数进行改进，提出multi-teacher hidden loss和multi-teacher distillation loss去同时利用教师模型的中间层以及输出层信息，最终在3个benchamark dataset上获取了最优性能。

注意：本文属于task-specific knowledge distillation。

3. MT-BERT

3.1 Multi-Teacher Co-Finetuning

不同的教师模型是基于不同的超参数进行训练的，因此他们单

猜你喜欢

转载自blog.csdn.net/u012526003/article/details/125258727

【论文解读】One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers

Enriching Pre-trained Language Model with Entity Information for Relation Classification 论文研读

X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

论文阅读 | Pre-trained Models for Natural Language Processing: A Survey

【知识蒸馏】 Knowledge Distillation from A Stronger Teacher

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

[文献阅读]——AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION

Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in GEC翻译

论文阅读 | ACL2019 Exploring Pre-trained Language Models for Event Extraction and Generation

【论文笔记】Enhancing Pre-Trained Language Representations with Rich Knowledge for MRC

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

LLMs：《GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL》翻译与解读

Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation论文解读

论文阅读：Pre-trained Models for Natural Language Processing: A Survey 综述：自然语言处理的预训练模型

Lion:Adversarial Distillation of Closed-Source Large Language Model

论文讲解：Knowledge distillation: A good teacher is patient and consistent

Pre-trained Models for Natural Language Processing: A Survey

Using pre-trained word embeddings in a Keras model

论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE）

论文阅读总结：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)

论文笔记 --《Unified Language Model Pre-training for Natural Language Understanding a

【多模态论文解读】Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

知识蒸馏（Distillation）相关论文阅读（2）——Cross Model Distillation for Supervision Transfer

MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION 论文笔记

Private Model Compression via Knowledge Distillation 论文笔记

END-TO-END NAMED ENTITY RECOGNITION AND RELATION EXTRACTION USING PRE-TRAINED LANGUAGE MODELS

Making Pre-trained Language Models Better Few-Shot Learners

ZSSeg: A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language

机器学习：self supervised learning- Recent Advances in pre-trained language models

【计算机视觉】Vision and Language Pre-Trained Models算法介绍合集（三）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)