Accelerating BERT Inference for Sequence Labeling via Early-Exit - 代码天地

Accelerating BERT Inference for Sequence Labeling via Early-Exit

企业开发 2023-04-10 02:52:19 阅读次数: 0

链接：https://arxiv.org/pdf/2105.13878.pdf

github:https://github.com/LeeSureman/Sequence-Labeling-Early-Exit

Bert等一系列预训练模型虽然在下游任务上有很好的表现，但是他们的计算代价是比较大的。从而使得工程上使用局限比较大。为了解决这个问题，提出了模型压缩的一系列方法如：剪枝，知识蒸馏以及早退机制等。其中，早退机制是认为一些样本在比较浅的层就能得到正确的结果，那么就可以终止这些样本的训练，从而加速推理。本文将早退机制应用到序列标注上，提出了SENTence-level Early-Exit (SENTEE)以及TOKen-level Early-Exit (TOKEE)。

Early-Exit for Sequence Labeling

早退是通过计算不确信度来决定是否退出，不确信度的计算：

其中， $p_{n}^{l}$ 是第n个token的标签概率。

SENTEE: Sentence-Level Early-Exi

SENTEE的不确信度计算是取序列所有token的最大值 $\mu_{l}$ 作为整个句子的不确信度，当 $\mu _{l}<\sigma$ 的时候，那么在第 $l$ 层退出。

TOKEE: Token-Level Early-Exi

为了解决SENTEE中简单的tokens无法早退出的机制，提出了TOKEE。TOKEE利用周围token的信息的最大值作为当前token的不确信度的值。

Halt-and-Copy将早退出tokens的表示直接复制到上层。为了解决训练和推理之间的不一致性，引入了自采样。

Experiment

不同数据上的结果

SENTEE和TOKEE的速度比较

Conclusion

本文提出了序列标注的早退机制SENTEE和TOKEE，加快了推理速度。

猜你喜欢

转载自blog.csdn.net/rucieryi369/article/details/124760361

Accelerating BERT Inference for Sequence Labeling via Early-Exit

Sequence Labeling Problem

sequence labeling笔记（一）

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL

学习：Bi-LSTM-CRF for Sequence Labeling

Implicitly-Defined Neural Networks for Sequence Labeling

论文阅读笔记：《Contextual String Embeddings for Sequence Labeling》

用序列标注Sequence Labeling来做event detection

flair embedding--《Contextual String Embeddings for Sequence Labeling》阅读笔记

Inference

目标检测——【Transformer】Accelerating DETR Convergence via Semantic-Aligned Matching

Information Aggregation via Dynamic Routing for Sequence Encoding

KDD2023 | Accelerating Antimicrobial Peptide Discovery with Latent Sequence-Structure Model

在TensorFlow RNN 深度学习下 BiLSTM+CRF 实现 sequence labeling

李宏毅机器学习课程笔记8：Structured Learning - Linear Model、Structured SVM、Sequence Labeling

TensorFlow RNN深度学习 BiLSTM+CRF 实现 sequence labeling 序列标注

TensorFlow RNN深度学习 BiLSTM+CRF 实现 sequence labeling 序列标注源码

深度学习笔记——理论与推导之Structured Learning【Sequence Labeling Problem】（八）

番外.李宏毅学习笔记.ST4.Sequence Labeling

论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data（CRF

【姿态估计】PoseMachine: 通过推理机进行关节姿态估计 Articulated Pose Estimation via Inference Machines

Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting翻译

BERT Enhanced Neural Machine Translation and Sequence Tagging Model翻译

李宏毅机器学习课程笔记8：Structured Learning - Linear Model、Structured SVM、Sequence Labeling 李宏毅机器学习课程笔记8：Structured Learning - Linear Model、Structured SVM、Sequence Labeling

论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)

Error executing DDL "drop sequence if exists hibernate_sequence" via JDBC Statement

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification

CNN in MRF: Video Object Segmentataion via Inference in A CNN-Based Higher-Order Spatio-Temporal MRF

BERT

Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generation | 文本生成系列论文阅读笔记

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)