Early-Exit によるシーケンス ラベリングの BERT 推論の高速化

リンク: https://arxiv.org/pdf/2105.13878.pdf

github: https://github.com/LeeSureman/Sequence-Labeling-Early-Exit

Bert などの一連の事前トレーニング済みモデルは、ダウンストリーム タスクで優れたパフォーマンスを発揮しますが、計算コストは​​比較的大きくなります。その結果、工学的使用の制限は比較的大きくなります。この問題を解決するために、プルーニング、知識の蒸留、早期退職メカニズムなどのモデル圧縮の一連の方法が提案されています。その中で、早期終了メカニズムは、一部のサンプルが比較的浅い層で正しい結果を得ることができ、その後、これらのサンプルのトレーニングを終了できるため、推論が加速されるというものです。この論文では、配列アノテーションに早期終了メカニズムを適用し、SENTence-level Early-Exit (SENTEE) と TOKen-level Early-Exit (TOKEE) を提案します。

配列ラベリングの早期終了

早期退出とは、不確実性、不確実性の計算を計算して終了するかどうかを決定することです。

そのうち、p_{n}^{l}n 番目のトークンのラベル確率です。

SENTEE: センテンス レベルの Early-Exi

SENTEE の不確実性計算は、シーケンス内のすべてのトークンの最大値を文全体の不確実性\mu_{l}として.\mu _{l}<\sigmaの場合、l層.

 TOKEE: トークンレベルの Early-Ex

SENTEE で単純なトークンが早期に終了できないメカニズムを解決するために、TOKEE が提案されています。TOKEE は、周囲のトークン情報の最大値を現在のトークンの不確定値として使用します。

Halt-and-Copy は、早期終了トークンの表現を上位層に直接コピーします。トレーニングと推論の間の矛盾に対処するために、セルフサンプリングが導入されました。

実験

異なるデータの結果

SENTEEとTOKEEの速度比較

結論

この論文では、推論を高速化するシーケンスアノテーションの早期終了メカニズムである SENTEE と TOKEE を提案します。

おすすめ

転載: blog.csdn.net/rucieryi369/article/details/124760361