Transformer モデルの一般的な特殊記号

Transformer モデルの一般的な特殊記号

コードを通して、Transformer モデルの一般的な特殊記号を理解しましょう。

サンプルコード、

special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}

このコードは、次のキーワードのトークンを含む辞書special_tokensを定義します。

unk_token: 未知の単語トークン。語彙にない単語を置換するために使用されます。
sep_token: 文を区切るために使用される区切り文字トークン。
Pad_token: パディング トークン。シーケンスを同じ長さにパディングするために使用されます。
cls_token: 分類タスクに使用される分類トークン。
Mask_token: マスク トークン。一部の単語をマスクするために使用されます。
これらのトークンの具体的な意味と機能は次のとおりです。

[UNK] は、未登録の単語、つまりモデル語彙にない単語がこのトークンに置き換えられることを意味します。
[SEP] は 2 つの文を分けるなど、文を分割する場合に使用します。
[PAD] はパディング トークンであり、文を同じ長さにパディングするために使用されます。
[CLS] は分類タスクに使用される分類トークンであり、文の先頭に追加され、このトークンの表現によって分類されます。
[MASK] はマスク トークンであり、いくつかの単語をマスクし、マスクされた単語をモデルに予測させるために使用されます。
これらは、Transformer モデルの共通の特殊シンボルであり、特定のセマンティクスを表すために NLP タスクを実行するときに、これらの特殊トークンを追加する必要があります。

終わり!

おすすめ

転載: blog.csdn.net/engchina/article/details/132815033