使用方法はモデル - ハグフェイスモデルでご覧ください。
1: 統一された使用方法を見つけるには
ワープロのAutoTokenizerも同様で、機種名が異なる場合があります。具体的な操作は以下の通りです。
1. まず、モデルの下で必要なモデルを見つけて、「開く」をクリックします。
2. 右端の「Transformers で使用」をクリックします。
2: このモデルの使用方法を確認する方法
使用方法の一番下にスライドすると、これが pytorch の使用方法であり、他の説明もあります。
文字列名にはパスを指定できます。
同様に、テキスト操作は次のようになります。
排他的な名前付けの方法は一般的に次のとおりです。
トークナイザーの命名:「モデル名 + トークナイザー」
画像処理ネーミング:モデル名+ImageProcessor
モデル名の命名:「モデル名+Modal」
このネーミングは会社に関連したものなので、公式サイトで必要なモデルを直接選択して使用するのが最善です。
3: 2 つの方法の結果は同じです
# -------------------- 使用 RobertaTokenizer ---------------
tokenizer = RobertaTokenizer.from_pretrained(pretrained_model_path)
inputs = tokenizer("对比原始的分词和最新的分词器", return_tensors="pt")
print(inputs['input_ids'])
# -------------------- 使用 AutoTokenizer ---------------
auto_tokenizer = AutoTokenizer.from_pretrained(pretrained_model_path) # 使用一样的
auto_inputs = auto_tokenizer('对比原始的分词和最新的分词器', return_tensors='pt')
print(auto_inputs['input_ids'])
出力は同じです。