NLP モデルの tokenize メソッドの return_tensors パラメーター

NLP モデルの tokenize メソッドの return_tensors パラメーター

多くの NLP モデルのトークン化メソッドでは、return_tensors パラメーターでトークン化後に返されるテンソル タイプを指定できます。一般的なオプションの値には次のものがあります。

'tf': TensorFlow のテンソル オブジェクト Tensor を返します。
'pt': PyTorch の tensor オブジェクト torch.Tensor を返します。
'np': NumPy ndarray オブジェクトを返します。
なし: デフォルト値。数値のリスト (リスト) を返します。
このパラメーターは、後続のモデル入力を容易にするために使用されるバックエンド フレームワークに応じて、さまざまなテンソル タイプを返すように選択できます。

例えば:

import tensorflow as tf 
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

# 返回TensorFlow张量
tokens = tokenizer("Hello world!", return_tensors='tf') 
print(type(tokens['input_ids'])) # <class 'tensorflow.python.framework.ops.Tensor'>

# 返回PyTorch张量
tokens = tokenizer("Hello world!", return_tensors='pt')
print(type(tokens['input_ids'])) # <class 'torch.Tensor'>

# 返回Numpy数组
tokens = tokenizer("Hello world!", return_tensors='np')
print(type(tokens['input_ids'])) # <class 'numpy.ndarray'>

# 返回列表
tokens = tokenizer("Hello world!") 
print(type(tokens['input_ids'])) # <class 'list'>

return_tensor に応じて、トークナイザーによって返される結果は TensorFlow/PyTorch/Numpy オブジェクト、またはデフォルトのリストになることがわかります。

これにより、優れた柔軟性が得られ、Tokenizer の出力をさまざまなバックエンド フレームワークに適応させ、メモリと速度を最適化することができます。

終わり!

おすすめ

転載: blog.csdn.net/engchina/article/details/132816042