El parámetro return_tensors en el método tokenize del modelo NLP

El parámetro return_tensors en el método tokenize del modelo NLP

En el método tokenize de muchos modelos de PNL, el parámetro return_tensors puede especificar el tipo de tensor devuelto después de tokenize. Los valores opcionales comunes incluyen:

'tf': Devuelve el objeto tensor de TensorFlow Tensor.
'pt': Devuelve el objeto tensor de PyTorch torch.Tensor.
'np': devuelve un objeto NumPy ndarray.
Ninguno: valor predeterminado, devuelve una lista de números (lista).
Este parámetro puede optar por devolver diferentes tipos de tensor según el marco de back-end utilizado para facilitar la entrada posterior del modelo.

Por ejemplo:

import tensorflow as tf 
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

# 返回TensorFlow张量
tokens = tokenizer("Hello world!", return_tensors='tf') 
print(type(tokens['input_ids'])) # <class 'tensorflow.python.framework.ops.Tensor'>

# 返回PyTorch张量
tokens = tokenizer("Hello world!", return_tensors='pt')
print(type(tokens['input_ids'])) # <class 'torch.Tensor'>

# 返回Numpy数组
tokens = tokenizer("Hello world!", return_tensors='np')
print(type(tokens['input_ids'])) # <class 'numpy.ndarray'>

# 返回列表
tokens = tokenizer("Hello world!") 
print(type(tokens['input_ids'])) # <class 'list'>

Puede ver que, dependiendo de return_tensors, el resultado devuelto por el tokenizador puede ser un objeto TensorFlow/PyTorch/Numpy o una lista predeterminada.

Esto proporciona una gran flexibilidad, lo que permite que la salida de Tokenizer se adapte a diferentes marcos de backend y se pueda optimizar en cuanto a memoria y velocidad.

¡fin!

Supongo que te gusta

Origin blog.csdn.net/engchina/article/details/132816042
Recomendado
Clasificación