NLP模型的tokenize方法中return_tensors参数 - 代码天地

NLP模型的tokenize方法中return_tensors参数

业界资讯 2023-10-02 20:22:04 阅读次数: 0

NLP模型的tokenize方法中return_tensors参数

在许多NLP模型的tokenize方法中,return_tensors参数可以指定tokenize之后返回的张量类型,常见的可选值包括:

‘tf’: 返回TensorFlow的张量对象Tensor。
‘pt’: 返回PyTorch的张量对象torch.Tensor。
‘np’: 返回NumPy的ndarray对象。
None: 默认值,返回一个数字列表(list)。
这个参数可以根据使用的后端框架不同,选择返回不同的张量类型,以方便后续模型的输入。

例如:

import tensorflow as tf 
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

# 返回TensorFlow张量
tokens = tokenizer("Hello world!", return_tensors='tf') 
print(type(tokens['input_ids'])) # <class 'tensorflow.python.framework.ops.Tensor'>

# 返回PyTorch张量
tokens = tokenizer("Hello world!", return_tensors='pt')
print(type(tokens['input_ids'])) # <class 'torch.Tensor'>

# 返回Numpy数组
tokens = tokenizer("Hello world!", return_tensors='np')
print(type(tokens['input_ids'])) # <class 'numpy.ndarray'>

# 返回列表
tokens = tokenizer("Hello world!") 
print(type(tokens['input_ids'])) # <class 'list'>

可以看到根据return_tensors不同,tokenizer返回的结果可以是TensorFlow/PyTorch/Numpy对象,或者默认的列表。

这提供了很大的灵活性,允许Tokenizer输出适应不同的后端框架,并且可以优化内存和速度。

完结！

猜你喜欢

转载自blog.csdn.net/engchina/article/details/132816042

NLP模型的tokenize方法中return_tensors参数

[NLP] BERT模型参数量

【NLP】常见的tokenize（分词）方式——Byte Pair Encoding (BPE)

CRF模型在NLP中的运用

NLP中的主题模型理解

nlp中的概率图模型

nlp中的经典模型(三)

[NLP]LLM--transformer模型的参数量

【NLP，Huggingface，Colab】使用 Trainer 训练模型，并保存模型参数

Tensors

NLP中的数据增强方法

NLP中的语言模型(language model)

NLP中的CNN和RNN模型对比

NLP中的语言模型预训练&微调

NLP中的预训练语言模型（二）

NLP处理-Spark中的HashTF与CountVectorizer模型

nlp中的经典深度学习模型(二)

nlp中的经典深度学习模型(一)

【NLP】从预训练模型中获取Embedding

深度模型中的优化与参数初始化方法

NLP模型

C 中return语句的使用方法

在JS方法中return返回多个值

NLP 利器 Gensim 中 word2vec 模型添加 model to dict 方法来加速搜索

LSTM 理解LSTM在keras API中参数return_sequences和return_state

理解LSTM在keras API中参数return_sequences和return_state

LSTM在keras中的参数return_sequences和return_state

NLP模型笔记2022-18：GCN/GNN模型在nlp中的使用【论文+源码】

AngularJS学习心得--directive中的return参数

理解Keras LSTM模型中的return_sequences和return_state

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)