若一个单词被拆分成多少token, word_ids得到的序号是相同的？还是序号累加的？

编程语言 2023-06-05 11:09:06 阅读次数: 0

目录

问题描述：

问题实现：

问题描述：

在使用tokenizer进行编码的时候，经常会存在word被拆分成多个token的情况，不同的参数设置，会得到不同的结果。总的来说，得到的word_ids会有两种，一种是每一个子token是相同的序号；

[0, 1, 2, 3, 4, 4, 5, 6, 7, 8, 8, 9, 10, 11, 12, 13]

另一种是不区分子token,序号依次累加。

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]

根据自己的需求，使用不同的方法，下面是两种具体的方法

问题实现：

方法一：

单词拆分，序号依次累加

from transformers import AutoTokenizer
file = "/home/qtxu/PLM/bert-base-uncased" # 模型地址
tokenizer = AutoTokenizer.from_pretrained(file)
text = "this is a test sentence X-T X-U ."
max_len = 20
token_output  = tokenizer(text, max_length=max_len - 1, pad_to_max_length=True) # 默认add_special_tokens=True,即加CLS和SEP
print(token_output.word_ids())

运行结果：

可以看出，tokenizer对text进行了分词处理，但word_ids()的序号是依次累加的，单纯的从word_ids（）结果来看，并不能知道哪个单词被拆分了。

注意：
如果原始单词，被拆分成若干个子token，没一个token不是独立的单词，则也不会累加，保持同样的数字序号。累加仅限于拆分成的若干子token也是独立的单词。

方法二：

单词拆分，序号不累加，同一个word的子token保持相同的序号

from transformers import AutoTokenizer
file = "/home/qtxu/PLM/bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(file)
text = "this is a test sentence X-T X-U ."
max_len = 20
token_output  = tokenizer(text.split(" "), max_length=max_len - 1, pad_to_max_length=True, is_split_into_words=True)
print(token_output.word_ids())

运行结果：

从

运行结果可以看出，tokenizer对text进行了分词处理。同一个word的序号是相同的，通过word_ids()序号，就可以定位到被拆分的单词。

！！！

仔细看，区别仅仅是一行代码的区别。倒数第二行，具体的，

方法一传入的是str型的text

方法二传入的是list型的text

猜你喜欢

转载自blog.csdn.net/weixin_41862755/article/details/130037066

若一个单词被拆分成多少token, word_ids得到的序号是相同的？还是序号累加的？

excel怎样把一列中有相同的数据编同一个序号，不同商品的序号要递增

如何得到连续序号

讲一个list拆分成n个list

把一个excel拆分成多个工作表

python将一个组数分成几个相同元素的数组，末位少了不补齐

给类对象添加一个随机生成序号

查询结果前添加一个序号

用一个变量表示 ----------"序号,名称,价格"

使用PPT编写一个序号抽奖

vue 实现自定义序号，并且翻页序号累加。

LeetCode 最后一个单词的长度（Length of Last Word）

length-of-last-word 最后一个单词的长度

[leetcode]最后一个单词的长度（Length Of Last Word）

LeetCode——Length of Last Word（最后一个单词的长度）

PDF拆分工具怎么用？如何把一个PDF文件拆分成多个

如何把一个pdf拆分成多个？分享pdf拆分的详细教程

element-ui 表格数据根据某一列值相同进行行合并（包括序号列）并同列相同值进行合计

vue 中 table序号列翻页累加

eclipse中选中一个单词让其它相同的单词也被选中

写了一个逻辑，把一个list拆分成指定大小的多个list

Sql server将正整数区间拆分成一个一个的数

PHP 拆分文字，将一串文字拆分成一个一个的文字

Word Break 单词拆分

将List集合中相同属性的数值累加得到一条合计数据

pyspark dataframe将一行分成多行并标记序号(index)

将一个正整数L随机拆分成n个正整数

react.js 将TodoList拆分成一个个组件

mysql将一个表拆分成多个表(一)(转载)

list转换map(根据key来拆分list,相同key的value为一个list)

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

Python模块之shelve

勇于承担责任

Hikyuu 1.1.0 发布，量化交易研究框架

字节跳动Java3面“凉凉”~不负韶华，努力复习备战“金三银四”

Linux下静态链接库与动态链接库的区别

spring boot架构改造

怎么理解AOP

文件不同步 --本地和eclipse

在linux配置nginx负载均衡

Linux Shell基础命令

每日归档

更多

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)