SentencePiece：pieces、字节编码、Unicode字符【LLaMA-7b的分词器共32002个piece】【Chinese-LLaMA-Alpaca中文分词器共20000个piece】

业界资讯 2023-08-12 18:25:15 阅读次数: 0

SentencePiece 首先将所有输入转换为 unicode 字符。这意味着它不必担心不同的语言、字符或符号，可以以相同的方式处理所有输入；

空白也被当作普通符号来处理。Sentencepiece显式地将空白作为基本标记来处理，用一个元符号 “▁”（ U+2581 ）转义空白，这样就可以实现简单地decoding；
Sentencepiece 可以直接从 raw text 进行训练；
支持 BPE 和 UniLM 训练方法。

一、Chinese-LLaMA-Alpaca合并分词器代码

"""
词表扩充
－在通用中文语料上训练了基于sentencepiece的20K中文词表并与原版LLaMA模型的32K词表进行合井
－排除重复的token后， 得到的最终LLaMA词表大小为49953
－ 需要注意的是， 在fine-tune阶段Alpaca比LLaMA多一个pad token, 所以中文Alpaca的词表大小为49954
脚本运行方式如下：
python merge_tokenizers.py \ 
--llama_tokenizer_dir llama_tokenizer_dir \ 
--chinese_sp_model_file chinese_sp_model_file
"""

import os
import re
os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"]="python"
from transformers import LlamaToken

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/132249411

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)