LLM：SentencePiece（词表扩充必备工具） - 代码天地

LLM：SentencePiece（词表扩充必备工具）

业界资讯 2023-08-12 18:25:19 阅读次数: 0

背景

随着ChatGPT迅速出圈，最近几个月开源的大模型也是遍地开花。目前，开源的大语言模型主要有三大类：ChatGLM衍生的大模型（wenda、ChatSQL等）、LLaMA衍生的大模型（Alpaca、Vicuna、BELLE、Phoenix、Chimera等）、Bloom衍生的大模型（Bloomz、BELLE、Phoenix等）。其中，ChatGLM-6B主要以中英双语进行训练，LLaMA主要以英语为主要语言的拉丁语系进行训练，而Bloom使用了46种自然语言、13种编程语言进行训练。

模型	训练数据量	模型参数	训练数据范围	词表大小	分词算法	分词器（Tokenizer）后端
LLaMA	1T～1.4T tokens(其中，7B/13B使用1T，33B/65B使用1.4T)	7B～65B	以英语为主要语言的拉丁语系	32000	BBPE	基于SentencePiece工具实现
ChatGLM-6B	约 1T tokens	6B	中英双语	130528	BBPE	基于SentencePiece工具实现
Bloom	1.6TB预处理文本

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/132248345

LLM：SentencePiece（词表扩充必备工具）

大模型词表扩充必备工具SentencePiece

LLM-大模型训练-步骤(一)：词表扩充【sentencepiece】

学IT必备的单词表（部分）

大语言模型之十二 SentencePiece扩充LLama2中文词汇

使用自己的领域数据扩充baichuan模型词表（其他模型也一样）

Llama2-Chinese项目：2.2-大语言模型词表扩充

NLP-分词器：SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】

中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码

、的扩充

2020超实用提升英文阅读能力和必备3000单词表

sentencePiece入门小结

ModuleNotFoundError: No module named ‘sentencepiece‘

BPE、WordPiece和SentencePiece

开发拓展篇 1：扩充你的开发工具

【工具脚本】对目标检测VOC格式的数据进行扩充

使用Ubuntu系统中的gparted工具对Ubuntu磁盘扩充

mac 必备工具

ubuntu必备工具安装

系统必备工具

Windows常用必备工具

必备工具清单

JAVA开发必备工具

渗透必备工具-BurpSuite

geek必备工具列表

前端开发必备的工具

接口测试必备工具

开发必备工具（备忘）

Android开发必备工具

【开发必备工具】

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

慧测学习课件

Mscordacwks.dll/SOS.dll 调试归档

关于深度学习人工智能模型的探讨（二）（7）

Stop Using the text-indent:-9999px

Least Common Multiple（HDU - 1019 ）

Comparator接口的使用方法--例子

修改framework Camera的API,旋转摄像头

机器学习时代的“大数据+”：数据平台的设计与搭建

vue 项目部署到nginx

webstorm 常用插件集合

每日归档

更多

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)