LLM-大模型训练-步骤(一)：词表扩充【sentencepiece】

业界资讯 2023-06-25 04:59:09 阅读次数: 0

GitHub项目：Chinese-LLaMA-Alpaca

由于原版LLaMA对中文的支持非常有限，本项目在原版LLaMA的基础上进一步扩充了中文词表。

在通用中文语料上训练了基于sentencepiece的20K中文词表并与原版LLaMA模型的32K词表进行合并
排除重复的token后，得到的最终中文LLaMA词表大小为49953
需要注意的是，在fine-tune阶段Alpaca比LLaMA多一个pad token，所以中文Alpaca的词表大小为49954

更多关于中文词表扩充的动机，可参考FAQ。如果欲了解扩充词表的具体方法，或者使用自己的词表对LLaMA tokenizer进行扩充，我们提供了代码

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/131367953

LLM-大模型训练-步骤(一)：词表扩充【sentencepiece】

大模型词表扩充必备工具SentencePiece

LLM：SentencePiece（词表扩充必备工具）

LLM-大模型训练-步骤(三)：指令精调【Superviser Fine-Tuning】【中文指令语料】【训练方式与无监督学习一样】【指令语料样式：instruction+input+output】

LLM-大模型训练-常见错误：RuntimeError: expected scalar type Half but found Float

LLM-大模型训练-步骤(二)-预训练/Pre-Training(1)：全参数预训练(Full-Param Pre-Training)【对LLaMA等模型进一步全量参数预训练】【中文无监督学习语料】

LLM-大模型训练-步骤(二)-预训练/Pre-Training(2)：重参数式预训练(Part-Param Pre-Training)【Lora/ptuning...】【中文无监督学习语料】

LLM-项目详解-KnowLM：信息抽取大模型

大模型LLM-微调经验分享&总结

大语言模型之十二 SentencePiece扩充LLama2中文词汇

Llama2-Chinese项目：2.2-大语言模型词表扩充

大模型LLM训练的数据集

使用自己的领域数据扩充baichuan模型词表（其他模型也一样）

NLP-分词器：SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】

中文LLaMa和Alpaca大语言模型开源方案 | 扩充中文词表 & 针对中文语料进行高效编码

训练大语言模型的步骤

大语言模型之十 SentencePiece

大模型训练加速(FlashAttention): 用于训练LLM的GPU加速的一个进展-PART2

LLM大模型训练Trick系列之拒绝采样

GPT实战系列-大话LLM大模型训练

LLM - 大模型技术报告与训练细节 By Baichuan2

大语言模型(LLM)综述(一)：大语言模型介绍

大模型(LLM)总结

大语言模型LLM

LLM：大语言模型

大语言模型(LLM)综述(三)：大语言模型预训练的进展

大语言模型(LLM)综述(四)：如何适应预训练后的大语言模型

一文读懂：LoRA实现大模型LLM微调

逆转诅咒｜大模型的最大BUG！A=B 训练的大模型LLM无法学会 B=A？国内模型说可以...

LLM：大模型的正则化

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)