大模型：如何利用旧的tokenizer训练出一个新的来？ - 代码天地

大模型：如何利用旧的tokenizer训练出一个新的来？

企业开发 2023-09-30 00:35:58 阅读次数: 0

背景：

我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。

训练一个合适的tokenizer是训练大模型的基础，我们既可以从头开始训练一个全新的tokenizer，也可以利用旧的tokenizer训练出一个新的来，今天就让我们看看如何来以旧换新。

第一步：数据准备

不管是训练大模型，还是训练tokenizer，首先都需要我们准备数据集：

from datasets import load_dataset
#加载数据集
raw_datasets = load_dataset("code_search_net", "python")

#写一个迭代函数，分配加载数据，防止数据集太大导致内存溢出
def get_training_corpus():
    return (
        raw_datasets["train"][i : i + 1000]["whole_func_string"]
        for i in range(0, len(raw_datasets["train"]), 1000)
    )


training_corpus = get_training_corpus()

第二步：训练

#加载旧的tokenizer
old_tokenizer = AutoTokenizer.from_pretrained("gpt2")
#进行训练
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

第三步：保存

tokenizer.save_pretrained("code-search-net-tokenizer")

第四步：使用

tokenizer = AutoTokenizer.from_pretrained("huggingface-course/code-search-net-tokenizer")

总结：

1、利用AutoTokenizer.train_new_from_iterator()可以很轻松的使用我们自己的数据集来根据旧的tokenizer来训练出一个全新的tokenizer

2、如果我们需要的语言中没有可用的大语言模型，或者我们要预测的数据集与我们选择的大语言模型训练的数据集非常不同，我们就需要使用适合我们的数据的tokenizer从头开始重新训练模型。

猜你喜欢

转载自blog.csdn.net/duzm200542901104/article/details/133039046

大模型：如何利用旧的tokenizer训练出一个新的来？

如何利用Keras训练好的.h5模型来测试一个实例

【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

深度学习如何训练出好的模型

利用uvicorn、Starlette和pipeline将一个训练好的大模型发布成一个web服务

如何训练一个语言模型？

[多图，秒懂]如何训练一个“万亿大模型”？

如何在自己电脑上开发训练一个专业的大语言模型ChatGPT

【经验帖】深度学习如何训练出好的模型

如何利用Dockerfile文件构建一个新镜像

如何训练一个属于自己的AI模型

如何训练一个更好的语言模型

如何从零训练一个语言模型

【腾讯云 Cloud Studio 实战训练营】一个新的趋势已来

如何利用Simulink来设计一个AEB的算法，并通过SCANeR仿真来测试？

如何评测一个大语言模型？

利用PyPlot对Gensim中LsiModel训练出的模型进行可视化

以 Python 的编程语言，结合 TensorFlow 2.0 和 Keras 的 API 来展示如何构建和训练一个简单但是功能强大的 DRL 模型

SF21 | 利用PSY指标，我们来开发一个短线模型？

spaCy的方法进行训练一个新的招投标实体标注模型

模型训练到一个新batch时会被killed【原因以及解决方法】

如何进行迁移学习？迁移学习（Transfer Learning）是机器学习的一个重要研究方向。迁移学习旨在利用已有的知识或技能对新的任务进行快速地学习，从而避免重新训练一个神经网络。它可以帮助模型解决

利用keras框架搭建一个简单CGAN模型，制作一个数据集用作训练

python使用训练出的caffemodel模型

从零开始训练一个GPT大语言模型

训练一个专门捣乱的模型

如何利用Docker来部署一个go web应用程序

如何利用spring框架来开发一个简单的小项目——书店项目

大模型训练加速(FlashAttention): 用于训练LLM的GPU加速的一个进展-PART2

训练大模型的九大深度学习库，哪一个最适合你？

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)