关于gpt2生成的训练验证 - 代码天地

关于gpt2生成的训练验证

企业开发 2023-07-22 21:57:41 阅读次数: 0

代码地址：GPT2-Chinese: 中文的GPT2训练代码，可以写诗，新闻，小说，或是训练通用语言模型 (gitee.com)

其中代码的分词部分直接使用的是按字分词

gpt2生成的结果与bert类似。gpt2使用了隐藏层的最后一层的最后一个序列作为对下一个token的预测基础

再此基础上，通过增加nn.Linear(config.n_embd, config.vocab_size, bias=False)来进行维度和token字库数量保持一致

关于在输出词的选择上，并非直接使用最大概率的token作为预测结果，而是使用如下内容：

torch.multinomial(F.softmax(filtered_logits, dim=-1), num_samples=1)进行概率分布式的预测。即增加了随机性，由对返回的概率加权使用。后续根据使用情况做进一步的判断。目前对已经被分享出来的模型效果满意度不是很高。而对于下一步要验证的内容，很难收集到相关的数据，有点限于停止。郁闷半分钟

跟人对于gpt2/gpt3等总结：在大数据量的训练下，模型的各个任务都会产生互补式的效果叠加。原因是一位大神的结论：数据的特征天然就存在于数据本身，和任务无关。这也是模型在学会了一个任务后对其他任务也是有很大的帮助。

但是其对应的前提条件是数据量够大。在数据量有限的情况下，小公司或许更应该专注于小模型的垂直开发，或基于已经开源的通过模型的二次调优。

猜你喜欢

转载自blog.csdn.net/sslfk/article/details/129148364

关于gpt2生成的训练验证

gpt2中文训练教程-gpt2文本生成

GPT和GPT2

训练自己的GPT2模型（中文），踩坑与经验

GPT2训练自己的对话问答机器人

使用GPT-4生成训练数据微调GPT-3.5 RAG管道

详细理解GPT2模型结构及其训练过程—GPT系列训练与部署

ColossalAI GPT2分布式训练调试配置—GPT系列训练与部署

GPT系列训练与部署——GPT2环境配置与模型训练

GPT2模型详解

DeepSpeed结合Megatron-LM训练GPT2模型笔记（上）

GPT2中文文本生成对话应用尝试

学习如何使用GPT2进行文本生成（torch+transformers）

带有超详细注释的GPT2 新闻标题生成项目

GPT2模型代码学习笔记

GPT2计算流程详解

10-1验证码生成+10-2生成tfrecord

使用GPT-4生成QT代码

struts2生成登陆验证码

struts2生成随机验证码图片

laravel 5.5生成验证码及验证

GPT系列学习笔记：GPT、GPT2、GPT3GPT系列学习笔记：GPT、GPT2、GPT3

使用深度学习模型创作动漫故事，比较LSTM和GPT2的文本生成方法

chatgpt3中文辅助写作-gpt2中文文本生成

word2vec,transformer,gpt2 and bert

大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解

laravel5.4生成验证码

Html5生成验证码

.NET Core 2.0生成图片验证码

1.无聊，拿GPT2写写诗!

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)