03 什么是预训练（Transformer 前奏）

业界资讯 2023-07-23 00:19:17 阅读次数: 0

博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看

配套 github 链接：https://github.com/nickchen121/Pre-training-language-model

配套博客链接：https://www.cnblogs.com/nickchen121/p/15105048.html

预训练有什么用

机器学习：偏数学（《统计学习方法》-李航）

深度学习（人工智能）的项目：大数据支持（主流）

我们很多项目没有大数据支持（小数据）

猫狗分类任务：100 张猫和狗的图片 --》给你一张图片，分出是猫还是狗（无法解决的一个问题，精度很低）

100000 张鹅和鸭的图片（已知，有人做过的，通过这10w 张图片做了一个模型 A）

有人发现，浅层通用的（横竖撇捺）

我通过10w个鹅和鸭训练了一个模型 A，100 层的 CNN

任务 B：100 张猫和狗的图片，分类 --》训练处 100层的 CNN，不可能实现的

尝试使用 A 的前 50 层，使用 100 层去完成任务 B

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y3D9VcIQ-1688809443180)(https://imgmd.oss-cn-shanghai.aliyuncs.com/BERT_IMG/%E9%A2%84%E8%AE%AD%E7%BB%83%E7%9A%84%E5%BA%94%E7%94%A8.jpg)]

冻结：浅层参数不变
微调：浅层参数会跟着任务 B 训练而改变

预训练是什么

通过一个已经训练好的模型 A，去完成一个小数据量的任务 B（使用了模型 A 的浅层参数）

任务 A 和任务 B 极其相似

预训练怎么用

fairseq 、transformers 库

总结

一个任务 A，一个任务 B，两者极其相似，任务 A 已经训练处一个模型 A，使用模型 A 的浅层参数去训练任务 B，得到模型 B，1.

猜你喜欢

转载自blog.csdn.net/linjie_830914/article/details/131614684

03 什么是预训练（Transformer 前奏）

前奏

CSS学习笔记-03- 过渡模块之前奏篇 a标签的伪类选择器

为什么要使用Mybatis ORM框架？前奏三

为什么要使用Mybatis ORM框架？前奏二

为什么要使用Mybatis ORM框架？前奏一

linux前奏

爬虫前奏

django前奏

TypeScript前奏

收藏 | Transformer预训练现状

redhat安装ORALCE前奏！！！

mysql的sql优化(前奏)

python网络爬虫前奏

Java开发前奏

gc回收的前奏

和为0前奏

爬虫前奏(一)

JavaScript基础前奏

大话设计模式前奏

01-开发前奏

Python爬虫前奏

Spring-----AOP前奏

设计模式前奏-模板

爬虫前奏——网络请求

爬虫（1）——爬虫前奏

android混合开发前奏

算法预热前奏篇

AOP前奏动态代理

Rancher前奏--配置Nexus

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)