pre-trained的理解 - 代码天地

pre-trained的理解

其他 2021-02-01 12:12:30 阅读次数: 0

1.预训练的起源

预训练（pre−training/trained）和微调（fine−tuning）这两个词经常在论文中见到，

你需要搭建一个网络模型来完成一个特定的图像分类的任务。首先，你需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当你觉得结果很满意的时候，你就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是 pre−training。
之后，你又接收到一个类似的图像分类的任务。这时候，你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数，然后在训练的过程中，依据结果不断进行一些修改。这时候，你使用的就是一个pre−trained 模型，而过程就是finetuning。
所以，预训练就是指预先训练的一个模型或者指预先训练模型的过程；微调就是指将预训练过的模型作用于自己的数据集，并使参数适应自己数据集的过程。

2.预训练的作用

在 CNN 领域中，实际上，很少人自己从头训练一个CNN 网络。主要原因是自己很小的概率会拥有足够大的数据集，基本是几百或者几千张，不像ImageNet 有 1200 万张图片这样的规模。
拥有的数据集不够大，而又想使用很好的模型的话，很容易会造成过拟合。所以，一般的操作都是在一个大型的数据集上训练一个模型，然后使用该模型作为类似任务的初始化或者特征提取器。比如 VGG，Inception 等模型都提供了自己的训练参数，以便人们可以拿来微调。这样既节省了时间和计算资源，又能很快的达到较好的效果。

猜你喜欢

转载自blog.csdn.net/weixin_47289438/article/details/113177159

pre-trained的理解

关于对pre-trained模型的使用和理解

Pre-trained ViT 合集

Pre-trained models fo HumanPose Estiamtion

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：在不同任务中使用GPT

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：基础知识

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-2与Zero-shot Learning

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-3与Few-shot Learning

Using pre-trained word embeddings in a Keras model

Pre-trained Convolutional Neural Network学习笔记

论文阅读 | Pre-trained Models for Natural Language Processing: A Survey

Pre-trained Models for Natural Language Processing: A Survey

chatGTP的全称Chat Generative Pre-trained Transformer

springboot整合Chat Generative Pre-trained Transformer

超分算法IPT：Pre-Trained Image Processing Transformer

ChatGPT 精简总结：Chat Generative Pre-trained Transformer

BioGPT: generative pre-trained transformer for biomedical text generation and mining

RGB-D object recognition and pose estimation based on pre-trained convolutional neural network 阅读记录

Darknet: Open Source Neural Networks in C - Classifying With Pre-Trained Models

深度学习之---为什么pre-trained会起作用

FaceNet pre-trained模型以及FaceNet源码使用方法和讲解

TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation

论文阅读 | ACL2019 Exploring Pre-trained Language Models for Event Extraction and Generation

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

END-TO-END NAMED ENTITY RECOGNITION AND RELATION EXTRACTION USING PRE-TRAINED LANGUAGE MODELS

《Sentiment analysis based on improved pre-trained word embeddings》论文阅读笔记

【论文笔记】Enhancing Pre-Trained Language Representations with Rich Knowledge for MRC

Enriching Pre-trained Language Model with Entity Information for Relation Classification 论文研读

Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in GEC翻译

[文献阅读]——AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)