关于对pre-trained模型的使用和理解 - 代码天地

关于对pre-trained模型的使用和理解

其他 2018-05-30 16:37:39 阅读次数: 0

现在有很多在Imagenet等数据集上训练的很好的模型，当我们使用相同的网络结构时可以直接拿来调用，而不必花很多时间你去从头造轮子，毕竟这些训练好的模型已经是各个数据集的老死机了。

下面我将我自己对与训练模型的使用场景做一个简单的理解：

1. 当数据集小的时候：

A、相似度高：如果训练数据和pretrained model所用的数据相似度较高的时候，我们不需要从头造轮子，只需要修改最后的输出的softmax即可，采用已经训练好的结构来提取特征。

B、相似度低：如果训练数据和pretrained model所用的数据相似度较低，假设网络一共有n层，我们可以冻结预训练模型中的前k个层中的权重，然后重新训练后面的n-k个层，并修改最后一层的分类器的输出类即可。因为数据的相似度不高，重新训练的过程就变得非常关键。而新数据集大小的不足，则是通过冻结预训练模型的前k层进行弥补。（相似度不高的时候重新训练是很有必要的，而冻结前K层的原因是为了弥补训练数据量不充足，当然了数据量不足可以采取数据增强方法，比如：对称，旋转，随机切，扭曲等等）

2.当数据集大的时候：

A、相似度高：这个是非常好也非常难得的情况，此时只要采用pretrained模型不需要改变任何参数即可，即保持模型原有的结构和初始权重不变，随后在新数据集的基础上重新训练。

B、相似度低：因为我们有一个很大的数据集，所以神经网络的训练过程将会比较有效率。然而，因为实际数据与预训练模型的训练数据之间存在很大差异，采用预训练模型将不会是一种高效的方式。因此最好的方法还是将预处理模型中的权重全都初始化后在新数据集的基础上重头开始训练。

猜你喜欢

转载自blog.csdn.net/gbyy42299/article/details/78977826

关于对pre-trained模型的使用和理解

pre-trained的理解

FaceNet pre-trained模型以及FaceNet源码使用方法和讲解

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：在不同任务中使用GPT

Pre-trained ViT 合集

Pre-trained models fo HumanPose Estiamtion

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：基础知识

【LLM系列之GPT】GPT（Generative Pre-trained Transformer）生成式预训练模型

大语言模型处理时间序列：Time-Series Forecasting with Pre-Trained LLMs

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-3与Few-shot Learning

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-2与Zero-shot Learning

【Pytorch】在修改后的网络结构上加载Pre-trained模型以及Fine-tuning

论文阅读：Pre-trained Models for Natural Language Processing: A Survey 综述：自然语言处理的预训练模型

IJCAI2023 | A Systematic Survey of Chemical Pre-trained Models（化学小分子预训练模型综述）

Using pre-trained word embeddings in a Keras model

Pre-trained Convolutional Neural Network学习笔记

论文阅读 | Pre-trained Models for Natural Language Processing: A Survey

Pre-trained Models for Natural Language Processing: A Survey

chatGTP的全称Chat Generative Pre-trained Transformer

springboot整合Chat Generative Pre-trained Transformer

超分算法IPT：Pre-Trained Image Processing Transformer

ChatGPT 精简总结：Chat Generative Pre-trained Transformer

BioGPT: generative pre-trained transformer for biomedical text generation and mining

RGB-D object recognition and pose estimation based on pre-trained convolutional neural network 阅读记录

Darknet: Open Source Neural Networks in C - Classifying With Pre-Trained Models

深度学习之---为什么pre-trained会起作用

TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation

论文阅读 | ACL2019 Exploring Pre-trained Language Models for Event Extraction and Generation

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

END-TO-END NAMED ENTITY RECOGNITION AND RELATION EXTRACTION USING PRE-TRAINED LANGUAGE MODELS

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)