Pytorch中的model. train()和model. eval() - 代码天地

Pytorch中的model. train()和model. eval()

企业开发 2023-05-18 05:39:42 阅读次数: 0

训练完一个epoch，我们可能会生成模型来进行测试。在测试之前，需要加上model.eval()，否则的话，即使不训练，模型的权值也会改变。这是因为模型中有Batch Normalization层和Dropout层。

model.train()和model.eval()

我们知道，在pytorch中，模型有两种模式可以设置，一个是train模式、另一个是eval模式。

model.train()：的作用是启用 Batch Normalization 和 Dropout。在train模式，Dropout层会按照设定的参数p设置保留激活单元的概率，如keep_prob=0.8，Batch Normalization层会继续计算数据的mean和var并进行更新。

model.eval()：的作用是不启用 Batch Normalization 和 Dropout。在eval模式下，Dropout层会让所有的激活单元都通过，而Batch Normalization层会停止计算和更新mean和var，直接使用在训练阶段已经学出的mean和var值。在使用model.eval()时就是将模型切换到测试模式，在这里，模型就不会像在训练模式下一样去更新权重。但是需要注意的是model.eval()不会影响各层的梯度计算行为，即会和训练模式一样进行梯度计算和存储，只是不进行反向传播。

# 针对BN层：
model.train() # 是保证BN层用每一批数据的均值和方差，即针对每个mini-batch的 ；
model.eval()  # 是保证BN用全部训练数据的均值和方差，即针对单张图片的；
# 针对Dropout层
model.train() # 随机取一部分网络连接来训练更新参数；
model.eval()  # 利用到了所有网络连接；

model.eval()和torch.no_grad()

在讲model.eval()时，其实还会提到torch.no_grad()。

torch.no_grad()：用于停止autograd的计算，能起到加速和节省显存的作用，但是不会影响Dropout层和Batch Normalization层的行为。

如果不在意显存大小和计算时间的话，仅仅使用model.eval()已足够得到正确的validation的结果；而

with torch.zero_grad()：则是更进一步加速和节省gpu空间。因为不用计算和存储梯度，从而可以计算得更快，也可以使用更大的batch来运行模型。

详细分析，可以看一下：【PyTorch】搞定网络训练中的model.train()和model.eval()模式 - 知乎

猜你喜欢

转载自blog.csdn.net/ytusdc/article/details/128523707

Pytorch中的model. train()和model. eval()

Pytorch中的 model.train() 和 model.eval() 模式

pytorch中model.train()和model.eval()的区别

Pytorch model指定train/eval

model.eval()和model.train()

Pytorch——model.train 和 model.eval

Pytorch model.train model.eval

pytorch中model.train()，model.eval() 和 torch.no_grad()的区别

Segment Model.

【pytorch】pytorch中model.eval的作用

pytorch dropout || model.train() || model.eval()

Pytorch 训练和测试时记得加 model.train 和 model.eval

pytorch:model.train和model.eval用法和区别

model.train() && model.eval()

【pytorch】model.train和model.eval用法及区别详解

模型训练时使用的 model.train() 和模型测试时使用的 model.eval()

model.train() 和 model.eval()分别是什么

submit form to convert to a Java Bean model.

[Pytorch系列-38]：工具集 - torchvision预定义模型的两种模式model.train和model.eval的表面和本质区别

【语义分割】Tensorflow deeplab的train，eval， vis，export_model

PyTorch使用技巧3：简单理解nn.Sequential()、super().__init__()、__call__、model.train()、model.eval()和前后传播

Pytorch的modle.train，model.eval，with torch.no_grad的个人理解

Pytorch中的train和eval用法注意点

模型--model 中eval函数的用法

model.eval()和with torch.no_grad()

URDF/COLLADA file is not a valid robot model.解决方法

js中的eval和with

Pytorch的net.train 和 net.eval的使用

model.train()、model.eval()、optimizer.zero_grad()、loss.backward()、optimizer.step作用及原理详解【Pytorch入门手册】

关于pytorch当中的model.eval()和requires_grad=False

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)