【数据增强】彻底搞懂数据增强做了哪些工作？ - 代码天地

【数据增强】彻底搞懂数据增强做了哪些工作？

编程语言 2023-07-01 13:38:51 阅读次数: 0

数据增强是数据预处理中的常用技巧。
例如使用图像增强技术来增加训练集的样本数量，从而提高模型的泛化能力。如以下代码所示：

train_gen = ImageDataGenerator(
    zoom_range=0.1,#随机缩放图像的范围
    rotation_range=10,#随机旋转图像的角度范围
    rescale=1./255,#对输入图像进行缩放的因子
    shear_range=0.1,#随机剪切图像的范围
    horizontal_flip=True,#随机水平翻转图像的概率
    width_shift_range=0.1,#随机水平平移图像的范围
    height_shift_range=0.1,#随机垂直平移图像的范围
)
train_generator = train_gen.flow_from_dataframe(
    dataframe=train_set,#train_set原始数据
    x_col='train_image_path',
    y_col='label',
    target_size=(200,200),
    class_mode='binary',
    batch_size=128,
    shuffle=False
)
print(len(train_generator))

`Q1`：数据增强的对象？

A1：通常情况下，数据增强是只针对训练集进行的，而验证集和测试集的数据不进行增强。
数据增强的主要目的是增加训练集的样本数量，从而提高模型的泛化能力和鲁棒性。在训练过程中，使用数据增强技术来生成更多的训练样本，并将其用于模型的训练。这样，模型就可以学习到更多的样本特征，从而提高其泛化能力和鲁棒性。
而验证集和测试集主要作用是评估模型的性能，如果对这些数据也进行增强，就会导致评估结果失真。此外，验证集和测试集的数据应该是从真实场景中抽样得到的，如果对其进行增强，就可能会导致模型在真实场景中的表现不如预期。

`Q2`：数据增强时候设置的`batchsize`和模型训练时中的`batchsize`需要相等吗?

A2：不需要相等，它们是独立的参数。
在使用 ImageDataGenerator 类时，我们可以通过设置 batch_size 参数来指定每个生成的批次中包含的样本数量，影响的是数据生成的速度。
而在使用 fit() 方法训练模型时，我们需要指定训练数据集的 batch_size，以控制每个训练批次中包含的样本数量，影响的是训练速度。

`Q3`：为什么说数据增强可以增加训练样本数量，而在执行完数据增强后没有将其与原始训练样本合并？

A3：本质上是可以合并的，但是合并后的结果是一个静态的DataFrame类型的对象，它包含了所有的图像数据和标签信息，需要一次性将所有的数据载入内存中。与train_generator生成器相比，这种方法需要较多的内存空间，并且可能会降低模型训练速度。一般不采取合并这种方式，因为train_generator就可以实现数据量扩增。
首先了解train_generator生成器这个东西！该生成器负责在训练过程中动态地生成经过增强后的图像数据和标签信息。什么是动态呢？即train_generator生成器在模型训练过程中才会发挥作用，伴随着每个epoch的进行，会生成一批又一批的数据，不需要事先将所有数据载入内存中。
至于每个epoch使用的训练集数量取决于设置的batchsize（如50个）和step_per_epoch（如100个），所以每个epoch使用的训练集数量（即为5000个）一般会大于原始训练集数量（如1000个）。如果没有设置step_per_epoch，则默认一个epoch数据量和原始数据量相同。

`Q4`：数据增强后的数量会大于原始数据集数量，所以一个epoch中的数据中有重复的吗？不同epoch的数据集一样吗？

A4：不一定。第一个是因为对于单张图片，ImageDataGenerator对象会随机选择一些变换操作，而不是对每个图片都执行所有变化操作。
第二个是因为在每个epoch中，train_generator生成器会动态地从原始训练集(train_set)中生成新的训练样本，并将其用于模型训练。根据ImageDataGenerator对象生成数据的随机性，每个epoch中所生成的数据样本会不同，从而增加训练集的样本数量和多样性，提高模型的泛化能力。

猜你喜欢

转载自blog.csdn.net/weixin_44820505/article/details/131424319

【数据增强】彻底搞懂数据增强做了哪些工作？

数据增强有哪些方法

数据增强

『数据增强』yolov5 数据增强与红外数据增强

【数据增强】亮度/对比度增强

数据增强及预处理

Tensorflow数据增强

数据源增强

图像的数据增强

数据增强利器--Augmentor

数据增强方法总结

数据增强(Data Augmentation)

Data augmentation 数据增强

深度学习数据增强

图像数据增强实战

imgaug数据增强实例

TF数据增强

图像数据增强

Pytorch - 数据增强

Keras数据增强

数据增强（一）

Keras之数据增强

imgaug-数据增强

resnet的训练（数据增强）

数据库增强

NLP中的数据增强

数据增强笔记

数据增强方法

python 数据增强

数据增强——图像旋转

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)