机器学习笔记 - 一种估算模型训练所需的样本量的方法

企业开发 2023-06-18 20:32:26 阅读次数: 0

一、简述

高质量和足够多的数据是开发任何机器学习模型的基础。在缺乏对特定系统建模所需的最佳数据量的事先估计的情况下，数据收集最终要么产生太少而无法进行有效培训，要么产生太多导致资源的浪费。

我经常被问到这个场景需要多少图像，通常我都会根据场景的复杂程度给出一个估计的范围，但是需要多少数据这个问题很难直接回答出一个数量出来，因为需要的数据量既取决于问题的复杂性，也取决于所选算法的复杂性。

但在许多实际场景中，可用于训练深度学习模型的图像数据量十分有限。如果我们能够相对准确的估算出所需的样本数量，将会节省许多人力、物力成本。

实际上有不少研究人员提出了很多估计的方法，用于估计达到最佳模型性能所需的图像数量，这里我们了解其中一种。

二、平衡子采样

这里使用平衡子采样方案来确定我们模型的最佳样本量。这是通过选择由Y个图像组成的随机子样本并使用该子样本训练模型来完成的。然后在一个独立的测试集上对模型进行评估。该过程对每个子样本重复N次，并进行替换，以构建观测性能的平均值和置信区间。

1、导入包

import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
from tensorflow import keras
import tensorflow_datasets as tfds
from tensorflow.keras import layers

# Define seed and fixed variables
seed = 42
tf.random.set_seed(seed)
np.random.seed(seed)
AUTO = tf.data.AUTOTUNE

2、加载数据集

# Spe

猜你喜欢

转载自blog.csdn.net/bashendixie5/article/details/131181148

机器学习笔记 - 一种估算模型训练所需的样本量的方法

机器学习笔记一

机器学习笔记（一）

【机器学习】KNNImputer：一种估算缺失值的可靠方法

深度学习模型训练计算量的估算

机器学习笔记一：关于机器学习

机器学习笔记(一)初识机器学习

机器学习笔记（一）-了解机器学习

机器学习学习笔记（一）

LIME：一种解释机器学习模型的方法

机器学习笔记——线性模型

机器学习笔记-线性模型

在 AI 上训练 AI：ChatGPT 上训练另一种机器学习模型

机器学习笔记一：概述

机器学习基础笔记一

机器学习笔记一：导论

周志华机器学习笔记（一）

Python机器学习笔记一

机器学习笔记一：简介

《机器学习实战》笔记（一）

机器学习入门笔记一

机器学习实战笔记（一）

《机器学习实战笔记》（一）

机器学习课程笔记一

google机器学习笔记（一）

白面机器学习笔记（一）

机器学习课程笔记（一）

机器学习学习笔记（一）机器学习导学

《机器学习》学习笔记（一）——机器学习概述

机器学习训练秘籍_学习笔记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)