Notes d'apprentissage automatique - Un moyen d'estimer la taille de l'échantillon nécessaire pour la formation du modèle

1. Brève introduction

        Des données de haute qualité et suffisantes sont fondamentales pour développer tout modèle d'apprentissage automatique. En l'absence d'une estimation ex-ante de la quantité optimale de données nécessaires pour modéliser un système particulier, la collecte de données finit par produire soit trop peu pour permettre une formation efficace, soit tellement que les ressources sont gaspillées.

        On me demande souvent combien d'images sont nécessaires pour cette scène. Généralement, je donne une estimation de la plage en fonction de la complexité de la scène, mais il est difficile de répondre directement à la question de la quantité de données nécessaires, car la quantité de données requises dépend du problème La complexité de , dépend également de la complexité de l'algorithme choisi.

        Mais dans de nombreux scénarios pratiques, la quantité de données d'image disponibles pour former des modèles d'apprentissage en profondeur est très limitée. Si nous pouvons estimer la taille d'échantillon requise de manière relativement précise, cela économisera beaucoup de main-d'œuvre et de coûts de matériel.

        En fait, de nombreux chercheurs ont proposé de nombreuses méthodes d'estimation pour estimer le nombre d'images nécessaires pour obtenir les meilleures performances du modèle, nous en comprenons ici une.

2. Sous-échantillonnage équilibré

        Un schéma de sous-échantillonnage équilibré est utilisé ici pour déterminer la taille d'échantillon optimale pour notre modèle. Cela se fait en sélectionnant un sous-échantillon aléatoire composé d'images Y et en utilisant ce sous-échantillon pour former le modèle. Le modèle est ensuite évalué sur un jeu de test indépendant. Le processus est répété N fois pour chaque sous-échantillon, avec remise, pour construire la moyenne et l'intervalle de confiance pour la performance observée.

1. Importer le paquet

import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
from tensorflow import keras
import tensorflow_datasets as tfds
from tensorflow.keras import layers

# Define seed and fixed variables
seed = 42
tf.random.set_seed(seed)
np.random.seed(seed)
AUTO = tf.data.AUTOTUNE

2. Charger le jeu de données

# Spe

Je suppose que tu aimes

Origine blog.csdn.net/bashendixie5/article/details/131181148
conseillé
Classement