1. La importancia del procesamiento de normalización de datos.
Los conjuntos de datos de múltiples características a menudo encuentran tales problemas. Los rangos de valores de diferentes características a menudo son muy diferentes e incluso hay diferencias en órdenes de magnitud. Esto probablemente conducirá a una reducción en la precisión del algoritmo de aprendizaje profundo, por lo que data Tiene sentido realizar la normalización.
2. Métodos de normalización comunes
2.1 Normalización mín.-máx.
Ejemplo: x ′ = x − min ( x ) max ( x ) − mix ( x ) x^{'} = \frac{x - min(x)}{max(x)-mix(x)}X′=máximo x ( x )−mezclar x ( x )X−mín ( x )
Este es un método de mapeo lineal que mapea linealmente los datos originales al rango de [0 1], donde X son los datos originales;
Es más adecuado para situaciones en las que los valores numéricos están relativamente concentrados;
Desventaja: si el máximo y el mínimo son inestables, es fácil hacer que el resultado de la normalización sea inestable;
2.2 normalización de puntuación z
Ejemplo: x ∗ = x − μ σ x^{*} = \frac{x - \mu}{\sigma }X∗=pagX−metroEntre ellos, μ y σ son la media y la varianza de los datos originales, respectivamente.
Normalice los datos originales a datos con media 0 y varianza 1;
Este método requiere que la distribución de los datos originales sea aproximadamente gaussiana; de lo contrario, el efecto de normalización será muy malo.
3. Utilice sklearn para lograr la normalización.
Crear datos de prueba
# 创建数据import pandas as pd
import numpy as np
x=np.random.randint(1,1000,(10000,5))
x=pd.DataFrame(x)print(x)
Ver la media y la varianza de los datos originales.