análisis de datos Task2- minería de datos ()

análisis de datos -Task2, Minería de datos Datawhale cero Fundamentos

Dos, EDA- análisis de datos exploratorio

2.1 objetivo EDA

  • principales radica el valor de la AED en el conjunto familiar de datos para comprender el conjunto de datos, el conjunto de datos para validar el conjunto de datos para determinar la máquina se pueden utilizar para el posterior acceso al aprendizaje o el aprendizaje de profundidad a su uso.

  • Una vez que entendemos la recogida de datos el siguiente paso va a entender que hay una relación entre las variables y la relación entre las variables y el valor predicho.

  • Citados especialistas en la ciencia datos de la guía a las características de procesamiento de datos e ingeniería paso de repente, la estructura y las características del conjunto de datos de manera que el siguiente conjunto de preguntas es una predicción más fiable.

  • Para el análisis exploratorio de datos completa, y algunas cartas o datos de texto y resumen del ponche.

2.2 Introducción

  1. Carga de varios datos y biblioteca de visualización científica:
    • pandas Biblioteca de Ciencias de datos, numpy, scipy;
    • matplotlib biblioteca de visualización, seabon;
    • otros;
  2. Carga de datos:
    • Cargando entrenamiento y prueba;
    • observaciones breves (de cabeza () + forma);
  3. resumen de los datos:
    • Estas estadísticas se refieren a los datos a través familiarizado describe ()
    • Por información () estar familiarizado con el tipo de datos
  4. Y eliminación de datos de dictamen de anormalidad
    • Ver situación existe nan para cada columna
    • detección de las demás
  5. Comprender la distribución de los valores previstos
    • El perfil general de distribución (Johnson distribución ilimitada, etc.)
    • Ver asimetría y curtosis
    • Ver el valor previsto de la frecuencia específica
  6. Los rasgos característicos están divididos en categorías y funciones digitales, características y categorías para ver la distribución exclusiva
  7. análisis de características digitales
    • El análisis de correlación
    • Ver características asimetría y varios tienen pico
    • Cada visualización de distribución de firmas digitales obtenida
    • La relación entre cada firma digital visualizada
    • la visualización de regresión multivariante de las relaciones mutuas
  8. Escribir análisis de las características
    • distribución única
    • cuadro de visualización característica de clase figura
    • La figura clase de violín visualización característico
    • bar Visualización clase gráfica de clase característicos
    • Cada frecuencia de la función de categorías visualizadas (count_plot)
  9. Los datos del informe con pandas_profiling

 

Ejemplo de código 2.3

2.3.1 Carga de varios datos y biblioteca de visualización científica, la importación de datos

importación pandas como pd
 importación numpy como np
 de tqdm importación tqdm
 importación de fecha y hora
 de importación de tiempo
 de importación advertencias
 importan missingno como msno 
matplotlib.pyplot importación como plt
de sklearn.preprocessing importación LabelEncoder, OneHotEncoder % matplotlib inline # cruda = pd.read_csv (" ./ used_car_train_20200313 .csv", parse_dates = [ 'RegDate']) train_data = pd.read_csv ( " ./used_car_train_20200313.csv " , sep = ' ' , parse_dates = [ ' RegDate' ]) Test_data = pd.read_csv ( " ./used_car_testA_20200313.csv " , sep = ' 'parse_dates = [ ' RegDate ' ]) warnings.filterwarnings ( " ignorar " )

Todas las funciones son conjunto proceso de desensibilización (para facilitar su lectura)

  • Nombre - Automoción de codificación
  • RegDate - tiempo de registro del coche
  • modelo - modelo de codificación
  • marca - marca
  • bodytype - Tipo de Cuerpo
  • fuelType - tipo de combustible
  • la caja de cambios - Caja de cambios
  • de potencia - Potencia Automotive
  • coches kilómetro - kilómetro
  • notRepairedDamage - la reparación de daños aún Automotive
  • regionCode - ver el código área del coche
  • vendedor - el vendedor
  • offerType - Tipo de Cotización
  • creatDate - tiempo de publicidad
  • precios de los automóviles - Precio
  • v_0 '' v_1 '' v_2 '' V_3 '' v_4 '' v_5 '' v_6 '' v_7 '' v_8 '' v_9 '' v_10 '' v_11 '' v_12 ' , 'v_13', 'v_14' [características anónimos, incluyendo v0-14 que comprende 15] Anónimo en donde

2.3.2 Descripción General Datos

  1. describen plantado con cada columna de las estadísticas, el recuento de número, la media promedio, std varianza, el valor mínimo min, la mediana 25% 50% 75%, y el valor máximo es principalmente para ver esta información captar instantáneamente datos sobre el alcance y los valores de determinación de anormalidad para cada valor, como a veces encontrar otra expresión 9999999-1 nan estos son en realidad de manera equivalente, a veces la necesidad de prestar atención
  2. info información para comprender el tipo de datos a través de cada columna, además de ayuda para entender si hay un símbolo especial anormal nan
# # 1) por describir () para familiarizarse con los datos de la estadística relevante 
Train_data.describe ()

 

 

# # 2) por medio de información () estar familiarizado con el tipo de datos 
Train_data.info ()

 

 

Y los datos de dictamen de anormalidad deleción 2.3.3

# # 1) de cada columna para ver la presencia caso nan 
Train_data.isnull (). Sum ()

 

 

 

# Nan可视化 
faltante = Train_data.isnull (). Sum () 
faltante No se encuentra [faltante> 0] 
missing.sort_values (inplace = True) 
missing.plot.bar ()

 

 

Hay "nan" por más de dos puede ser comprensivo muy fácil de columnas, y se puede imprimir el número de nan, el objetivo principal es dar a conocer nan si el número es muy grande, si decide llenar una pequeña general, si LGB y otros modelos de árbol puede ser directamente vacantes, por lo que el árbol ellos mismos a la optimización, pero si hay demasiado nan, se puede considerar suprimen 

 

# Visual aspecto predeterminado 
msno.matrix (Train_data.sample (250))

 

 

 

msno.bar (Train_data.sample (1000))

 

 

 

# # Nan detección no outlier (variable numérica no está dentro del rango preestablecido, objeto algún valor sentido) 
Train_data [ ' notRepairedDamage ' ] .value_counts ()

 

 Puede ser visto '-' valor también está vacante, debido a que una gran cantidad de modelos nan tiene un trato directo, no vamos a hacer frente a aquí, sustituido primera nan

# # Para las variables categóricas fuertemente sesgada en general, no es la predicción de ninguna ayuda, se puede considerar la eliminación de 
Train_data [ " Vendedor " ] .value_counts ()

 

 

2.3.4 comprender la distribución de los valores previstos

 

# # 1) perfil de distribución general (Johnson distribución ilimitada, etc.) 
Importación scipy.stats AS ST 
Y = Train_data [ ' Precio. ' ] 
Plt.figure ( 1); plt.title ( ' Johnson la SU ' ) 
sns.distplot (Y, KDE False =, Fit = st.johnsonsu) 
plt.figure ( 2); plt.title ( ' normal ' ) 
sns.distplot (Y, KDE = False, Fit = st.norm) 
plt.figure ( 3);. plt.title ( ' el registro normal ' ) 
sns.distplot (Y, KDE = False, Fit = st.lognorm)

 

 Los precios no siguen una distribución normal, por lo que antes de hacer la devolución, debe ser convertido. Mientras que estamos haciendo muy bien la transformación logarítmica, pero es la mejor distribución ilimitada ajuste Johnson.

# # 2)查看asimetría y curtosis 
sns.distplot (Train_data [ ' precio ' ]);
imprimir ( " Asimetría:% f " % Train_data [ ' precio ' ] .skew ())
 de impresión ( " Kurtosis:% f " % Train_data [ ' precio ' ] .kurt ())

 

 (Para ser completado)

 

 

El principal aprendizaje porción :( sistema de observaciones manera, algunas herramientas de aprendizaje visual)

La principal referencia: https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.12.1cd8593aw4bbL5&postId=95457

Supongo que te gusta

Origin www.cnblogs.com/z1141000271/p/12588986.html
Recomendado
Clasificación