minería de datos de entrada Datawhale cero a base de - análisis exploratorio de datos

Datawhale entrada-palabra de base cero - Análisis de Datos

El análisis de datos se utiliza la predicción coche: Etiquetas


Nota: este post es añadir un poco de sus propias ideas y comentarios en la base tutorial para la preparación de un rebaño de Dios, el nombre de la clave para hacer un montón de notas. Un aprendizaje más profundo a ayudarse a sí mismos, por otra parte, puede ayudar a reducir el umbral para los recién llegados.

análisis de datos exploratorio

1. Objetivos

  • Familiarizados con el significado de campo, comprender la recolección de datos
  • Usando una relación visual entre el valor predicho de la variable Ver
  • características de procesamiento de datos y de ingeniería

2. contenido

biblioteca de Python 2.1

  • Datos de la Biblioteca de Ciencias (pandas, numpy, scipy)
  • librería de visualización (matplotlib, seabon)

Carga y de observación de datos 2.2

  • carga de entrenamiento y las pruebas conjuntos
  • Los datos de observación
  • Por describe () método familiarizado con las variables
  • Por información () familiarizado con el tipo de datos
  • Comprobar el valor de cada caso nan columna
  • detección de las demás

2.3 La comprensión de la distribución valor predictivo

  • La distribución general de
  • Ver asimetría y curtosis
  • Ver el valor previsto de la frecuencia específica

2.4 clase de entidad y digitales características, características y categorías para ver la distribución exclusiva

2.5 Características de Digital

  • El análisis de correlación
  • Ver asimetría y características tienen pico
  • Cada visualización digital de la distribución de
  • La relación entre cada firma digital visualizada
  • visualización de regresión multivariante de uno al otro

2.6 Características de los del tipo

  • distribución única
  • En el que el cuadro de visualización Categoría
  • La figura clase de violín visualización característico
  • Cada categoría característica de frecuencia visual
  • bar Visualización clase gráfica de clase característicos
  • Cada categoría característica de frecuencia visual

2,7 generar informes de datos con pandas_profiling


3. Código de ejemplo y notas

paquete de guía 3.1 pitón

#pandas、numpy是两个超级好用的数据科学库
import pandas as pd
import numpy as np
#matplotlib和seaborn为常见的可视化库
import matplotlib.pyplot as plt
import seaborn as sns
#缺失值可视化处理包
import missingno as msno

3.2 de entrenamiento conjunto de entrenamiento de carga y un conjunto de datos de prueba

#注意相对路径和绝对路径
Train_data = pd.read_csv('./data/used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv('./data/used_car_testA_20200313.csv', sep=' ')

3.3 característico de datos

propiedad significado
SaleID ID de transacción, una codificación única
nombre nombre comercial del automóvil, desensibilizado
RegDate fechas de matriculación de vehículos, tales como 20160101, 1 de enero el año 2016
modelo modelos de codificación, insensibilizados
marca marca de automóviles, se ha desensibilizado
tipo de cuerpo Tipo de cuerpo: Limusina: 0, mini-coches: 1, furgonetas: 2, bus: 3, descapotables: 4, automóviles de dos puertas: 5, vehículos comerciales: 6, Mezclador: 7
tipo de combustible Tipo de combustible: Gasolina: 0, aceite diesel: 1, LPG: 2, Gas: 3, híbrido: 4, Otros: 5, potencia: 6
caja de cambios Transmisión: Manual: 0, de forma automática: 1
poder potencia del motor: el rango [0, 600]
kilómetro kilómetros de coches viajaban, la unidad Wan km
notRepairedDamage El coche no se ha reparado el daño: Sí: 0 No: 1
código de región código de área, desensibilizado
vendedor Vendedor: individual: 0, no individual: 1
offerType Tipo de oferta: Proporcionar: 0 ,: 1
creatDate Coche en la línea de tiempo, se inició la venta de tiempo
precio precios de los automóviles
v_0, ..., v_14 características anónimos

ID de transacción: el comercio de automóviles usados ID único, claves primarias
nombres de automoción comerciales: por ejemplo (Audi A6L 2006 párrafo 2.4 CVT confort) comprensión personal de la
fecha de registro del coche [1] : los propietarios de vehículos de administración de vehículo para solicitar el registro (siempre que el formulario de solicitud, la escuela prueba de origen de inspección de vehículos de motor, certificado de fábrica del vehículo, certificado de exención, prueba de la tarjeta de seguro obligatorio, etc.) aprobada fecha
modelo de codificación [2] : de acuerdo con las reglas de codificación, modelos de negocio codificados por el código, clases de vehículos, los principales parámetros, productos número de serie, código personalizado de empresa compuesto por
características anónimos: desde v_0 después del tratamiento de desensibilización otros v_14 datos de transacción de acuerdo con el coche construidas artificialmente a la característica anónimo

3.4 conjuntos de datos de observación

#显示训练数据集的头和尾(图1)
Train_data.head().append(Train_data.tail())
#显示测试数据集的头和尾(图2)
TestA_data.head().append(TestA_data.tail())

##### ** 1 **
La figura 2 ** ##### **

Como puede verse a partir de los datos en la figura anterior el número de línea conjunto de datos de entrenamiento de datos de 150000 (0 a 149999), el número de columnas es 31, el número de filas de datos de pruebas Conjunto 50.000, el número de columnas es 30 (la necesidad de predecir la columna de precios); observaciones conjunto de beneficios para aquellos en el caso de una gran cantidad de datos muy fácil de usar y no exel abierta, las filas comprender rápidamente el estado del conjunto de datos, de modo que tengan una comprensión intuitiva de la representación de los datos.

3.5 observaciones desde la perspectiva de Dios

Obtener el aspecto de los datos de todo el conjunto tenemos la misma fuerza para estafar a una idea: picante lo gran conjunto de datos, comienzo de dónde? Me demasiado duro ahora!
En este momento me puse de pie y de revés le dará dos (toneladas) Recomendado: describe () Función e información ()

#显示常见的数据统计指标
Train_data.describe()

** 3 **
describir la función de los documentos oficiales
Bowen describir la función
Estadísticas para cada columna representan el: contar el número de estadísticas, la media de la varianza media, std, MIN el mínimo, 25%, 50%, 75% de la mediana, el máximo máx. Aquí se puede conocer la distribución de valores de datos sustancialmente todo el conjunto de datos. Es notables problemas pueden ocurrir tales como la precisión del valor de recuento RegDate.

#用来查看各列数据的non值和数据类型情况  
Train_data.info()

** 4 **
información función de documento oficial
función de información es sobre todo para ver el tipo de datos y el valor y sus datos de distribución nan. Seguimiento de ayuda a llenar los valores nan o borrado

distribución de valor 3.6 Ver nan

#统计训练集数据为空的情况
Train_data.isnull().sum()

** 5 **
La visualización de distribución de valor por defecto

#用于无效矩阵的数据密集分布观测,
msno.matrix(Train_data.sample(250))

Aquí Insertar imagen Descripción

Publicado 37 artículos originales · ganado elogios 22 · Vistas a 60000 +

Supongo que te gusta

Origin blog.csdn.net/BigCabbageFy/article/details/105079989
Recomendado
Clasificación