Tarea 3 funciona la característica

TAREA 3 función del proyecto
de resumen de "Datawhale entrada de minería de datos proyecto de largometraje -Task3 cero basa" - azerí

pre-procesamiento de datos

1) el procesamiento del valor anormal: métodos de procesamiento incluyen diagramas de caja, 3 criterios [sigma], la conversión de Box-Cox (proceso puede tener distribución sesgada), y otra de corte larga cola fuera.
2) Valores perdidos: tratamiento, incluyendo (demasiados valores perdidos borrados), la finalización interpolada (se pueden llenar de diversas maneras la moda, la mediana, media, etc.), no el tratamiento.
3) normalizado / estandarizada: normalizado / estandarizada puede eliminar la influencia de la orden de los datos, en el que los niveles respectivos están unificados. La normalización puede ser transformado en una distribución normal estándar, se pueden convertir a un normalizado [0, 1].

extracción de características y configurado

1) Objetivo: extracción de una estructura característica que tiene una fuerte afinidad o la discriminación de las funciones de datos convencionales, auxiliar modelo de elevación de precisión.
2) Construcción de características estadísticas incluyen: promedio, suma, la relación, la desviación estándar, el conteo.
3) Tiempo de características: un tiempo relativo, de tiempo absoluto, días de fiesta, fines de semana y similares.
4) GIS: comprende bin, distribuidos de codificación.
5) la transformación no lineal: un registro / m² / root y similares.
6) una combinación de características, en el que la cruz.
7) función de transformada de: el uso de la PCA o similar, se puede utilizar AE, aprendizaje adaptativo para extraer la profundidad.

La selección de características

1) Objetivo: los datos existentes de la característica de los datos de características o configuraciones apantallados o, caracterizada por tener una fuerte correlación de la discriminación, el modelo de elevación auxiliar precisión.
2) filtración: primera selección de características, la readaptación estudio, a saber, la selección de características y modelo de entrenamiento están separados, un alivio de algoritmo / Varianza seleccionar / Pearson método coeficiente de correlación común, es decir, por las propiedades de auto-clasificación característicos o de retorno se evaluaron las características para completar la selección de características.
3) método de envolver: directamente con el uso final del periodo de aprendizaje de rendimiento como índice de evaluación de extracción de características, un LVM común.
4) la incorporación de: proceso de formación de selección de características es aprendizaje adaptativo, un lazo de retorno común.
5) la transformación no lineal: un registro / m² / root y similares, también se puede usar un método tal como PCA, se puede usar AE, aprendizaje adaptativo para extraer la profundidad.
6) una combinación de características, en el que la cruz.

comprensión personal y resumen

1) Como dice el refrán características determinan el límite superior de los resultados, por lo que el proyecto es característica muy importante en el proceso de minería de datos.
Hay muchas maneras 2) las características del proyecto, sino de aprovechar característica útil es muy difícil, y añadir un poco de conocimiento empírico es a veces característica muy útil en el proyecto.

Tianchi utiliza precios de los automóviles de predecir Ejemplo práctico:

1) el procesamiento secuencial intentos normalizaron estandarizados de datos, etc., en particular para "poder" y otras características fueron log transformado.
2) De conformidad con las citas para construir las siguientes características:
(1) Tiempo: datos [ 'creatDate'] - datos [ 'RegDate'], el tiempo de reacción del uso del automóvil, y en general el uso del tiempo es inversamente proporcional al precio.
(2) en la información del código postal de la ciudad
probar una variedad de característica método de selección 3), incluyendo el análisis de correlación, regresión Lasso y el método de árbol de decisión.

Publicado cinco artículos originales · ganado elogios 0 · Vistas 332

Supongo que te gusta

Origin blog.csdn.net/lybch1/article/details/105134470
Recomendado
Clasificación