la entrada de base cero de la minería de datos - Pronóstico del precio de la transacción de automóviles usados de características de ingeniería

0 Introducción

  Se caracteriza funciona? Como el nombre sugiere, los datos originales es ** una serie de procesos de ingeniería, que refinará caracterizado como una entrada para el uso de algoritmos y modelos. ** En esencia, las obras de características es un proceso de representación y presentación de datos; el trabajo práctico, el propósito del proyecto se caracteriza por la eliminación de impurezas y la redundancia de datos en bruto, características del diseño más eficiente para caracterizar y resolver el problema de modelo de predicción la relación entre.
La importancia del proyecto tiene las siguientes características:

  1. ** La función mejor, más fuerte flexibilidad. ** características Flexibilidad buenas es que le permite seleccionar el modelo sin complicaciones, pero la velocidad es también más rápido y más fácil de mantener.
  2. ** Características mejor, el más simple es el modelo construido. ** número de parámetros de la operación puede estar bajo circunstancias menos que óptimos, aún así obtener un buen rendimiento, reducir el ajuste de los parámetros de carga de trabajo y el tiempo, también puede reducir en gran medida la complejidad del modelo.
  3. ** La función mejor, más excelente rendimiento del modelo. ** El propósito de las características originales del proyecto es mejorar el rendimiento del modelo.

considera en general que se divide en tres obras de ingeniería característica:

  • Extracción de Características
  • Selección de características
  • edificio de características

  pre-procesamiento de datos y funciones que se describen en este documento se considera en las obras de características.
  En función del proyecto hecho es una gran necesidad de un mejor momento para dominar esta habilidad, sólo tiene que mirar a la comprensión teórica no es lo suficientemente profunda, la aplicación práctica del proyecto o cuando el juego va a tener una comprensión más profunda.

Preprocesamiento de datos 1

En primer lugar, la necesidad de datos de tratamiento previo, dos tipos más comunes de los datos:

  1. datos estructurados. Los datos estructurados pueden ser vistos como una tabla de base de datos relacional, cada columna tiene una definición clara, incluyendo dos tipos básicos numéricos y categóricos; cada fila de datos representa la información de una muestra.

  2. Los datos no estructurados. Principalmente texto, imágenes, datos de audio y vídeo, la información que contiene no puede ser representado por un simple valor numérico, no existe una definición clara de la categoría, y el tamaño de cada una diferente de datos entre sí.

1.1 trato con los valores perdidos

Los datos que faltan son la ausencia de una información de campo que faltan y los registros grabados, los cuales pueden causar resultados inexactos.

La causa de los valores que faltan:

  • No se puede obtener información, o para obtener información muy costoso.
  • Falta información, la falta dispositivo de entrada o de adquisición de datos humana faltante.
  • Propiedad no existe, en algunos casos, la falta de valores de datos no significa que hay un error, no existen algunos objetos de algún valor de propiedad, tales como los nombres de los cónyuges solteros, niños y otros ingresos fijos.

Impacto de los valores que faltan:

  • modelado de minería de datos se pierde una gran cantidad de información útil.
  • modelo de minería de datos exhibió significativamente más incertidumbre, la ley modelo contiene la más difícil de entender.
  • proceso de modelado de datos contendrá los valores nulos en el caos, lo que resulta en la producción fiable.

El método de procesamiento de los valores que faltan:

  • Dirigir contienen valores perdidos utilizando la función: Cuando sólo una pequeña muestra de la característica que falta puede tratar de usar;
  • En donde remove que contiene los valores que faltan: Este método es generalmente aplicable a la mayoría de la muestra carecen de esta característica, y contienen sólo una pequeña valores válidos es válido;
  • los valores del complemento falta de interpolación
    más utilizados para complementar o tercer interpolación de los valores que faltan buenas prácticas que a su vez puede tener una variedad de avance.
    • Número promedio / mediana / la ejecución pública
      si la distancia de la muestra es propiedad medible, la propiedad se utiliza para complementar el valor efectivo medio; la propiedad de la muestra si la métrica de distancia no es así, entonces el modo o la mediana se puede emplear hasta su finalización.

    • Número Media grado / mediana / complemento de todas
      las muestras se clasifican de acuerdo al grado que las otras muestras valores medios de atributo del complemento que faltan, por supuesto, de manera similar con el primer método, si la media no es factible, pueden intentar un modo o de una mediana número de datos estadísticos para su finalización.

    • Finalización fijada valor
      usando el valor del atributo del valor fijado en ausencia de complemento.

    • Modelado de predicción
      utilizando métodos de aprendizaje automático, los atributos que faltan predijeron que el objetivo previsto, en particular para las muestras de acuerdo a si la propiedad se desaparecidos divide en un conjunto de entrenamiento y de prueba, luego de regresión, modelos de árboles de decisión, tales como la formación de una máquina algoritmo de aprendizaje, reutilización el valor obtenido mediante la formación del modelo para predecir las propiedades de las muestras de prueba.
      Este enfoque es fundamentalmente equivocada si la otra propiedad y los bienes perdidos no es relevante, los resultados predichos sentido; pero si las predicciones muy precisas, a continuación, esta propiedad no hay necesidad de incluir el conjunto de datos que faltan; la situación general está entre los dos el medio.

    • mapa tridimensional de alta
      atributos correlacionados con un espacio de alta dimensión, utilizando el codificador de código de una tecnología de calor (uno en caliente). Consta de valores de atributos discretos de K en el intervalo de 1 valores de atributo de K + prolongados, si el valor de la propiedad se encuentra, entonces 1 valor de atributo ésimo la primera K + se establece en 1 después de la expansión.
      Este enfoque es el enfoque más preciso, conserva toda la información, ni añade ninguna información adicional, si todas las variables pre-tratamiento, tratamiento, aumentará en gran medida de las dimensiones de los datos. La ventaja de esto es mantener intacta toda la información de los datos originales, independientemente de los valores perdidos; inconveniente es que la informática se ha mejorado en gran medida, y el único efecto del tamaño de la muestra es muy grande do.

    • Multiple imputación
      múltiple imputación sea valor interpolado que es aleatorio, el valor práctico se estima generalmente a interpolar, y el hecho de que el ruido, para formar un conjunto pluralidad de valor interpolado alternativa, de acuerdo con cierta base para la selección, seleccionar la más adecuada interpolación.

    • Sensing finalización de la matriz y de compresión
      comprimido mediante el uso de una señal de detección que tiene en sí sparsity, devuelven la señal original a partir de una parte de la muestra observada. mediciones de detección comprimido y la percepción se divide en dos etapas de la recuperación de reconstrucción.

      • Percepción de medida: Esta etapa de la señal original es procesada para obtener una escasa muestras representan. Lo común es mediante transformada de Fourier, transformada wavelet, el aprendizaje diccionario, escasa codificación.
      • Reconstrucción de la recuperación: esta etapa para restaurar la señal original a partir de una pequeña cantidad de observaciones sobre la base de escasez. Este es el núcleo de detección comprimido
        problemas de terminación de matriz casi se puede ver a saber: https: //www.zhihu.com/question/47716840
    • finalización manual
      , además de método de avance manual, otro método de interpolación finalización valor complementario simplemente desconocidos con nuestras estimaciones subjetivas puede no ser totalmente coherente con los hechos objetivos. En muchos casos, el efecto de interpolación de acuerdo a la comprensión de su campo manual de los valores que faltan será mejor. Sin embargo, este método requiere un alto áreas problemáticas de los requisitos de conocimiento y la comprensión son relativamente altos, si más datos no se encuentra, sería más lento.

    • Vecino más cercano finalización
      para encontrar la muestra más cercana a la muestra, el uso del valor de la propiedad a su finalización.

1.2 Procesamiento de outlier

  Outlier prueba de análisis es si hay errores y datos de entrada de datos contenían anomalía. Ignorar la existencia de valores atípicos es muy peligroso, sin excluir los valores anormales calculados en el proceso de análisis de datos, tendrá un efecto negativo en los resultados. Se refiere a los valores individuales de valores atípicos de la muestra, su valor se desvía significativamente del resto de las observaciones. También conocido como valores atípicos valores atípicos, análisis de valores atípicos, también conocido como análisis de valores atípicos.

  • Por diagrama de caja (o 3 p 3 \ sigma ) analizaron los valores atípicos quitan
    a este principio en una condición: distribución normal de los datos requeridos. en 3 p 3 \ sigma principio, como valor anormal más de tres veces la desviación estándar, que puede ser vista como valores atípicos. Positivo y negativo 3 p 3 \ sigma probabilidad es del 99,7%, así que la distancia media 3 p 3 \ sigma valor de probabilidad se produce fuera de P (| xu |> 3 p 3 \ sigma ) <= 0.003, pertenece a un evento muy pocos probabilidad pequeña. Si los datos no siguen una distribución normal, sino que también puede ser descrita por el número de desviaciones estándar lejos de la media.
  • conversión de Box-Cox (procesamiento de distribución sesgada)
  • La cola larga de truncamiento
    de referencia específico, los datos del proceso de ingeniería en donde

2 de selección de características

Definiciones: seleccionar un subconjunto de las características relevantes del proceso se denomina función de selección (función de selección) a partir de un conjunto dado de características.

  • Para una tarea de aprendizaje, dado un conjunto de atributos, algunas de las propiedades puede ser crítico para el aprendizaje, pero alguna propiedad no es mucho significado.
    • Las tareas de aprendizaje propiedades o características útiles, llamados características relevantes (característica relevante) actual;
    • La tarea actual de aprendizaje de atributos o características inútiles, conocidos como característica extraña (función irrelevante).
  • La selección de características puede reducir la capacidad de predicción del modelo, ya que la función de golpe de gracia puede contener información válida, el modelo descartar esta porción reducirá en cierta medida la información de rendimiento. Pero también se calcula de compromiso entre la complejidad y modelos de rendimiento:
    • Si las características de retención tanto como sea posible, mejorarán el rendimiento del modelo, pero el modelo es complicado, la complejidad computacional también se ha mejorado;
    • Si se toma como muchas características, los modelos de rendimiento se reducirá, pero el modelo se convierte en simple, se reduce la complejidad computacional.
  • Los métodos comunes de selección de rasgos en tres categorías:
    • Filtración (filtro): dato para selección primero, y luego la formación y el aprendizaje, un método común tiene Alivio / varianza de selección de envío / coeficiente de correlación / método de prueba de chi-cuadrado / información mutua;
    • Envolvente (envoltorio): directamente en el tiempo se utilizará el rendimiento del estudiante como un subconjunto característica criterio de evaluación, el LVM métodos comunes (Las Vegas Envoltura);
    • Embedded (incrustación): combinación de filtrado y envolvente, de manera automática el aprendizaje es el proceso de selección de características de formación, una regresión lazo común;

3 de extracción de características

Extracción de características está generalmente en el de selección de características antes, los objetos que extrae los datos en bruto, el propósito es construir automáticamente una nueva característica, para convertir los datos en bruto a un conjunto de significado físico claro con (por ejemplo, sobre Gabor, geometría, textura características), o una estadísticamente significativa cuenta.
métodos comúnmente usados incluyen la reducción de dimensionalidad (PCA, ICA, LDA, etc.), el aspecto de la imagen de la SIFT, Gabor, cerdo, etc., la bolsa de modelo de palabras de áreas de texto, incrustada en la palabra modelo.

4 en donde Construcción

Cuenta con la construcción de los datos en bruto se refiere a la construcción de nuevas características artificiales. Se necesita tiempo para observar los datos en bruto, a pensar en formas posibles y estructuras de datos, la experiencia práctica de la sensibilidad de los datos y características de la máquina puede ayudar a construir el aprendizaje.

Las características necesarias para construir una fuerte capacidad de visión y un análisis, que nos obliga a identificar algunas de las características con significado físico de los datos en bruto. Suponiendo que los datos originales es datos de la tabla, en general, se puede utilizar para crear una nueva característica o combinación de atributos, propiedades o la descomposición o división de las características originales de mezcla para crear una nueva característica.

Características para construir altamente relevante para las necesidades de conocimiento de dominio o la experiencia práctica con el fin de construir un mejor bien de características nuevas y útiles, en comparación con la extracción de características, extracción de características se utiliza para convertir los datos en bruto a través de un número de método de extracción de características característica ya hecho, características de construcción y requiere manual de construir nuestras propias características humanas, tales como una combinación de dos características, en el que una pluralidad de características descompuestos o nuevos.

  • En donde las estadísticas de configuración, notificación de tasa de recuento suma, desviación estándar;
  • Características de tiempo, incluyendo el tiempo relativo y tiempo absoluto, días de fiesta, fines de semana y similares;
  • La información geográfica, incluyendo bin, distribuidos método de codificación;
  • transformación no lineal, incluyendo log / metros cuadrados / raíz y similares;
  • Las combinaciones de características, en el que la cruz;
  • Ojos del espectador, el sabio ve sabiduría.

Código se refiere a mi github
referencia:

Publicado 21 artículos originales · ganado elogios 1 · vistas 1117

Supongo que te gusta

Origin blog.csdn.net/Elenstone/article/details/105133235
Recomendado
Clasificación