Preprocesamiento de datos + limpieza de datos

1. Descripción general

La base de datos real es extremadamente susceptible al ruido, valores perdidos y datos inconsistentes porque la base de datos es demasiado grande y la mayor parte proviene de múltiples fuentes de datos heterogéneas. Los datos de baja calidad darán como resultado resultados de minería de baja calidad. Hay una gran cantidad de técnicas de preprocesamiento de datos:
- Limpieza de datos: se puede usar para eliminar el ruido en los datos y corregir inconsistencias.
- Integración de datos: combine datos de múltiples fuentes de datos en un almacén de datos consistente, como un almacén de datos.
- Reducción de datos: puede reducir el tamaño de los datos, por ejemplo, agrupando, eliminando funciones redundantes o agrupando.
- Transformación de datos: (por ejemplo, normalización) se puede usar para comprimir datos en un intervalo más pequeño, como 0.0 a 1.0.

Esto puede mejorar la precisión y la eficiencia del algoritmo de minería para la medición de distancia de diseño. Estas técnicas no son exclusivas y pueden usarse juntas.

1.1 Calidad de  los datos Si los datos pueden cumplir los requisitos de su aplicación, entonces son de alta calidad. La calidad de los datos involucra muchos factores, que incluyen: precisión, integridad, consistencia, oportunidad, credibilidad e interpretabilidad.

2. Limpieza de datos

Los datos del mundo real son generalmente incompletos, ruidosos e inconsistentes. La rutina de limpieza de datos intenta completar los valores faltantes, suavizar el ruido e identificar valores atípicos y corregir inconsistencias en los datos.

2.1, valores faltantes

¿Cómo lidiar con los atributos faltantes? Echemos un vistazo a los siguientes métodos:
1 --- Ignorar tuplas: esto generalmente se hace cuando falta la etiqueta de clase (suponiendo la clasificación de diseño de tareas de minería). A menos que varios atributos de la tupla sean valores faltantes, el método de cambio no es muy efectivo. Cuando el porcentaje de valores faltantes de cada atributo varía mucho, su rendimiento es particularmente pobre. Con ignorar tuplas, no puede usar los valores de atributo restantes de la tupla. Estos datos pueden ser útiles para la tarea en cuestión.
2 --- Rellene manualmente los valores faltantes: en general, este método es muy problemático y puede que no funcione cuando el conjunto de datos es grande y faltan muchos valores.
3 --- Use un valor global para completar los valores faltantes: Reemplace los valores de atributos faltantes con la misma constante (por ejemplo: "Desconocido" o -∞). Si los valores exactos se reemplazan como "Desconocido", el programa de minería puede confundirlos con un concepto interesante porque todos tienen el mismo valor: "Desconocido". Por lo tanto, aunque este método es simple, no es muy confiable.
4 --- Use la medida central del atributo (como la media o la mediana) para completar los valores faltantes: para distribuciones de datos normales (simétricas), se puede usar la media, mientras que la distribución de datos sesgada debe usar la mediana.
5 --- Use la media o mediana de los atributos de todas las muestras en la misma clase que la tupla dada:
6 --- Use los valores más confiables para completar los valores faltantes: puede usar regresión, métodos formales bayesianos basados ​​en inferencia Herramientas o árboles de decisión.

Método 3 ~ Método 6 sesga los datos, y los datos pueden ser inexactos. Sin embargo, el Método 6 es la estrategia más popular. En comparación con otros métodos (excepto el método 2), utiliza la mayor parte de la información de los datos existentes para predecir los valores faltantes.

Cabe señalar que, en algunos casos, los valores faltantes no significan que los datos sean incorrectos. Idealmente, cada atributo debe tener una o más reglas para condiciones nulas. Estas reglas pueden indicar si se permiten valores nulos y / o cómo se deben manejar o convertir dichos valores nulos. Si proporciona valores más adelante en el proceso empresarial, los campos también pueden dejarse en blanco intencionalmente. Por lo tanto, aunque después de obtener los datos, podemos hacer todo lo posible para limpiar los datos, pero una buena base de datos y un diseño de entrada de datos ayudarán a minimizar el número de valores faltantes o errores en el primer sitio.

2.2 Datos de
ruido El ruido es el error aleatorio o la varianza de la variable medida. Podemos utilizar técnicas básicas de descripción estadística de datos (por ejemplo, diagramas de caja o diagramas de dispersión) y métodos de visualización de datos para identificar valores atípicos que pueden representar ruido.

1 --- Bining (bining): el método de binning suaviza los valores de datos ordenados al examinar los "vecinos cercanos" (es decir, los valores circundantes) de los datos. Estos valores ordenados se distribuyen en algunos "golpes" o cuadros. Dado que el método de agrupación examina los valores de los vecinos más cercanos, realiza el suavizado local.
Escriba una descripción de la imagen aquí

Como se muestra en la figura anterior, los datos se ordenan primero y se dividen en contenedores de igual frecuencia de tamaño 3. Para suavizar con el promedio del cuadro, cada valor en el cuadro se reemplaza con el promedio en el cuadro. Del mismo modo, puede usar medianas de caja suave o bordes de caja suaves.

2 --- Regresión: se puede usar una función para ajustar los datos para suavizar los datos. Esta técnica se llama regresión. La regresión lineal implica encontrar la "mejor" línea que se ajuste a dos atributos (o variables) para que un atributo pueda usarse para predecir el otro. La regresión lineal múltiple es una extensión de la regresión lineal, que involucra más de dos atributos, y los datos se ajustan a una superficie multidimensional.

3 --- Análisis de valores atípicos: los valores atípicos se pueden detectar mediante la agrupación, por ejemplo. La agrupación organiza valores similares en grupos o "agrupaciones". Intuitivamente, los valores que quedan fuera del conjunto de clústeres se consideran valores atípicos.
Escriba una descripción de la imagen aquí

2.3 Limpieza de datos como proceso

El primer paso en el proceso de limpieza de datos es la detección de discrepancias. Puede haber una variedad de factores que causan desviaciones, incluidos formularios de entrada mal diseñados con muchos campos opcionales, errores de entrada humana, errores intencionales (por ejemplo, falta de voluntad para revelar la privacidad personal) y degradación de datos (por ejemplo, direcciones obsoletas) . Las desviaciones también pueden resultar de la representación inconsistente de datos y el uso inconsistente de la codificación. Los errores en dispositivos que registran datos y errores del sistema son otra fuente de desviación. Cuando los datos (inapropiados) se utilizan para fines distintos al original, también pueden producirse errores. La integración de datos también puede generar inconsistencias (por ejemplo, cuando un atributo dado tiene diferentes nombres en diferentes bases de datos).

Entonces, ¿cómo llevar a cabo la detección de desviaciones? Primero, aclaramos el concepto de que los "datos sobre datos" se denominan metadatos. Por ejemplo, ¿cuál es el dominio del tipo de datos de cada atributo? ¿Cuáles son los valores aceptables para cada atributo? Para comprender las tendencias de los datos e identificar anomalías, son útiles las descripciones estadísticas básicas de los datos. Por ejemplo, encuentre la media, la mediana y la moda. ¿Los datos son simétricos o sesgados? ¿Cuál es el rango? ¿Están todos los valores dentro del rango esperado? ¿Cuál es la desviación estándar de cada atributo? Los valores que están a más de dos desviaciones estándar de la media de atributo dada pueden marcarse como posibles valores atípicos. ¿Existen dependencias conocidas entre los atributos? En este paso, puede escribir un programa o utilizar las herramientas que discutimos más adelante. A partir de esto, puede encontrar ruido, valores atípicos y valores inusuales que deben investigarse.

1 --- Formato de codificación: tenga cuidado con las inconsistencias en la codificación y las inconsistencias en la representación de datos (por ejemplo, fechas "2015/12/08" y "08/12/2015");
2 --- Sobrecarga de campo: los desarrolladores serán nuevos La definición de un atributo se comprime en la parte no utilizada (bit) del atributo definido (por ejemplo, utilizando un bit no utilizado de un atributo, cuyo valor ya ha utilizado 31 de los 32 bits).

1 ---: Regla de unicidad: cada valor de un atributo dado debe ser diferente de otros valores del atributo.
2 ---: Regla de continuidad: no faltan valores entre los valores más bajos y más altos del atributo, y todos los valores también deben ser únicos (por ejemplo, el número de pruebas)
3 ---: Regla de valor nulo: la descripción está en blanco , Signos de interrogación, símbolos especiales u otras cadenas que indican condiciones nulas (por ejemplo, donde no se puede usar un valor de un atributo dado) y cómo lidiar con dichos valores.

1 --- Herramientas de depuración de datos: utilice un conocimiento de dominio simple (conocimiento de dirección postal y corrección ortográfica) para verificar y corregir errores en los datos. Al limpiar datos de múltiples fuentes de datos, estas herramientas se basan en análisis y técnicas de coincidencia difusa.
2 --- Herramientas de auditoría de datos: analice datos para descubrir reglas y conexiones, y detecte datos que violen estas condiciones para descubrir desviaciones.
3 --- Herramientas de migración de datos: Permite explicar transformaciones simples, como reemplazar la cadena "género" con "sexo".
4 --- Herramienta ETL (extracción / transformación / carga, extracción / transformación / carga): permite al usuario explicar la transformación a través de una interfaz gráfica de usuario.
Por lo general, estas herramientas solo admiten transformaciones limitadas, por lo que es posible que necesitemos escribir programas personalizados para este paso del proceso de limpieza de datos.

Detección de desviación y transformación de datos (corrección de desviación) Ejecute iterativamente estos dos pasos. Por lo general, se requieren múltiples iteraciones para satisfacer a los usuarios.

El nuevo método de limpieza de datos enfatiza la interactividad mejorada. Por ejemplo, Potter's Wheel es una herramienta pública de limpieza de datos que integra la detección de desviaciones y la transformación de datos.

 

 

 

Etapa de pretratamiento

La etapa de preprocesamiento hace principalmente dos cosas:

Una es importar datos en herramientas de procesamiento. En términos generales, se recomienda usar una base de datos y construir un entorno MySQL ejecutando una sola máquina. Si la cantidad de datos es grande (más de 10 millones de niveles), puede usar el almacenamiento de archivos de texto + la operación de Python.

El segundo es mirar los datos. Aquí hay dos partes: una es mirar los metadatos, incluida la interpretación de campo, la fuente de datos, la tabla de códigos, etc., toda la información que describe los datos; la segunda es extraer una parte de los datos y usar la visualización manual para tener una comprensión intuitiva de los datos en sí, y Al principio encontré algunos problemas y me preparé para el tratamiento posterior.

El primer paso: limpieza de valor faltante

Los valores perdidos son el problema de datos más común, y hay muchas maneras de lidiar con los valores perdidos. Recomiendo los siguientes cuatro pasos:

1. Determine el rango de valores perdidos: calcule la proporción de valores perdidos para cada campo y luego desarrolle estrategias de acuerdo con la proporción de valores perdidos y la importancia de los campos, que se pueden representar en la siguiente figura:

2. Elimine los campos innecesarios: este paso es muy simple, simplemente elimínelo directamente ... Pero se recomienda hacer una copia de seguridad de cada paso de la limpieza, o probar con éxito los datos a pequeña escala y luego procesar la cantidad total de datos, de lo contrario se arrepentirá si lo elimina mal Nada (más que decir, ¡eliminar debe coincidir con dónde al escribir SQL!).

3. Complete el contenido faltante: algunos valores faltantes se pueden completar, hay tres métodos:

  • Utilice el conocimiento o la experiencia empresarial para adivinar los valores faltantes.
  • Complete los valores faltantes con los resultados de cálculo del mismo indicador (media, mediana, modo, etc.)
  • Rellene los valores faltantes con los resultados de cálculo de diferentes indicadores

 

Los dos primeros métodos son más fáciles de entender. Con respecto al tercer método, tomemos el ejemplo más simple: falta el campo de edad, pero hay un número de identificación de seis dígitos enmascarado, así que ...

4. Re-adquisición: si algunos indicadores son muy importantes y la tasa de falta es alta, entonces necesita saber con el personal de acceso o el personal comercial si hay otros canales para obtener datos relevantes.

 

Arriba, simplemente clasifiqué los pasos de la limpieza del valor perdido, pero algunos de ellos son mucho más complicados de lo que dije, como completar los valores faltantes. Muchos libros que hablan sobre métodos estadísticos o herramientas estadísticas mencionarán métodos relacionados, y aquellos que estén interesados ​​pueden aprender en profundidad.

El segundo paso: limpieza del contenido del formato

Si los datos provienen del registro del sistema, generalmente en términos de formato y contenido, será coherente con la descripción de los metadatos. Si los datos se recopilan manualmente o el usuario los completa, existe una alta probabilidad de que haya algunos problemas con el formato y el contenido. En términos simples, existen los siguientes tipos de problemas de contenido:

1. El formato de visualización de hora, fecha, valor numérico, medio ancho completo, etc. es inconsistente

Este tipo de problema generalmente está relacionado con el terminal de entrada, también se puede encontrar al integrar datos de múltiples fuentes y se puede procesar en un formato coherente.

2. Hay caracteres que no deberían existir en el contenido.

Parte del contenido solo puede incluir una parte de los caracteres, por ejemplo, el número de identificación es un número + letra y el nombre chino es un carácter chino (Zhao C sigue siendo una minoría). Los más típicos son los espacios en la cabeza, la cola y el medio, y también puede haber problemas, como la presencia de símbolos digitales en el nombre y la aparición de caracteres chinos en el número de identificación. En este caso, debe utilizar la verificación semiautomática y los métodos semi-manuales para encontrar posibles problemas y eliminar caracteres innecesarios.

3. El contenido no coincide con el contenido en este campo

Los nombres escritos en género, los números de identificación escritos en números de teléfonos móviles, etc., son todos esos problemas. Sin embargo, la particularidad de este problema es que no se puede solucionar simplemente eliminando, porque la causa puede ser errores de llenado manual, puede que no haya verificación en el extremo frontal o algunas o todas las columnas pueden no estar alineadas al importar datos. Por lo tanto, es necesario identificar el tipo de problema en detalle.

El problema del contenido del formato es un problema más detallado, pero se han plantado muchos errores de análisis en este pozo, como la asociación de tablas cruzadas o la falla de VLOOKUP (múltiples espacios hacen que la herramienta piense que "Chen Danyi" y "Chen Danyi" no son una sola persona), estadísticas incompletas (Por supuesto, hay un problema con el resultado cuando el número se mezcla con una letra), el resultado del modelo falla o el efecto no es bueno (los datos son incorrectos, la fecha y la edad se mezclan, así que ...). Por lo tanto, preste atención a esta parte del trabajo de limpieza, especialmente cuando los datos procesados ​​se recopilan manualmente, o cuando está seguro de que el diseño de verificación frontal del producto no es bueno ...

Paso 3: error de limpieza lógica

Esta parte del trabajo es eliminar algunos datos que pueden encontrar directamente el problema utilizando un razonamiento lógico simple para evitar que los resultados del análisis se desvíen. Incluye principalmente los siguientes pasos:

1. Deduplicación

A algunos analistas les gusta poner la repetición en el primer paso, pero recomiendo colocar la repetición después de limpiar el contenido del formato, la razón ya se ha dicho (múltiples espacios llevan a la herramienta a pensar que "Chen Danyi" y "Chen Danyi" no están solos , Falla de deduplicación). Además, no todas las repeticiones pueden ser tan simples ...

Una vez hice un análisis de datos relacionado con las televentas y descubrí que los vendedores eran extremadamente inútiles para obtener pedidos ... Por ejemplo, una compañía llamada "ABC Butler Co., Ltd.", en manos de las ventas A, y luego las ventas B para atraer a este cliente , Ingrese una "Compañía limitada familiar oficial de ABC" en el sistema. Verá, no puede ver la diferencia entre los dos sin una mirada más cercana, e incluso si puede verlo, ¿puede garantizar que no existe tal cosa como "ABC Guanjia Co., Ltd." ... En este momento, debe abrazar el muslo RD Pídale a alguien que escriba un algoritmo de coincidencia difusa para usted, o véalo a simple vista.

El de arriba no es el más despiadado, vea la imagen a continuación:

En su sistema, es muy probable que ambas carreteras se llamen Balizhuang Road, ¿se atreve a ir directamente a repetirlo? (Suministrado con consejos pesados: el rango de dos números de casa de Balizhuang Road es diferente)

Por supuesto, si los datos no se ingresan manualmente, simplemente deduplicación.

2. Eliminar valores irrazonables

Se puede aclarar en una oración: cuando alguien llena el formulario a ciegas, tiene 200 años y tiene un ingreso anual de 1 millón de yuanes (se estima que no vio la palabra "diez mil"). Este tipo de información debe eliminarse o tratarse como valores perdidos. ¿Cómo encontrar este valor? Consejo: Disponible pero no limitado a Box-plot.

3. Modificar las contradicciones

Algunos campos se pueden verificar entre sí, por ejemplo: el número de identificación es 1101031980XXXXXXXX y la edad se completa con 18 años. Aunque comprendemos la idea de que otros siempre tendrán 18 años, sabemos que la edad real puede proporcionar mejores servicios a los usuarios (de nuevo ... ...) En este momento, es necesario determinar qué campo proporciona información más confiable basada en la fuente de datos del campo, y eliminar o reconstruir el campo no confiable.

Además de los casos enumerados anteriormente, hay muchos casos no listados de errores lógicos, que deben manejarse adecuadamente en la operación real. Además, este paso puede repetirse en el proceso de modelado de análisis de datos posterior, porque incluso si el problema es muy simple, no todos los problemas se pueden encontrar a la vez. Lo que podemos hacer es utilizar herramientas y métodos para minimizar la posibilidad de problemas. Sexo, haciendo que el proceso de análisis sea más eficiente.

 

Paso 4: limpieza de datos sin demanda

Este paso es muy simple: eliminar campos innecesarios.

Pero en la práctica, hay muchos problemas, como:

  • Eliminar campos que parecen innecesarios pero que en realidad son importantes para el negocio;
  • Un campo se siente útil, pero no sé cómo usarlo, no sé si debe eliminarse;
  • A primera vista, borró el campo incorrecto.

 

El consejo que di en los primeros dos casos fue: si la cantidad de datos no es lo suficientemente grande como para manejarla sin eliminar los campos, entonces los campos que se pueden eliminar no se deben eliminar tanto como sea posible. En el tercer caso, haga una copia de seguridad de sus datos ...

Paso 5: Verificación de relevancia

Si sus datos tienen múltiples fuentes, entonces es necesario verificar la asociación. Por ejemplo, si tiene información de compra fuera de línea para la información del cuestionario de servicio al cliente de un automóvil y teléfono, los dos están relacionados por nombre y número de teléfono móvil. Luego, observe si la información del vehículo registrada por la misma persona fuera de línea y la información del vehículo del cuestionario en línea El mismo vehículo, si no (no se ría, es posible que tal problema ocurra si el diseño del proceso de negocio no es bueno), entonces necesita ajustar o eliminar los datos.

Estrictamente hablando, esto está fuera del alcance de la limpieza de datos, y los cambios de datos relacionados deberían estar involucrados en el modelo de base de datos. Pero aún quiero recordarle que la integración de datos de múltiples fuentes es una tarea muy complicada. Debe prestar atención a la correlación entre los datos. Intente no entrar en conflicto entre sí durante el proceso de análisis, pero no lo nota. .

Lo anterior es un simple peinado del proceso de limpieza de datos. Debido a la limitación de habilidad, es inevitable que haya una pérdida de 10,000. Por favor, deme su opinión, gracias.

 

2. Preparaciones antes del

análisis de datos Después de determinar los miembros del equipo de análisis de datos, se realizará la siguiente tarea, que es encontrar datos valiosos para el análisis. Los datos son la base del análisis. Por lo tanto, la calidad de los datos, la relevancia de los datos y las dimensiones de los datos afectarán los resultados del análisis de datos. Entre ellos, GIGO (basura dentro y fuera de basura) tiene el mayor impacto en los resultados del análisis de datos.

1 Selección de la fuente de

datos El equipo de análisis de datos se enfrenta a una gran cantidad de fuentes de datos, los enlaces cruzados entre las diversas fuentes de datos, la relación lógica entre los diversos campos de datos, el calibre estadístico de cada producto es diferente y el valor de los diferentes períodos de tiempo es diferente. La mayoría de estos problemas afectarán los resultados del análisis de datos, por lo que es muy importante determinar la selección de la fuente de datos y la recopilación de datos.

El DBA puede encontrar datos relevantes basados ​​en las necesidades de análisis de datos, establecer una tabla amplia de datos, introducir datos del almacén de datos en esta tabla amplia y realizar cálculos de resumen basados ​​en una determinada relación lógica. Esta amplia tabla sirve como base para el análisis de datos, y luego deriva una serie de formas diferentes basadas en las necesidades de análisis de datos para proporcionar una fuente de datos limpia y completa para el análisis de datos. Por un lado, la tabla ancha se utiliza para centralizar los datos de análisis relevantes, por un lado, es para mejorar la eficiencia. No es necesario consultar otras tablas de datos para cada análisis, lo que afecta la eficiencia del almacén de datos.

2 Selección de muestreo de

datos El análisis de datos simple puede llamar a todos los datos para el análisis. El muestreo de datos se utiliza principalmente para el modelado y el análisis. El muestreo debe considerar la representatividad de la muestra, cubriendo varios tipos de clientes, el tiempo de muestreo también es muy importante, cuanto más cerca esté la ventana de tiempo Cuanto más propicio para el análisis y la predicción. Al realizar un muestreo estratificado, es necesario asegurarse de que la proporción de la muestra dividida sea básicamente la misma que la de los datos originales.

3 Selección del tipo de

datos El tipo de datos se divide en tipo continuo y tipo discreto. El tipo de datos debe determinarse durante el modelado y el análisis. Al realizar análisis de tendencias de ingresos comerciales, análisis de pronósticos de ventas y análisis RFM, generalmente se utilizan variables continuas. Las variables discretas se utilizan generalmente en la calificación crediticia y la predicción de clasificación.

4 Procesamiento de valores perdidos Durante el

análisis de datos, se enfrentarán muchos valores perdidos y sus causas son diferentes. Algunos de ellos se ocultan intencionalmente debido a razones de privacidad. Algunas de las variables en sí mismas no tienen valores, y algunas faltan datos debido a operaciones incorrectas durante la fusión de datos.

Para el procesamiento de valores perdidos, se puede utilizar un método alternativo (método de estimación), utilizando valores empíricos conocidos para reemplazar los valores perdidos, mantener los valores perdidos y eliminar los valores perdidos. El método específico estará determinado por la relación entre la variable de referencia y la variable independiente y el tamaño de la muestra.

5 Detección y procesamiento de

valores atípicos Los valores atípicos tienen una gran influencia en algunos resultados de análisis de datos, como el análisis de conglomerados y la regresión lineal (regresión logística). Pero tiene poco efecto en el árbol de decisión, la red neuronal y la máquina de vectores de soporte SVM.

Los valores atípicos generales se refieren a los valores promedio que se desvían significativamente de las observaciones. Por ejemplo, cuando la edad es de 200 años y el ingreso promedio es de 100,000 yuanes, hay un valor anormal de 3 millones de yuanes. El primer valor atípico es un valor atípico no válido y debe eliminarse, pero el segundo valor atípico puede ser un valor atípico válido, y usted puede decidir si desea conservarlo o eliminarlo según la experiencia.

6 Estandarización de datos

El propósito de la estandarización de datos es indexar los datos de diferentes naturalezas y diferentes magnitudes y ajustarlos a un rango análogo. Por ejemplo, cuando se establece un modelo de regresión logística, el valor del género es 0 o menos, pero el valor del ingreso puede ser de 0 a 100 millones, el lapso es grande y debe estandarizarse.

En general, la mejor / máxima estandarización (método de normalización Min-Max) puede usarse para establecer el valor entre 0 y 1 para un cálculo fácil. El método de fracción Z y el método de estandarización de calibración decimal también se pueden utilizar.

7 Procesamiento de clasificación aproximada de datos (categorización)

El propósito de la categorización y clasificación es reducir las variables de muestra.Los métodos comunes incluyen clasificación equidistante y clasificación de frecuencia igual. Las variables independientes se pueden dividir en varias categorías según la experiencia, y el método de clasificación puede ser diferente. Se recomienda utilizar la prueba de chi-cuadrado para decidir qué método de clasificación utilizar. Las variables continuas pueden usar el método de cambio WOE para simplificar el modelo, pero reducir la capacidad de interpretación del modelo.

8 Selección de variables Durante

el análisis de datos, se enfrentarán cientos o miles de variables. Generalmente, solo unas pocas variables están relacionadas con la variable objetivo, lo que ayuda a mejorar la precisión de la predicción. Por lo general, en el modelado y el análisis, no hay más de 10-15 variables significativas, que se denominan variables de correlación fuertes (variables inteligentes). Las variables se pueden seleccionar utilizando métodos de filtro de variables. Los escenarios comunes de aplicación de filtro variable son los siguientes.

 



En tercer lugar, el proceso de análisis de datos

1 a la investigación de las empresas para entender los problemas de negocio que hay que resolver, para mapear los problemas de negocio de análisis de datos y la tarea

dentro de las empresas de investigación de dos datos externos, encontrar las necesidades de análisis de datos, se reunirán datos a un área específica , Data mart o data warehouse, análisis exploratorio

3 limpieza de datos, incluida la verificación de la consistencia de los datos, manejo de valores atípicos y valores faltantes, eliminación de datos duplicados, etc.

4 conversión de datos, como el binning de datos (Binning), la conversión de variables de caracteres Para las variables digitales, resuma de acuerdo con las dimensiones requeridas de los datos.5

Establezca modelos y establezca diferentes modelos de acuerdo con las necesidades comerciales (como advertencia de abandono de clientes, detección de fraude, análisis de la cesta de la compra, respuesta de marketing, etc.)

6 Interpretación y evaluación de resultados del modelo, los expertos en negocios realizan negocios Interpretación y evaluación de resultados

4. Escenarios de análisis de grandes datos y aplicación de modelos

El análisis de datos y el modelado deben aclarar primero los requisitos del negocio y luego elegir el análisis descriptivo o el análisis predictivo. Si el propósito del análisis es describir los patrones de comportamiento del cliente, se utiliza el análisis de datos descriptivos, y el análisis descriptivo considera las reglas de asociación, reglas de secuencia, agrupación y otros modelos.

El análisis predictivo de datos es cuantificar la probabilidad de que ocurra un evento en el futuro. Existen dos modelos principales de análisis predictivo, la predicción de clasificación y la predicción de regresión. En los modelos de predicción de clasificación comunes, las variables objetivo suelen ser variables de clasificación binarias, como fraude o no, pérdida o no, y crédito bueno o malo. En los modelos de predicción de regresión, las variables objetivo suelen ser variables continuas, y las más comunes incluyen la predicción del precio de las acciones y la predicción de la tasa de pérdida por defecto (LGD).

El análisis de supervivencia se centra en analizar los resultados de un evento y el tiempo que tarda en aparecer este resultado, se origina en el campo médico y estudia el tiempo de supervivencia de los pacientes después del tratamiento. El análisis de supervivencia también se puede utilizar para predecir el tiempo de abandono del cliente, el tiempo de la próxima compra del cliente, el tiempo de incumplimiento del cliente, el tiempo de reembolso anticipado del préstamo del cliente, el tiempo del sitio web de la próxima visita del cliente, etc.

Los escenarios de aplicación de análisis de datos comunes son los siguientes:

1 Marketing

Modelado de análisis de respuesta de marketing (regresión logística, árbol de decisión)

Modelado de análisis de elevación de red (reglas de asociación)

Modelo de análisis de retención de clientes (análisis de Kaplan Mel, red neuronal)

análisis de compras azul (análisis de asociación Apriori)

sistema de recomendación automática (recomendación de filtrado colaborativo, recomendación basada en contenido, recomendación demográfica, recomendación basada en conocimiento, recomendación de combinación, reglas de asociación)

Segmentación del cliente (agrupamiento)

predicción de abandono (regresión logística)

2 gestión de

riesgos Puntuación de riesgo de crédito del cliente (SVM, árbol de decisión, red neuronal)

modelado de puntuación de riesgo de mercado (regresión logística y árbol de decisión

)

fraude de modelado de puntuación de riesgo operativo (SVM) Detección (árbol de decisión, agrupación, red social)

V. Método de evaluación del modelo de datos 1

Método de discriminación de valor AUC

 



AUC menos de 0,7 débil reconocimiento

AUC entre 0,7-0,8 reconocimiento farmacéuticamente

AUC entre 0,8-0,9 capacidad superior para identificar

AUC mayor que 0.9 Modelo inesperado

2KS discriminante

valor mayor KS de 0,2 representaría una buena previsibilidad

18 artículos originales publicados · elogiados 4 · 40,000+ vistas

Supongo que te gusta

Origin blog.csdn.net/caoming51021/article/details/105540695
Recomendado
Clasificación