Tarjeta de puntaje de crédito (valores WOE y IV) _Suplemento

Ciclo de vida del cliente: se utiliza para describir las etapas a las que se someten los clientes cuando reciben diferentes productos o servicios, incluida la etapa de consideración, la etapa de compra y la etapa de comportamiento posterior a la compra.
Inserte la descripción de la imagen aquí

Valor de vida útil del cliente: el valor total generado por los clientes en todo el ciclo de vida del cliente en el futuro, CLV puede usarse como un indicador para medir el nivel de relación con el cliente

Inserte la descripción de la imagen aquí
Información del cliente: utilizada para el análisis del cliente, el propósito del análisis del cliente es encontrar una perspectiva precisa para formular estrategias, a fin de adquirir y retener clientes de manera óptima, y ​​definir clientes de alto valor

  • Información descriptiva: información básica de atributos de los clientes, como género, edad, ubicación geográfica e ingresos, etc.
  • Información de comportamiento: información de comportamiento del cliente, es decir, los patrones generales de los clientes cuando usan productos y servicios, como la compra, el registro, la navegación y el uso de diferentes dispositivos, etc.
  • Información interactiva: información interactiva del cliente y el sitio web, utilizada para pruebas prácticas de rendimiento del sitio web o software (lo más importante es la tasa de conversión)
  • Información de actitud: información de preferencia del cliente, como preferencias, elecciones, deseos, reconocimiento de marca y sentimientos, etc.

La base de clasificación de los puntajes de fico se basa en la importancia de cada clasificación en individuos generales. Para ciertos grupos (como las personas que recién comienzan a usar tarjetas de crédito), la importancia de cada clasificación puede ser diferente

Proceso de tarjeta de puntaje de crédito (minería)
datos sin procesar-> extraer subconjunto-> leer datos-> datos de lavado

La tarjeta de puntaje de crédito Y debe ser 1 o 0

Inserte la descripción de la imagen aquí
WOE (peso de la evidencia): el peso de la evidencia describe la cantidad de evidencia que tiene un cuadro para la predicción; cuanto mayor sea el valor, mayor será la evidencia que predice el cuadro a 1 y cuanto menor sea el valor, mayor será la evidencia que predice el cuadro a 0. Si es igual a 0, significa que no hay evidencia en este cuadro; se utiliza principalmente para determinar el efecto de clasificación del cuadro al dividir el cuadro. Para
Inserte la descripción de la imagen aquí
WOE, vale la pena tratar con valores atípicos. Valor no infinito

Inserte la descripción de la imagen aquí
El gráfico WOE también se puede dibujar a través del valor WOE , a partir del cual se puede ver que la relación entre una sola X e Y, y puede reflejar la tendencia de cambio de X a Y

Inserte la descripción de la imagen aquí
Convierta las variables categóricas en variables continuas a través del binning, y obtenga una nueva columna WOE calculando el valor de WOE después del binning. Esta columna WOE puede considerarse como una variable continua, ya que es una medida de cada cuadro después del binning. Para el grado de discriminación de que Y es 0/1, finalmente alimente una columna de valores WOE en la regresión logística;
(Importante) Cada columna colocada en la última regresión logística en la tarjeta de puntuación de crédito es una columna de valores WOE

Inserte la descripción de la imagen aquí
Valor IV: El valor de información de cada cuadro. La información aquí es su capacidad de predicción.
Nota: La información aquí es diferente de la información en el árbol de decisión anterior. La información en el árbol de decisión indica el grado de confusión de la información, y la información aquí se refiere Es su capacidad predictiva; cuanto mayor sea el valor, mayor será la capacidad predictiva de la caja, y la suma de todos los valores IV en esta columna indica la capacidad predictiva total de la variable, por lo que cuanto mayor sea el valor IV, más predictiva será la información. Cuanto más fuerte, más importante es la variable

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
IV <0.02, casi sin ayuda para la predicción, 0.02 <= IV <0.1, tiene cierta ayuda
0.1 <= IV <0.3, tiene una gran ayuda para la predicción, IV> = 0.3, tiene una gran ayuda
IV> 0.5, debe tratarse con precaución , Puede ser demasiado bueno, IV> 1, la variable no debe ser requerida

¿Cómo verificar si la variable se puede usar cuando IV> 0.5?
El método de verificación es usar nuevos datos para detectar si es aplicable; además, en circunstancias normales, cuando hay una gran cantidad de valores faltantes, también puede aparecer IV> 0.5.
Por lo tanto: la clasificación de valores IV también se puede usar como una clasificación de importancia variable

Suplemento: además de los valores IV, los bosques aleatorios también pueden calcular clasificaciones de importancia variable

Resumen: el valor WOE se usa para la regresión logística, y el valor IV se usa para calcular la clasificación de importancia variable para filtrar variables

Inserte la descripción de la imagen aquí
probabilidades: P (bueno) / P (malo)
En (probabilidades) en una persona / categoría : la proporción de personas en la misma categoría, la proporción de bueno a malo
WOE: la proporción de esta categoría de contribuciones a todas las personas

odds = P (bueno) / P (malo)

El
odds ratio y la puntuación están en una relación proporcional In (odds) = -In (P / (1-P))
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Publicado 69 artículos originales · elogiado 11 · 20,000+ visitas

Supongo que te gusta

Origin blog.csdn.net/weixin_41636030/article/details/90269621
Recomendado
Clasificación