Minería de datos: Banco tasas de producción de tarjetas - que significa que el binning de datos, AY, IV

En el proyecto de calificación del Banco, que en general tienen que ser desechado datos, no el binning tratamiento ficticio datos, pero con el valor AY para reemplazar, y luego en el modelo.
El proceso de aprendizaje de estas operaciones tendrá algunas preguntas, como por ejemplo, ¿cuál es el significado de los datos de agrupación, AY y IV valores está haciendo? A continuación una descripción del significado de estos procesamiento de datos.

hurgar en la basura de datos

Se van a agrupar los datos son datos continuos se dividen en grupos, los datos discretos o más categorías, re-división, el número de clases se divide en menos funciones.

Importancia de los contenedores de datos

  1. La categoría de características discretas se binned clasificación secundaria (por ejemplo, todas las ciudades de China, por binning área de la ciudad se divide en condados, etc.), por lo que el modelo puede leer rápidamente iteración.
  2. Para funciones continuas, que reducirá los datos bin ruido. Binning de datos tiene una fuerte estabilidad.
  3. Después de que el binning de datos continua, un maniquí o proceso de codificación de una sola caliente, cada categoría de cada característica tendrá un peso, esto es equivalente al modelo no lineal se introduce, es posible mejorar la capacidad de ajuste del modelo.
    Aquí se puede ver, sólo después de la x1 características originales, tratamiento ficticio se convierte xa y xb (regresión polinómica analógica), y mejorar la capacidad de volver a tratar con la lógica no lineal
    Aquí Insertar imagen Descripción

Aquí Insertar imagen Descripción
El método de binning en supervisada y sin supervisión.

  • binning supervisada: caja de chi-cuadrado, Mejor KS-Bin (binario solamente) y así sucesivamente.
  • binning no supervisada: Ancho de bin, y otros contenedores de frecuencia, la agrupación bin, el método de mínimo entropía.
  • método Binning describió

Nota : bin no es necesariamente ser valores continuos en datos discretas, sino un proceso de suavizado de los datos, algunos datos pueden ser agrupados juntos, y el valor medio o la mediana, los datos para reducir el ruido.

AY suma IV

Después de que los datos discretos, con el fin de poner en un modelo de regresión logística, la necesidad de tratamiento de datos, porque los datos en la clase 123 no es el tamaño, el número de la relación se limita a indicar el orden, una brecha numérica sustancial entre sí mismos y no se sabe el (AY puede resolver este problema) . Generalmente usamos el método del maniquí, o que codifica una sola caliente las categorías de características extraídos a una sola función. ¿Cuál es el ay?

AFLICCIÓN

¡ay nombre completo es el peso de la evidencia, es decir, el peso de la evidencia. Es una forma codificada de la argumento original.

Ecuación WOE dos tipos de comprensión

1. Distribución de los malos restar los buenos.
Aquí Insertar imagen Descripción
2. Cada caja relación entre la mala y buena característica general diferencia entre la proporción de la mala buena.
Aquí Insertar imagen Descripción
AY mayor, mayor es la diferencia entre los dos anteriores. Los datos originales en el bien y el mal se mezclan entre sí, no es capaz de distinguir el. Operamos se van a agrupar, gente buena y mala se pueden separar tanto como sea posible, pero ¡ay de la medida después de hurgar en la basura, de dos niveles de la gente buena y mala.
AY entenderse desde dos ángulos fórmula

AY y regresión logística

fórmula de regresión logística es:
Aquí Insertar imagen Descripción
Entre ellos, podemos encontrar una fórmula como la izquierda con Ay, ay pero es (Badi / Badt) / (Goodi / goodt), después de una muestra dada, Badt y goodt se determinan (muestra bueno o malo es un número determinado), por lo que el tamaño de AY impacto de cada grupo y sólo Badi Goodi.
El xWOE de la derecha (el número original 123), de hecho, a la fórmula correspondiente a la izquierda de modo que los lados izquierdo y derecho en una relación positiva.
Relación entre cada conjunto de dichas características a partir del número anterior 123 ( categoría dentro de un solo grupo ), en la aflicción ( resultado de este valor de la etiqueta de características y la combinación de justo antes dentro de un simple conjunto de paquetes, sin valor lengüeta de arrastre las relaciones ) en la que en cada categoría se puede ver que la influencia del tamaño del valor de la etiqueta.
La fórmula largo AY de esta manera, sino también para cuidar el uno del otro con regresión logística. Referencia al coeficiente de regresión lineal anterior representa las características de contribución. La regresión logística para jugar también el mismo efecto con la regresión lineal, para explicar mejor las características de la contribución del modelo, particularmente para las variables discretas, por lo que tiene AY.
Aquí Insertar imagen Descripción

AY y variables ficticias

1.WOE
w aquí es la característica x ¡Ay otros tipos de valores. δ volver sólo para marcar y agregar el carácter.
Aquí Insertar imagen Descripción
2. ficticia
variables ficticias son Let operación de comparación, por ejemplo, un argumento m tiene tres valores se M1, M2, M3, que se pueden configurar dos variables ficticias M1, M2: cuando m es m1, tomar M1 y m2 se lleva 0 1; cuando m es m2, M1 y m2 se lleva 1 tiene 0; cuando m es m3, M1 y m2 se lleva a 0 0 tomado. Por lo tanto, M1 y M2 determina el valor del valor de m. La razón por la cual no construye la variable M3, basado en la redundancia de información y consideren multicolinealidad y similares . (M3 es construir codifica uno en caliente, en lugar de variables ficticias)
X11 corresponde xa, es decir, la muestra pertenece x11, xa son todos 1, xb son todos 0. El
Aquí Insertar imagen Descripción
coeficiente se 3.woe variable es positivo
x1 alta proporción de muestras malas, w11> 0, entonces w12 <0 High (buena relación de la muestra ). La captura de pantalla anterior fórmula puede ser obtenida y la relación entre a1 w11, porque w11> 0, de modo que A1> 0. Del mismo modo A2 puede ser obtenido.
De acuerdo con la fórmula, ya que el mismo número de x11 y xa, por lo que inevitablemente coeficiente> 0. Si negativo, la necesidad de volver a hurgar en la basura.
Aquí Insertar imagen Descripción
4. La razón para no usar las variables ficticias utilizadas AY

1. incapaz de calcular su puntuación de crédito para cada valor de la variable independiente
2. caso un argumento se desecha en parte puede ocurrir cuando se está explorando modelo de regresión de la variable .

Significado monotonía de AY

Peso w es una constante: Personal apreciado debido a que aproximadamente ln ambos lados (), ya que la correspondencia entre (x ^ 2 = ax ^ 2 , a = 1, es una constante), dicho más arriba, es proporcional a, y por lo tanto w es constante.
Aquí Insertar imagen Descripción
w es constante, el mismo cambio numerador y el denominador, y cuando AY incrementa moléculas también se incrementa (molécula debe entenderse que la determinación de la probabilidad de la mala muestra). Nota : En este caso, dejar que AY monótona es permitir ay tienen una relación lineal entre (x) ey, sino también ayudar a la gente a entender, más que el principio de la no linealidad entre x e y.
Aquí Insertar imagen Descripción
Nota : si no monótona, es decir, convertidos a AY, entre x e y es una relación no lineal puede ser re-bin (beneficio bin igual frecuencia), o ajustarse manualmente.
Aquí Insertar imagen Descripción

Cálculo del caso AY

1.WOE fórmula es malo que bueno.
valor negativo 2.WOE que representa el paquete actual en el individuo determinado (dentro del conjunto de datos) si la mala influencia jugó muestra la dirección y magnitud de actuación.

  • N, la relación general de paquetes es mayor que la proporción de la dirección de impacto es positivo, es decir, hacia la mala muestra, que afecta al tamaño de un único valor.
  • relación negativa es inferior a la proporción total del paquete, una dirección de impacto negativo, es decir, hacia el pocillo de muestra, que afectan el tamaño de un solo valor.

Aquí Insertar imagen Descripción

flujo de proceso AY

Aquí Insertar imagen Descripción

beneficios de conversión WOE

Después de la codificación 3.WOE, de hecho, los argumentos tienen algún tipo de naturaleza estandarizada, es decir, entre los valores respectivos del argumento interno pueden dirigir comparación (comparación entre AY)
Aquí Insertar imagen Descripción
Nota : AY paquete no tiene en cuenta las muestras que representa la proporción de la muestra general, si un valor AY paquete es alta, pero el número de muestras representaron el número total de muestras es baja, la capacidad general para predecir la disminución de las variables. Por lo tanto, tenemos que calcular el IV.

valor IV

IV (Valor de la Información) Es decir, el valor de la información.

Significado el valor de IV

IV se utiliza para medir la capacidad predictiva de las variables independientes, el más propicio para predecir las características elegidas .
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
¿Por qué IV pueden usarse para medir la cantidad de información :
el apoyo a la teoría detrás de esto es que la entropía relativa. IV la distribución esperada y la distribución real de la distribución específica y malos en la distribución de los buenos. IV indicadores son las diferencias en la distribución de los relativamente buenos y malos de la distribución de entropía de la información entre .

La fórmula IV,

Calculado AY IV, puede ser visto como una suma ponderada de aflicción.
Para cada i grupo, puede calcularse Woei. Para i paquete, habrá unos correspondientes valores de la VI.
Aquí Insertar imagen Descripción
valor IV de la totalidad de la variable, añadiendo a cada paquete IV:
Aquí Insertar imagen Descripción

Caso IV de la informática

Aquí Insertar imagen Descripción

Para medir la contribución del valor del modelo IV

Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

AY y IV los valores más reflexión

¿Por qué IV en lugar de directamente con AY

Cada agrupación AY variable y IV son significado implícito de esta agrupación para predecir la capacidad de la variable de destino. ¿Por qué no directamente AY suma o como una medida de la suma total del valor absoluto de la capacidad predictiva de una variable que?

  1. Cuando medimos la capacidad de predicción de una variable, se utiliza un valor de índice no debe ser negativo , de lo contrario, diciendo que un indicador variable del poder predictivo de -2.3, suena muy incómoda.
    Aquí Insertar imagen Descripción
    Pero esta no es la razón más importante, debido a que el valor absoluto se puede agregar a limitar el valor es positivo .
  2. La razón principal se multiplica por (pi-PN), que refleja el número actual de paquetes proporción de individuos en el número total de variables individuales, el impacto sobre las variables de poder predictivo.
    Por ejemplo:
    Cuando el valor de una variable es 1, la relación de respuesta alcanzó el 90%, pero no podemos decir que el poder predictivo de las variables A muy fuerte, porque cuando A 1 toma, en respuesta, aunque la proporción es alta, pero el número de clientes en este grupo muy poco y muy baja proporción . Aunque, si un cliente adquiere la variable A-1, entonces tiene la posibilidad de 90% de la respuesta, pero la posibilidad de tomar una variable cliente A 1 en sí es muy baja (Se puede ver la cantidad de muestras tomadas 0 es muy grande, por lo que los clientes obtengan la probabilidad muy pequeña de 1 en A, y todo esto debido a que el tamaño de la muestra es demasiado pequeños paquetes, por lo que la muestra general, las variables predictoras habilidad no es tan fuerte)
    Aquí Insertar imagen Descripción
    A partir de esta tabla podemos ver que, cuando la variable toma una proporción de respuesta del 90%, correspondiente a AY alta, pero el IV correspondiente es muy baja, la razón es que IV en AY frontal multiplicada por un factor (PI- pn), y este factor bien considerada dentro de este grupo representan el ratio de la muestra total de muestras, menor será la proporción, menor será la contribución de este grupo en el poder predictivo global de las variables . Por el contrario, si el valor absoluto de la suma AY, obtendrá un alto índice directamente, no es razonable.
    Aquí Insertar imagen Descripción
    Aquí Insertar imagen Descripción

Las condiciones extremas y el tratamiento de IV

IV dependencia AY, y IV es una medida bien del grado de influencia de las variables independientes sobre el índice variable de destino. Sin embargo, el uso del proceso debe prestar atención a un problema: ninguna variable de paquetes, en las que el número no responde o el número de respuestas debe aparecer = 0 = 0. (En cada compartimiento, debe tener muestras positivas y negativas)
Aquí Insertar imagen Descripción
Podemos ver a partir de los problemas anteriores, un IV de hecho, no es un inconveniente, en respuesta a una proporción de 100% o 0 paquete no es automáticamente se produce en la variable de proceso . Por lo tanto, conocer la relación de respuesta de 0 o 100% de los casos, ¿cómo debemos hacerlo? Las recomendaciones son las siguientes:
Aquí Insertar imagen Descripción
Por lo tanto, en general, en la preparación de la función hurgar en la basura, se tendrá en cuenta el número de muestras en los recipientes positivos y negativos.

referencias

https://blog.csdn.net/pylady/article/details/78882220
https://zhuanlan.zhihu.com/p/29316085
https://zhuanlan.zhihu.com/p/80134853
https: //zhuanlan.zhihu .com / p / 111459123
https://zhuanlan.zhihu.com/p/89071633

Publicado 26 artículos originales · ganado elogios 29 · Vistas a 10000 +

Supongo que te gusta

Origin blog.csdn.net/AvenueCyy/article/details/105162470
Recomendado
Clasificación