Carte de crédit (valeurs WOE et IV) _ Supplément

Cycle de vie du client: utilisé pour décrire les étapes que les clients subissent lorsqu'ils reçoivent différents produits ou services, y compris l'étape de considération, l'étape d'achat et l'étape de comportement post-achat
Insérez la description de l'image ici

Valeur à vie du client: la valeur totale générée par les clients dans l'ensemble du cycle de vie du client à l'avenir, CLV peut être utilisé comme indicateur pour mesurer le niveau de la relation client

Insérez la description de l'image ici
Informations client: utilisées pour l'analyse client, le but de l'analyse client est de trouver une perspective précise pour formuler des stratégies, de manière à acquérir et fidéliser de manière optimale les clients, et définir des clients à forte valeur ajoutée

  • Informations descriptives: informations de base sur les attributs des clients, telles que le sexe, l'âge, la situation géographique et le revenu, etc.
  • Informations sur le comportement: informations sur le comportement du client, c'est-à-dire les tendances générales des clients lorsqu'ils utilisent des produits et services, tels que l'achat, l'enregistrement, la navigation et l'utilisation de différents appareils, etc.
  • Informations interactives: informations interactives sur le client et le site Web, utilisées pour des tests pratiques de performance du site Web ou du logiciel (le plus important est le taux de conversion)
  • Informations sur l'attitude: informations sur les préférences des clients, telles que les préférences, les choix, les désirs, la reconnaissance de la marque et les sentiments, etc.

La base de classification des scores fico est basée sur l'importance de chaque classification en général. Pour certains groupes (comme les personnes qui commencent tout juste à utiliser les cartes de crédit), l'importance de chaque classification peut être différente

Processus de carte de crédit (extraction)
de données brutes-> extraire le sous-ensemble-> lire les données-> laver les données

La carte de crédit Y doit être 1 ou 0

Insérez la description de l'image ici
WOE (Evidence Weight): Le poids de la preuve décrit la quantité de preuves d'une boîte pour la prédiction; plus la valeur est élevée, plus la preuve qui prédit la boîte est forte à 1, et plus la valeur est petite, plus la preuve qui prédit la boîte à 0 est forte. S'il est égal à 0, cela signifie qu'il n'y a aucune preuve dans cette case; il est principalement utilisé pour déterminer l'effet de classification de la case lors de la division de la case. Pour
Insérez la description de l'image ici
WOE, cela vaut la peine de traiter les valeurs aberrantes. Valeur non infinie

Insérez la description de l'image ici
Le graphique WOE peut également être tracé à travers la valeur WOE , à partir de laquelle on peut voir que la relation entre un seul X et Y, et peut refléter la tendance de changement de X à Y

Insérez la description de l'image ici
Convertissez les variables catégorielles en variables continues via le binning et obtenez une nouvelle colonne WOE en calculant la valeur WOE après le binning. Cette colonne WOE peut être considérée comme une variable continue, car elle mesure chaque case après le binning Pour le degré de discrimination que Y est 0/1, introduisez enfin une colonne de valeurs WOE dans la régression logistique;
(Important) Chaque colonne placée dans la dernière régression logistique de la carte de crédit est une colonne de valeurs WOE

Insérez la description de l'image ici
Valeur IV: La valeur d'information de chaque case. Les informations ici sont sa capacité de prédiction.
Remarque: Les informations ici sont différentes des informations de l'arbre de décision précédent. Les informations de l'arbre de décision indiquent le degré de confusion des informations, et les informations ici se réfèrent à Est sa capacité prédictive; plus la valeur est élevée, plus la capacité prédictive de la boîte est forte et la somme de toutes les valeurs IV dans cette colonne indique la capacité prédictive totale de la variable, donc plus la valeur IV est grande, plus l'information est prédictive Plus la variable est forte, plus elle est importante

Insérez la description de l'image ici
Insérez la description de l'image ici
IV <0,02, presque aucune aide pour la prédiction, 0,02 <= IV <0,1, a une certaine aide
0,1 <= IV <0,3, a une grande aide pour la prédiction, IV> = 0,3, a une grande aide
IV> 0,5, doit être traitée avec prudence , Il peut être trop bon, IV> 1, la variable ne doit pas être obligatoire

Comment vérifier si la variable peut être utilisée lorsque IV> 0,5?
La méthode de vérification consiste à utiliser de nouvelles données pour détecter si elles sont applicables. En outre, dans des circonstances normales, lorsqu'il y a un grand nombre de valeurs manquantes, IV> 0,5 peut également apparaître.
Par conséquent: le classement des valeurs IV peut également être utilisé comme un classement d'importance variable

Supplément: en plus des valeurs IV, les forêts aléatoires peuvent également calculer des classements d'importance variable

Résumé: La valeur WOE est utilisée pour la régression logistique, et la valeur IV est utilisée pour calculer le classement de l'importance des variables pour filtrer les variables

Insérez la description de l'image ici
cotes: P (bon) / P (mauvais)
Dans (cotes) dans une personne / catégorie : la proportion de personnes dans la même catégorie, le rapport du bon au mauvais
WOE: la proportion de cette catégorie de contributions à toutes les personnes

cotes = P (bon) / P (mauvais)

Le rapport de
cotes et le score sont dans une relation proportionnelle In (cotes) = -In (P / (1-P))
Insérez la description de l'image ici
Insérez la description de l'image ici

Publié 69 articles originaux · loué 11 · 20 000+ vues

Je suppose que tu aimes

Origine blog.csdn.net/weixin_41636030/article/details/90269621
conseillé
Classement