Cycle de vie du client: utilisé pour décrire les étapes que les clients subissent lorsqu'ils reçoivent différents produits ou services, y compris l'étape de considération, l'étape d'achat et l'étape de comportement post-achat
Valeur à vie du client: la valeur totale générée par les clients dans l'ensemble du cycle de vie du client à l'avenir, CLV peut être utilisé comme indicateur pour mesurer le niveau de la relation client
Informations client: utilisées pour l'analyse client, le but de l'analyse client est de trouver une perspective précise pour formuler des stratégies, de manière à acquérir et fidéliser de manière optimale les clients, et définir des clients à forte valeur ajoutée
- Informations descriptives: informations de base sur les attributs des clients, telles que le sexe, l'âge, la situation géographique et le revenu, etc.
- Informations sur le comportement: informations sur le comportement du client, c'est-à-dire les tendances générales des clients lorsqu'ils utilisent des produits et services, tels que l'achat, l'enregistrement, la navigation et l'utilisation de différents appareils, etc.
- Informations interactives: informations interactives sur le client et le site Web, utilisées pour des tests pratiques de performance du site Web ou du logiciel (le plus important est le taux de conversion)
- Informations sur l'attitude: informations sur les préférences des clients, telles que les préférences, les choix, les désirs, la reconnaissance de la marque et les sentiments, etc.
La base de classification des scores fico est basée sur l'importance de chaque classification en général. Pour certains groupes (comme les personnes qui commencent tout juste à utiliser les cartes de crédit), l'importance de chaque classification peut être différente
Processus de carte de crédit (extraction)
de données brutes-> extraire le sous-ensemble-> lire les données-> laver les données
La carte de crédit Y doit être 1 ou 0
WOE (Evidence Weight): Le poids de la preuve décrit la quantité de preuves d'une boîte pour la prédiction; plus la valeur est élevée, plus la preuve qui prédit la boîte est forte à 1, et plus la valeur est petite, plus la preuve qui prédit la boîte à 0 est forte. S'il est égal à 0, cela signifie qu'il n'y a aucune preuve dans cette case; il est principalement utilisé pour déterminer l'effet de classification de la case lors de la division de la case. Pour
WOE, cela vaut la peine de traiter les valeurs aberrantes. Valeur non infinie
Le graphique WOE peut également être tracé à travers la valeur WOE , à partir de laquelle on peut voir que la relation entre un seul X et Y, et peut refléter la tendance de changement de X à Y
Convertissez les variables catégorielles en variables continues via le binning et obtenez une nouvelle colonne WOE en calculant la valeur WOE après le binning. Cette colonne WOE peut être considérée comme une variable continue, car elle mesure chaque case après le binning Pour le degré de discrimination que Y est 0/1, introduisez enfin une colonne de valeurs WOE dans la régression logistique;
(Important) Chaque colonne placée dans la dernière régression logistique de la carte de crédit est une colonne de valeurs WOE
Valeur IV: La valeur d'information de chaque case. Les informations ici sont sa capacité de prédiction.
Remarque: Les informations ici sont différentes des informations de l'arbre de décision précédent. Les informations de l'arbre de décision indiquent le degré de confusion des informations, et les informations ici se réfèrent à Est sa capacité prédictive; plus la valeur est élevée, plus la capacité prédictive de la boîte est forte et la somme de toutes les valeurs IV dans cette colonne indique la capacité prédictive totale de la variable, donc plus la valeur IV est grande, plus l'information est prédictive Plus la variable est forte, plus elle est importante
IV <0,02, presque aucune aide pour la prédiction, 0,02 <= IV <0,1, a une certaine aide
0,1 <= IV <0,3, a une grande aide pour la prédiction, IV> = 0,3, a une grande aide
IV> 0,5, doit être traitée avec prudence , Il peut être trop bon, IV> 1, la variable ne doit pas être obligatoire
Comment vérifier si la variable peut être utilisée lorsque IV> 0,5?
La méthode de vérification consiste à utiliser de nouvelles données pour détecter si elles sont applicables. En outre, dans des circonstances normales, lorsqu'il y a un grand nombre de valeurs manquantes, IV> 0,5 peut également apparaître.
Par conséquent: le classement des valeurs IV peut également être utilisé comme un classement d'importance variable
Supplément: en plus des valeurs IV, les forêts aléatoires peuvent également calculer des classements d'importance variable
Résumé: La valeur WOE est utilisée pour la régression logistique, et la valeur IV est utilisée pour calculer le classement de l'importance des variables pour filtrer les variables
cotes: P (bon) / P (mauvais)
Dans (cotes) dans une personne / catégorie : la proportion de personnes dans la même catégorie, le rapport du bon au mauvais
WOE: la proportion de cette catégorie de contributions à toutes les personnes
cotes = P (bon) / P (mauvais)
Le rapport de
cotes et le score sont dans une relation proportionnelle In (cotes) = -In (P / (1-P))