Comment les modèles d’apprentissage automatique traditionnels jugent-ils la manière dont chaque fonctionnalité est prédite ?

L'article précédent lancé : algorithme de classification d'images, comment expliquer pourquoi il est jugé comme analogie A et analogie B ? Il s'agit d'analyser les détails du modèle pour le modèle d'image. Contrairement aux images, il existe des modèles plus courants formés sur des données textuelles, tels que des modèles de recommandation, des modèles de recherche, des modèles de contrôle des risques, etc. Comment les modèles tirés de ces données déterminent-ils quelle fonctionnalité est la plus efficace pour une certaine classification ?

1 : auc/acc/gain d'information, etc. (le gain d'information s'applique uniquement aux modèles d'arbre de décision, aux modèles de régression logistique, ftrl)

Prenons l'exemple de auc. À grande échelle, vous pouvez directement prendre toutes les données. Peu importe que vous ayez 100 catégories ou 1 000 catégories, changez simplement l'étiquette de l'étiquette en une classification binaire de 0 et 1, puis vous pourrez calculer chaque caractéristique. .La valeur auc, puis jugez de l'importance de chaque fonctionnalité sur l'ensemble des données.

À plus petite échelle, si vous souhaitez voir quelle fonctionnalité joue le rôle le plus important dans une certaine catégorie de données, vous pouvez utiliser l'indicateur acc pour l'évaluation. Utilisez chaque fonctionnalité pour prédire séparément et voyez quelle fonctionnalité a le plus grand accès, puis quelle fonctionnalité est la plus importante

2 : Les méthodes ci-dessus sont parmi les plus courantes et les plus grossières. Si vous souhaitez savoir de manière plus précise quelle caractéristique se trouve sur quelle classe dans le processus de prédiction, dans quelle mesure et dans quelle mesure la probabilité peut jouer un rôle, tout comme l'as article (Article précédent) Le modèle de jugement mentionné à la fin est en raison de quels détails il est finalement prédit qu'il sera aussi fin que la catégorie A.

Je prends comme exemple le modèle de réseau de neurones + multi-classification

Comme nous le savons tous, dans le modèle de réseau neuronal, il existe des couches de poids et la couche d'entrée possède également de nombreuses fonctionnalités.

(1) Certaines caractéristiques de séquence seront converties en poids de « dimension fixe » par le modèle de codage pré-entraîné, comme 128 dimensions ;

(2) Certains initialiseront le poids de manière aléatoire pendant l'entraînement du modèle, puis le mettront à jour de manière itérative pendant le processus d'entraînement ;

(3) Pour un autre exemple, deepfm transformera chaque fonctionnalité en une dimension fixe (parfois il classera toutes les fonctionnalités en N catégories, et chaque catégorie sera transformée en une dimension différente. La pratique Double Eleven d'Ali depuis 17 ans) ;

(4) widedeep est toujours directement concaténé pour les caractéristiques numériques

Les exemples ci-dessus montrent tous que la couche d'entrée est une fonctionnalité que nous, les humains, pouvons comprendre, il est donc nécessaire de diviser et de trouver différents blocs comme dans l'article Ace, et l'opération de clustering est alors inutile.

La méthode spécifique est la suivante :  examinez d'abord l'échantillon global (en supposant qu'il y ait 1 000 catégories), le principe du filtrage est que votre modèle peut prédire correctement l'échantillon, si acc est de 0,8, alors les échantillons finaux restants sont de 4/5, et puis sélectionnez l'une des catégories, appelons-la catégorie A pour le moment, en supposant que 5000 échantillons soient sélectionnés

Ensuite, utilisez une certaine fonctionnalité que vous souhaitez juger (toutes les autres fonctionnalités sont définies sur les valeurs par défaut) et saisissez-la dans le modèle pour voir quel est le score final. Vous obtiendrez 5 000 scores, le score est de type flottant, puis divisé en 20 compartiments, en comptant chacun. Le nombre de compartiments peut être utilisé pour juger de la « haute probabilité » que cette fonctionnalité affecte le jugement de cette classe et dans quelle mesure elle peut être analysée ensemble.

3 : Si vous souhaitez savoir lesquelles des N caractéristiques affectent le jugement final d’un échantillon, que devez-vous faire ?

Toujours comme en 2, découvrez le score final de chaque caractéristique, et pour les caractéristiques avec un score de 0 ou une petite fluctuation autour de 0, on peut juger que ces caractéristiques ne sont pas très importantes pour la prédiction de cet échantillon, et Les caractéristiques qui s'écartent grandement de 0 sont celles qui affectent en fin de compte la classification de cet échantillon.

L'analyse de cela présente également certains avantages. Vous pouvez découvrir les échantillons mal prédits, puis voir quelles caractéristiques (quelles caractéristiques) font finalement que le modèle prédit à tort cet échantillon, puis penser à de nouvelles caractéristiques ou caractéristiques pour ces situations. suggestions pour l'amélioration du modèle !

Supongo que te gusta

Origin blog.csdn.net/a1066196847/article/details/103000207
Recomendado
Clasificación