Apprentissage automatique [résumé de bilan de fin de semestre] - points de connaissance et exemples d'algorithmes (arrangement détaillé)
1. Qu'est-ce que l'apprentissage automatique, qu'est-ce que l'ensemble de formation, l'ensemble de validation et l'ensemble de test ? (Extrait de la série ML Popular Science (1) )
Apprentissage automatique : apprendre une partie des données informatiques, puis prédire et juger d'autres données
① Ensemble d'apprentissage :
Fonction : Estimez le modèle
pour apprendre l'échantillon d'ensemble de données et créez un classificateur en faisant correspondre certains paramètres. Établir une méthode de classification, qui est principalement utilisée pour former le modèle
② Ensemble de vérification :
fonction : déterminez la structure du réseau ou contrôlez les paramètres de la complexité du modèle
. Pour le modèle appris, ajustez les paramètres du classificateur, tels que la sélection du nombre d'unités cachées dans le réseau de neurones. L'ensemble de validation est également utilisé pour déterminer la structure du réseau ou les paramètres qui contrôlent la complexité du modèle.
③ Ensemble de test :
fonction : pour tester les performances du modèle optimal final, principalement
pour tester la capacité de résolution du modèle formé (taux de reconnaissance, etc.)
2. Les caractéristiques, les différences et les algorithmes correspondants de l'apprentissage supervisé, non supervisé et semi-supervisé
Remarque supplémentaire :
Apprentissage actif : l'algorithme d'apprentissage sélectionne des données précieuses à partir de données non étiquetées jusqu'à des données étiquetées, les étiquette pour les experts et les forme. Cependant, des experts doivent être introduits pour l'étiquetage interactif.L'apprentissage
semi-supervisé peut être divisé en apprentissage semi-supervisé pur et en apprentissage transductif :
① Apprentissage semi-supervisé pur : les données prédites sont les données observées en dehors de l'ensemble d'apprentissage
② Apprentissage transductif : les données prédites sont les données non étiquetées dans l'ensemble d'apprentissage
Ce qu'ils ont en commun : ce sont des problèmes d'auto-apprentissage qui utilisent un petit nombre d'échantillons étiquetés et un grand nombre d'échantillons non étiquetés pour l'entraînement et la classification
(un exemple typique d'apprentissage semi-supervisé) :
输入:有标签数据 { x , y },无标签数据 { x },距离函数 d ()
1、初始化:L= { x , y },U= { x }
2、重复(U 不为空):
3、使用有标签数据 L 训练 f(监督学习)
4、应用f到无标签数据 U 中,并取出部分数据加入有标签数据集 L
3. Discutez de la relation entre le taux de vrais positifs (TPR), le taux de faux positifs (FPR) et la précision (P) et le rappel (R)
Rappel : La proportion de vrais positifs qui sont prédits positifs
Taux de vrais : La proportion de vrais positifs qui sont prédits positifs
De toute évidence, taux de rappel = taux de cas réel
Précision : proportion de vrais positifs parmi les instances prédites comme positives
Faux positifs : proportion de vrais négatifs prédits comme positifs
Il n'y a pas de relation numérique directe entre les deux
4. Comment obtenir la courbe PR
Explication : L'indice du score F1 est dérivé de la courbe PR, qui est utilisée pour équilibrer le taux de précision P et le taux de rappel R, qui est mentionné au huitième point de test.
5. Comment obtenir la courbe ROC et essayer de décrire la relation avec le taux d'erreur
Les coordonnées verticales et horizontales de la courbe ROC sont respectivement le taux de vrais positifs et le taux de faux positifs (l'image est tirée de Zhihu ):
les échantillons sont triés en fonction des résultats de prédiction de l'apprenant, et les échantillons sont prédits comme des exemples positifs une par une dans cet ordre.Le calcul conduit aux valeurs de deux quantités importantes, et elles sont tracées respectivement comme coordonnées horizontales et verticales, et la "courbe ROC" est obtenue
6. Quelles sont les fonctions d'activation dans le réseau neuronal ? Quelles sont leurs fonctions ? À quoi ressemblent leurs graphiques de fonctions et quels sont leurs avantages et leurs inconvénients ?
7. Le lien, la différence et l'algorithme correspondant entre la classification et la régression
Régression : Il s'agit généralement de prédire une valeur, qui est une approximation de la valeur réelle.
Classification de prédiction : Mettez une étiquette sur la transaction, généralement le résultat est une valeur discrète, et le résultat correct n'est qu'un concept qui n'est pas proche
Voici les connexions, les différences et les algorithmes correspondants entre eux :
Notes supplémentaires sur les différentes régressions mentionnées ci-dessus :
8. Indicateurs associés pour les problèmes de classification et de régression
① Indicateurs de classification
1. Précision : Indique le rapport du nombre de cas de test correctement classés sur le nombre total de cas de test La formule de calcul est la suivante :
2. Précision : Aussi appelée précision, elle représente le nombre de cas positifs correctement classés La proportion du nombre d'instances classées comme cas positifs, la formule de calcul est :
3. Rappel (Recall) : également appelé taux de rappel, indiquant la proportion du nombre de cas positifs correctement classés par rapport au nombre réel de cas positifs, la formule de calcul est :
4. F1-score : basé sur la moyenne harmonique du taux de rappel (Recall) et du taux de précision (Precision), le taux de rappel et le taux de précision seront évalués ensemble. La formule de calcul est [plus proche de celle avec le nombre plus petit, donc la précision Lorsque le taux et le taux de rappel sont proches, la valeur est la plus grande, et les indicateurs d'évaluation de nombreux systèmes de recommandation utilisent la valeur F] :
② Indice de régression
1. Erreur absolue moyenne (MAE) : indique la valeur moyenne de l'erreur absolue entre la valeur prédite et la valeur observée
2. Erreur quadratique moyenne (MSE) : indique la valeur attendue du carré de la différence entre la valeur estimée du paramètre et la valeur réelle du paramètre
3. Erreur quadratique moyenne (RMSE) : Indique l'écart type de l'échantillon de la différence entre la valeur prédite et la valeur observée. L'erreur quadratique moyenne est utilisée pour illustrer le degré de dispersion de l'échantillon. Lors d'un ajustement non linéaire, plus le RMSE est petit, mieux c'est
9. Quelle est la différence entre la régression linéaire et la régression logistique, et quelle est l'expression de leurs fonctions de perte respectives ?
10. La règle de la chaîne
11. Exemple d'algorithme BP
① Pour le vih dans la figure ci-dessous, essayez de dériver la formule de mise à jour dans l'algorithme BP [du blog ]
② Essayez de concevoir un algorithme qui peut améliorer considérablement la vitesse de convergence en ajustant dynamiquement le taux d'apprentissage, implémentez l'algorithme par programmation et choisissez deux ensembles de données UCI à comparer avec l'algorithme BP standard. Cliquez ici pour voir la réponse
12. Exemple de fonction d'activation des neurones
Discutez des défauts de l'utilisation de la fonction linéaire f(x)=wTx comme fonction d'activation des neurones (tiré du petit livre )
13. La définition de l'écart et de la variance et l'occurrence de l'écart et de la variance
Déviation : mesure le degré de déviation entre la prédiction de l'algorithme d'apprentissage et le résultat réel, c'est-à-dire qu'il décrit la capacité d'ajustement de l'algorithme d'apprentissage lui-même
Écart élevé (sous-ajustement) : l'erreur d'apprentissage et l'erreur de vérification sont très proches, mais caractéristiques très
grandes ; utilisation de caractéristiques polynomiales ; affaiblissement de la régularisation
La variance mesure la variation des performances d'apprentissage due aux changements dans l'ensemble d'apprentissage de même taille. Représente immédiatement l'impact de la perturbation des données
Forte variance (surajustement) : petite erreur d'apprentissage, grande erreur de vérification
Contre-mesures : augmenter les échantillons d'apprentissage ; supprimer les caractéristiques non principales ; renforcer la régularisation
Tendance générale de l'entraînement : écart élevé -> variance élevée.
Plus la complexité du modèle est élevée, mieux c'est. Plus la complexité est élevée, plus l'effet est mauvais.
14. Implémentation et exemples d'algorithme K-means
Essayez d'analyser si l'algorithme K-means peut trouver la solution optimale de la formule de minimisation (9.24) (ensemble de données donné) :
Le résultat courant de l'algorithme K-means dépend du centre de cluster initialement sélectionné, et le résultat trouvé est une solution optimale locale, pas nécessairement une solution optimale globale
Reportez-vous au livre pastèque P203, le jeu de données ne sera pas trop volumineux :
15. Le processus et les avantages et inconvénients de l'algorithme intégré
Les algorithmes d'ensemble améliorent les performances et la généralisation en créant et en combinant plusieurs apprenants
Plus les apprenants sont nombreux, plus ils sont précis, plus la différence est grande et meilleure est l'intégration, mais à mesure que le nombre d'individus augmente, cela nécessite une plus grande surcharge de calcul et de stockage, et les différences d'apprentissage individuel sont plus difficiles à obtenir. Il y a un problème de déséquilibre des données, ce qui entraînera une diminution de la précision
Algorithme de bagging : (plusieurs apprenants en parallèle) :
输入:训练样本D,弱学习算法,迭代次数T
过程:
For t=1,…,T:
对训练集进行随机采样,得到采样集 Dt
用 Dt 训练第 t 个学习器 Ct(x)
若是分类,则选取投票数最多的为结果;若为回归,则设置算术平均数
Processus de renforcement (en série, promotion des apprenants faibles en apprenants forts) :
先从初始训练集训练一个基学习器
再根据基学习器的表现对训练样本分布进行调整
然后基于调整后的样本分布来训练下一个基学习器
直到学习器数目达到事前制定的数目 T
最终将 T 个基学习器进行加权结合
Le représentant le plus célèbre de la famille d'algorithmes Boosting est AdaBoost. Le processus AdaBoost (se concentrant sur les échantillons mal classés et se concentrant sur les apprenants avec une grande précision) est le suivant :
Algorithme d'empilement :
16. Méthodes semi-supervisées basées sur la divergence
formation collaborative
Profitez de la "complémentarité compatible" de plusieurs vues
Algorithme d'entraînement collaboratif
Mise en œuvre collaborative de la formation
Améliorations de la méthode de divergence pour plusieurs vues
17、SVM
① Principe de SVM
② L'idée et les contraintes de l'algorithme SMO dans SVM
L'algorithme SMO est l'algorithme d'optimisation minimale séquentielle (Sequential Minimal Optimization)
Idée : n'optimiser que deux variables à la fois, traiter les variables restantes comme des constantes et convertir un algorithme d'optimisation complexe en un problème d'optimisation à deux variables plus simple
③ Exemples
Exemple 1 [tiré des "Méthodes d'apprentissage statistique" de Li Hang]
(a) Première solution
(b) Résolution 2
Exemple 2 [tiré du PPT du professeur Zhang Lizong]
Beaucoup d'étudiants n'ont vraiment pas compris cette méthode.Voici ma solution.La programmation linéaire est toujours très bonne pour les calculs simples :
Exemple 3 [Question de preuve]
18 、 Adaboost
Exemples de questions [extraites des "Méthodes d'apprentissage statistique" de Li Hang]