Apprentissage automatique [résumé de bilan de fin de semestre] - points de connaissance et exemples d'algorithmes (arrangement détaillé)

Apprentissage automatique [résumé de bilan de fin de semestre] - points de connaissance et exemples d'algorithmes (arrangement détaillé)


1. Qu'est-ce que l'apprentissage automatique, qu'est-ce que l'ensemble de formation, l'ensemble de validation et l'ensemble de test ? (Extrait de la série ML Popular Science (1) )

Apprentissage automatique : apprendre une partie des données informatiques, puis prédire et juger d'autres données

① Ensemble d'apprentissage :
Fonction : Estimez le modèle
pour apprendre l'échantillon d'ensemble de données et créez un classificateur en faisant correspondre certains paramètres. Établir une méthode de classification, qui est principalement utilisée pour former le modèle

② Ensemble de vérification :
fonction : déterminez la structure du réseau ou contrôlez les paramètres de la complexité du modèle
. Pour le modèle appris, ajustez les paramètres du classificateur, tels que la sélection du nombre d'unités cachées dans le réseau de neurones. L'ensemble de validation est également utilisé pour déterminer la structure du réseau ou les paramètres qui contrôlent la complexité du modèle.

③ Ensemble de test :
fonction : pour tester les performances du modèle optimal final, principalement
pour tester la capacité de résolution du modèle formé (taux de reconnaissance, etc.)


2. Les caractéristiques, les différences et les algorithmes correspondants de l'apprentissage supervisé, non supervisé et semi-supervisé

insérez la description de l'image ici
Remarque supplémentaire :

Apprentissage actif : l'algorithme d'apprentissage sélectionne des données précieuses à partir de données non étiquetées jusqu'à des données étiquetées, les étiquette pour les experts et les forme. Cependant, des experts doivent être introduits pour l'étiquetage interactif.L'apprentissage
insérez la description de l'image ici
semi-supervisé peut être divisé en apprentissage semi-supervisé pur et en apprentissage transductif :

① Apprentissage semi-supervisé pur : les données prédites sont les données observées en dehors de l'ensemble d'apprentissage
② Apprentissage transductif : les données prédites sont les données non étiquetées dans l'ensemble d'apprentissage

Ce qu'ils ont en commun : ce sont des problèmes d'auto-apprentissage qui utilisent un petit nombre d'échantillons étiquetés et un grand nombre d'échantillons non étiquetés pour l'entraînement et la classification
insérez la description de l'image ici
(un exemple typique d'apprentissage semi-supervisé) :

输入:有标签数据 { x , y },无标签数据 { x },距离函数 d ()
1、初始化:L= { x , y },U= { x }
2、重复(U 不为空):
3、使用有标签数据 L 训练 f(监督学习)
4、应用f到无标签数据 U 中,并取出部分数据加入有标签数据集 L

3. Discutez de la relation entre le taux de vrais positifs (TPR), le taux de faux positifs (FPR) et la précision (P) et le rappel (R)

insérez la description de l'image ici
insérez la description de l'image ici
Rappel : La proportion de vrais positifs qui sont prédits positifs
Taux de vrais : La proportion de vrais positifs qui sont prédits positifs

De toute évidence, taux de rappel = taux de cas réel

Précision : proportion de vrais positifs parmi les instances prédites comme positives
Faux positifs : proportion de vrais négatifs prédits comme positifs

Il n'y a pas de relation numérique directe entre les deux


4. Comment obtenir la courbe PR

Explication : L'indice du score F1 est dérivé de la courbe PR, qui est utilisée pour équilibrer le taux de précision P et le taux de rappel R, qui est mentionné au huitième point de test.

insérez la description de l'image ici


5. Comment obtenir la courbe ROC et essayer de décrire la relation avec le taux d'erreur

Les coordonnées verticales et horizontales de la courbe ROC sont respectivement le taux de vrais positifs et le taux de faux positifs (l'image est tirée de Zhihu ):
insérez la description de l'image ici
les échantillons sont triés en fonction des résultats de prédiction de l'apprenant, et les échantillons sont prédits comme des exemples positifs une par une dans cet ordre.Le calcul conduit aux valeurs de deux quantités importantes, et elles sont tracées respectivement comme coordonnées horizontales et verticales, et la "courbe ROC" est obtenue
insérez la description de l'image ici
insérez la description de l'image ici


6. Quelles sont les fonctions d'activation dans le réseau neuronal ? Quelles sont leurs fonctions ? À quoi ressemblent leurs graphiques de fonctions et quels sont leurs avantages et leurs inconvénients ?

insérez la description de l'image ici


7. Le lien, la différence et l'algorithme correspondant entre la classification et la régression

Régression : Il s'agit généralement de prédire une valeur, qui est une approximation de la valeur réelle.
Classification de prédiction : Mettez une étiquette sur la transaction, généralement le résultat est une valeur discrète, et le résultat correct n'est qu'un concept qui n'est pas proche

Voici les connexions, les différences et les algorithmes correspondants entre eux :

insérez la description de l'image ici


Notes supplémentaires sur les différentes régressions mentionnées ci-dessus :

insérez la description de l'image ici


8. Indicateurs associés pour les problèmes de classification et de régression

① Indicateurs de classification

1. Précision : Indique le rapport du nombre de cas de test correctement classés sur le nombre total de cas de test La formule de calcul est la suivante :
insérez la description de l'image ici
2. Précision : Aussi appelée précision, elle représente le nombre de cas positifs correctement classés La proportion du nombre d'instances classées comme cas positifs, la formule de calcul est :
insérez la description de l'image ici
3. Rappel (Recall) : également appelé taux de rappel, indiquant la proportion du nombre de cas positifs correctement classés par rapport au nombre réel de cas positifs, la formule de calcul est :
insérez la description de l'image ici
4. F1-score : basé sur la moyenne harmonique du taux de rappel (Recall) et du taux de précision (Precision), le taux de rappel et le taux de précision seront évalués ensemble. La formule de calcul est [plus proche de celle avec le nombre plus petit, donc la précision Lorsque le taux et le taux de rappel sont proches, la valeur est la plus grande, et les indicateurs d'évaluation de nombreux systèmes de recommandation utilisent la valeur F] :
insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici
insérez la description de l'image ici


② Indice de régression

1. Erreur absolue moyenne (MAE) : indique la valeur moyenne de l'erreur absolue entre la valeur prédite et la valeur observée

2. Erreur quadratique moyenne (MSE) : indique la valeur attendue du carré de la différence entre la valeur estimée du paramètre et la valeur réelle du paramètre

insérez la description de l'image ici
3. Erreur quadratique moyenne (RMSE) : Indique l'écart type de l'échantillon de la différence entre la valeur prédite et la valeur observée. L'erreur quadratique moyenne est utilisée pour illustrer le degré de dispersion de l'échantillon. Lors d'un ajustement non linéaire, plus le RMSE est petit, mieux c'est
insérez la description de l'image ici


9. Quelle est la différence entre la régression linéaire et la régression logistique, et quelle est l'expression de leurs fonctions de perte respectives ?

insérez la description de l'image ici


10. La règle de la chaîne

insérez la description de l'image ici

11. Exemple d'algorithme BP

① Pour le vih dans la figure ci-dessous, essayez de dériver la formule de mise à jour dans l'algorithme BP [du blog ]

insérez la description de l'image ici
insérez la description de l'image ici


② Essayez de concevoir un algorithme qui peut améliorer considérablement la vitesse de convergence en ajustant dynamiquement le taux d'apprentissage, implémentez l'algorithme par programmation et choisissez deux ensembles de données UCI à comparer avec l'algorithme BP standard. Cliquez ici pour voir la réponse


12. Exemple de fonction d'activation des neurones

Discutez des défauts de l'utilisation de la fonction linéaire f(x)=wTx comme fonction d'activation des neurones (tiré du petit livre )
insérez la description de l'image ici


13. La définition de l'écart et de la variance et l'occurrence de l'écart et de la variance

Déviation : mesure le degré de déviation entre la prédiction de l'algorithme d'apprentissage et le résultat réel, c'est-à-dire qu'il décrit la capacité d'ajustement de l'algorithme d'apprentissage lui-même
Écart élevé (sous-ajustement) : l'erreur d'apprentissage et l'erreur de vérification sont très proches, mais caractéristiques très
grandes ; utilisation de caractéristiques polynomiales ; affaiblissement de la régularisation

La variance mesure la variation des performances d'apprentissage due aux changements dans l'ensemble d'apprentissage de même taille. Représente immédiatement l'impact de la perturbation des données
Forte variance (surajustement) : petite erreur d'apprentissage, grande erreur de vérification
Contre-mesures : augmenter les échantillons d'apprentissage ; supprimer les caractéristiques non principales ; renforcer la régularisation

Tendance générale de l'entraînement : écart élevé -> variance élevée.
Plus la complexité du modèle est élevée, mieux c'est. Plus la complexité est élevée, plus l'effet est mauvais.


14. Implémentation et exemples d'algorithme K-means

insérez la description de l'image ici


Essayez d'analyser si l'algorithme K-means peut trouver la solution optimale de la formule de minimisation (9.24) (ensemble de données donné) :

Le résultat courant de l'algorithme K-means dépend du centre de cluster initialement sélectionné, et le résultat trouvé est une solution optimale locale, pas nécessairement une solution optimale globale

Reportez-vous au livre pastèque P203, le jeu de données ne sera pas trop volumineux :

insérez la description de l'image ici


15. Le processus et les avantages et inconvénients de l'algorithme intégré

Les algorithmes d'ensemble améliorent les performances et la généralisation en créant et en combinant plusieurs apprenants

Plus les apprenants sont nombreux, plus ils sont précis, plus la différence est grande et meilleure est l'intégration, mais à mesure que le nombre d'individus augmente, cela nécessite une plus grande surcharge de calcul et de stockage, et les différences d'apprentissage individuel sont plus difficiles à obtenir. Il y a un problème de déséquilibre des données, ce qui entraînera une diminution de la précision

insérez la description de l'image ici
Algorithme de bagging : (plusieurs apprenants en parallèle) :

输入:训练样本D,弱学习算法,迭代次数T 
过程:
	For t=1,…,T:
		对训练集进行随机采样,得到采样集 Dt
		用 Dt 训练第 t 个学习器 Ct(x)
	若是分类,则选取投票数最多的为结果;若为回归,则设置算术平均数

insérez la description de l'image ici


Processus de renforcement (en série, promotion des apprenants faibles en apprenants forts) :

先从初始训练集训练一个基学习器
再根据基学习器的表现对训练样本分布进行调整
然后基于调整后的样本分布来训练下一个基学习器
直到学习器数目达到事前制定的数目 T
最终将 T 个基学习器进行加权结合

Le représentant le plus célèbre de la famille d'algorithmes Boosting est AdaBoost. Le processus AdaBoost (se concentrant sur les échantillons mal classés et se concentrant sur les apprenants avec une grande précision) est le suivant :

insérez la description de l'image ici


Algorithme d'empilement :

insérez la description de l'image ici


16. Méthodes semi-supervisées basées sur la divergence

formation collaborative

insérez la description de l'image ici


Profitez de la "complémentarité compatible" de plusieurs vues

insérez la description de l'image ici
insérez la description de l'image ici


Algorithme d'entraînement collaboratif

insérez la description de l'image ici


Mise en œuvre collaborative de la formation

insérez la description de l'image ici


Améliorations de la méthode de divergence pour plusieurs vues

insérez la description de l'image ici


17、SVM

① Principe de SVM

Veuillez ajouter une description de l'image


② L'idée et les contraintes de l'algorithme SMO dans SVM

L'algorithme SMO est l'algorithme d'optimisation minimale séquentielle (Sequential Minimal Optimization)

Idée : n'optimiser que deux variables à la fois, traiter les variables restantes comme des constantes et convertir un algorithme d'optimisation complexe en un problème d'optimisation à deux variables plus simple

insérez la description de l'image ici


③ Exemples

Exemple 1 [tiré des "Méthodes d'apprentissage statistique" de Li Hang]

(a) Première solution

Veuillez ajouter une description de l'image


(b) Résolution 2

Veuillez ajouter une description de l'image


Exemple 2 [tiré du PPT du professeur Zhang Lizong]

insérez la description de l'image ici
insérez la description de l'image ici


Beaucoup d'étudiants n'ont vraiment pas compris cette méthode.Voici ma solution.La programmation linéaire est toujours très bonne pour les calculs simples :

Veuillez ajouter une description de l'image


Exemple 3 [Question de preuve]

insérez la description de l'image ici
Cliquez ici pour les réponses


18 、 Adaboost

Exemples de questions [extraites des "Méthodes d'apprentissage statistique" de Li Hang]

Veuillez ajouter une description de l'image
Veuillez ajouter une description de l'image
Veuillez ajouter une description de l'image

おすすめ

転載: blog.csdn.net/qq_40506723/article/details/121741662