ML apprentissage régression linéaire à deux variables

2-1 Description du modèle

Nous voulons utiliser un ensemble de données qui contient les prix des logements à Portland, Oregon. Ici, je veux dessiner mon ensemble de données en fonction des prix vendus pour différentes tailles de maisons. Par exemple, si la maison de votre ami mesure 1 250 pieds carrés, vous devez lui dire combien la maison peut vendre.

Une chose que vous pouvez faire est de construire un modèle, peut-être une ligne droite. À partir de ce modèle de données, vous pouvez peut-être dire à votre ami qu'il peut vendre la maison pour environ 220 000 (USD). Ceci est un exemple d'algorithme d'apprentissage supervisé.

J'utiliserai des minuscules m pour tout au long du cours

Prenons l'exemple du problème de transaction de logement précédent, si nous revenons à l'ensemble de formation (ensemble de formation) du problème, comme indiqué dans le tableau ci-dessous

Les étiquettes que nous utiliserons pour décrire ce problème de régression sont les suivantes:

Nous pouvons voir qu'il y a des prix de l'immobilier dans notre ensemble de formation. Nous le donnons à notre algorithme d'apprentissage, apprenons le travail de l'algorithme, puis émettons une fonction, généralement exprimée en minuscule

Dans la régression linéaire, nous avons un ensemble d'apprentissage comme celui-ci, m

Nous allons introduire une terminologie. Ce que nous devons faire maintenant est de choisir les paramètres appropriés pour notre modèle

Notre objectif est de sélectionner les paramètres du modèle qui peuvent minimiser la somme des erreurs de modélisation au carré.

Nous dessinons une carte de contour, les trois coordonnées sont θ ₀

On peut voir qu'il y a un dans l'espace tridimensionnel

La fonction de coût est également appelée fonction d'erreur quadratique, et parfois appelée fonction de coût d'erreur quadratique. La raison pour laquelle nous avons besoin de la somme des erreurs au carré est que la fonction de coût au carré des erreurs est un choix raisonnable pour la plupart des problèmes, en particulier les problèmes de régression.

2-3 Comprendre la fonction de coût (1)

Obtenons quelques sentiments intuitifs à travers quelques exemples et voyons ce que fait la fonction de coût.

Ensuite, notre exemple est l'analyse lorsque θ ₀ est 0

2-4 Comprendre la fonction de coût (2)

L'apparition de la fonction de coût, le tracé de contour, montre qu'il existe un dans l'espace tridimensionnel qui minimise J (θ _0, θ1)

Grâce à ces graphiques, je l' espère , vous pouvez mieux comprendre la fonction de coût J

Imaginez que vous vous tenez sur ce point de la montagne, debout sur la montagne rouge dans le parc que vous imaginez. Dans l'algorithme de descente en gradient, tout ce que nous avons à faire est de tourner à 360 degrés, de regarder autour de nous et de nous demander d'être à un certain endroit. Dans ce sens, descendez la montagne à petits pas. Pensez à chaque pas que vous faites jusqu'à ce que vous soyez proche du point le plus bas local

La formule de l'algorithme de descente de gradient par lots est

Où α

Dans l'algorithme de descente de gradient, c'est la bonne façon de réaliser des mises à jour simultanées.

2-6 Résumé des points de connaissance de la descente du gradient

Maintenant, cette ligne a une pente positive, ce qui signifie qu'il a une dérivée positive, de sorte que j'obtenir le nouveau [theta] ₁

Voyons ce qui se passe si α est

Si α est

Dans la méthode de descente en gradient, lorsque nous sommes proches du minimum local, la méthode de descente en gradient prendra automatiquement une plus petite amplitude, car lorsque nous sommes proches du minimum local, il est clair que la dérivée est égale à zéro au minimum local, donc quand nous sommes proches du local Au point le plus bas, la valeur dérivée deviendra automatiquement de plus en plus petite, donc la descente de gradient prendra automatiquement une amplitude plus petite, c'est la méthode de descente de gradient.

2-7 Descente en gradient de régression linéaire

La comparaison entre l'algorithme de descente de gradient et l'algorithme de régression linéaire est la suivante:

La clé pour appliquer la méthode de descente de gradient à notre précédent problème de régression linéaire est de trouver la dérivée de la fonction de coût, à savoir:

L'algorithme que nous venons d'utiliser est parfois appelé descente de gradient par lots. Cela signifie qu'à chaque étape de la descente de gradient, nous utilisons tous les échantillons d'apprentissage m. Dans la descente de gradient, lors du calcul du terme dérivé différentiel, nous devons effectuer une opération de sommation, donc, dans chaque descente de gradient individuelle En fin de compte, nous devons calculer une telle chose, cet élément doit tous les m