Künstliche Intelligenz – maschinelles Lernen und künstliches neuronales Netzwerk

maschinelles Lernen

Der Hauptinhalt des maschinellen Lernteils ist der naive Bayes-Algorithmus und der Entscheidungsbaum-Algorithmus.

Maschinelles Lernen untersucht, wie Computer menschliches Lernverhalten simulieren, neues Wissen oder neue Fähigkeiten erwerben und vorhandenes Wissen neu organisieren können, um ihre eigene Leistung zu verbessern, sodass Computer über menschliche Lernfähigkeiten verfügen und so künstliche Intelligenz realisieren können.

Maschinelles Lernen wird oft wie folgt klassifiziert:

  • Überwachtes Lernen: Erstellen einer Zuordnung von Eingabe zu Ausgabe, wenn Eingabe und Ausgabe bekannt sind, häufig verwendet bei Klassifizierungs- und Regressionsaufgaben
  • Unüberwachtes Lernen: Es gibt keine korrekte Ausgabe, sondern nur eine Eingabe, und das Modell fasst die charakteristischen Informationen der Daten selbst zusammen. Es wird häufig bei Clustering-Aufgaben verwendet.
  • Verstärkungslernen: Der Agent wählt eine Aktion aus, um auf die Umgebung einzuwirken, und die Umgebung gibt ein Verstärkungssignal und einen geänderten Zustand aus. Der Agent wählt die nächste Aktion basierend auf dem Verstärkungssignal und dem aktuellen Zustand der Umgebung aus und wählt eine Aktion aus erhöht die Wahrscheinlichkeit, eine positive Verstärkung zu erhalten.

Entscheidungsbaum-Algorithmus

Der Entscheidungsbaumalgorithmus ist ein häufig verwendeter Klassifizierungsalgorithmus beim maschinellen Lernen. Im Entscheidungsbaum wird jedes Attribut zur Klassifizierung verwendet, und es gibt viele Möglichkeiten, die Attribute für jede Klassifizierung auszuwählen. Am einfachsten ist der ID3-Algorithmus, der den Informationsgewinn als Grundlage für die Auswahl von Attributen nutzt.

  • Entropie: Die Entropie stellt den Grad des Chaos der Dinge dar. Je größer die Entropie, desto größer der Grad des Chaos. Je kleiner die Entropie, desto geringer der Grad des Chaos. Wenn es für ein Zufallsereignis S N Möglichkeiten gibt und die Wahrscheinlichkeit jedes möglichen Auftretens Pi ist, dann ist die Entropie des Ereignisses:
    H ( S ) = − ∑ i = 1 N pi log ⁡ 2 pi H(S) = -\ sum_{i=1}^Npi \log_2piH ( S )=ich = 1Np ilo g2p i
  • Informationsgewinn: Der Informationsgewinn stellt den Grad dar, in dem die Informationen von Merkmal A die Unsicherheit der Informationen von Klasse D verringern. Dies ist die durchschnittliche Entropie der Klasse, die nicht durch ein bestimmtes Attribut geteilt wird, abzüglich der Entropie, die durch verschiedene Werte geteilt wird eines bestimmten Attributs. Definiert als:
    G ain ( D , A ) = H ( D ) − ∑ i = 1 V ∣ D i ∣ ∣ D ∣ H ( D i ) Gain(D,A) = H(D) - \sum_{i= 1}^V\frac{|D_i|}{|D|}H(D_i)Gewinn ( D , _A )=H ( D )ich = 1VD DichH ( Dich),
    wobei Di eine Stichprobe ist, deren Wert Ai für Attribut A ist. Es gibt V Arten von Werten für Attribut A.

Wählen Sie beim Erstellen eines Entscheidungsbaums das Attribut mit dem größten Informationsgewinn als Attribut zum Teilen der Stichprobe aus. Nachdem Sie die Stichprobe einmal geteilt haben, berechnen Sie den Informationsgewinn jedes Attributs und fahren Sie mit der Teilung fort, bis alle Attribute verwendet werden oder die Stichprobe vollständig geteilt ist.

Frage
Fügen Sie hier eine Bildbeschreibung ein
a) Konzeptfrage

b)
Berechnen Sie den Informationsgewinn jedes Attributs, um einen Entscheidungsbaum zu erstellen:
H (Anziehung) = − 1 2 log 2 1 2 − 1 2 log 2 1 2 = 1 H (Anziehung) = -\frac{1}{2} log_2 \frac{1}{2}-\frac{1}{2}log_2\frac{1}{2}=1H ( Attraktion )=21l o g22121l o g221=1
Es gibt zwei Temperaturwerte, die jeweils die Hälfte ausmachen. Die attraktiven Werte machen jeweils 2/5 (heiß) und 3/5 (kalt) aus.

H (Anziehung|Temperatur) = 1 2 ( − 2 5 log 2 2 5 − 3 5 log 2 3 5 ) + 1 2 ( − 2 5 log 2 2 5 − 3 5 log 2 3 5 ) = 0,971 H (Anziehungskraft |Temperatur) = \frac{1}{2}(-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5} ) + \frac{1}{2}(-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5}) = 0,971H ( Anziehung | Temperatur )=21( 52l o g25253l o g253)+21( 52l o g25253l o g253)=0,971
Insgesamt gibt es drei Geschmacksrichtungen: süß, sauer und salzig 4:3:3. Die attraktiven Geschmacksrichtungen machen jeweils 1/2, 1 und 0 aus.

H (Attraktivität | Geschmack) = 0,4 ( − 0,5 log 2 0,5 − 0,5 log 2 0,5 ) + 0 + 0 = 0,4 H (Attraktivität | Geschmack) = 0,4(-0,5log_20,5-0,5log_20,5) + 0 + 0 = 0,4H ( Attraktivität | Geschmack )=0,4 ( 0,5 l oder g20,50,5 l oder g20,5 )+0+0=
Es gibt zwei Werte für 0,4 Portionen, die jeweils die Hälfte ausmachen. Die attraktiven Portionen machen jeweils 1/5 (groß) und 4/5 aus.

H (Anziehungskraft | Portionsgröße) = 0,5 ( − 0,2 log 2 0,2 ​​− 0,8 log 2 0,8 ) + 0,5 ( − 0,2 log 2 0,2 ​​− 0,8 log 2 0,8 ) = 0,722 H (Anziehungskraft | Portionsgröße) = 0,5(- 0,2log_20 ,2-0,8log_20,8)+0,5(-0,2log_20,2-0,8log_20,8) = 0,722H ( Attraktivität | Gewicht )=0,5 ( 0,2 l o g20,20,8 log _ _20,8 )+0,5 ( 0,2 l o g20,20,8 log _ _20,8 )=0,722
kann den Informationsgewinn jedes Attributs wie folgt berechnen:

Gewinn (Anziehung, Temperatur) = 1 − 0,971 = 0,029 Gewinn (Anziehung, Geschmack) = 1 − 0,4 = 0,6 Gewinn (Anziehung, Portionsgröße) = 1 − 0,722 = 0,278 Gewinn (Anziehung, Temperatur) = 1-0,971 = 0,029\\ Gewinn (Attraktivität, Geschmack) = 1-0,4 = 0,6\\ Gewinn (Attraktivität, Portionsgröße) = 1-0,722 = 0,278Gewinn ( Anziehung, Temperatur )=10,971=0,029Gewinn ( Anziehung , Geschmack )=10,4=0,6Gewinn ( Attraktivität, Gewicht )=10,722=0,278
Daher sollte Geschmack als Attribut zum Teilen der Proben ausgewählt werden, um die Proben zu teilen. Nach der Aufteilung wird festgestellt, dass die Proben mit saurem und salzigem Geschmack aufgeteilt wurden, und die süßen Proben können offensichtlich anhand der Portionsgröße in zwei Kategorien unterteilt werden. Wählen Sie daher direkt die Portionsgröße aus und fahren Sie mit der Aufteilung fort. Sie erhalten die endgültiger Entscheidungsbaum:
Fügen Sie hier eine Bildbeschreibung einFür eine bestimmte Probe ist keine dritte Temperaturschicht erforderlich, um alle Proben zu klassifizieren.

c)
Durch Abfragen des Entscheidungsbaums kann das Ergebnis „Nein“ vorhergesagt werden.

Naiver Bayes-Algorithmus

Der Naive-Bayes-Algorithmus wird üblicherweise zum Implementieren von Klassifikatoren verwendet. Er verwendet Trainingsmuster, um die Wahrscheinlichkeit zu ermitteln, dass ein bestimmtes Merkmal in einer bestimmten Kategorie vorhanden ist, und berechnet die Wahrscheinlichkeit, dass die Probe unter bestimmten Merkmalsbedingungen zu einer bestimmten Kategorie gehört. Für Proben, die benötigt werden Um zu klassifizieren, berechnen Sie die Wahrscheinlichkeit der Zugehörigkeit zu jeder Kategorie gemäß den Merkmalen. Wählen Sie die Wahrscheinlichkeit jeder Kategorie aus und wählen Sie diejenige mit der höchsten Wahrscheinlichkeit als Klassifizierungsergebnis aus.

Die Frage
Fügen Sie hier eine Bildbeschreibung ein berechnet zunächst die Wahrscheinlichkeit, jedes Merkmal in jede Kategorie aufzunehmen: (Laut Antwort können Sie nur diejenigen berechnen, die Sie verwenden müssen.)

P(C=1) = 9/15
P(C=-1) = 6/15
P(X1=1|C=1) = 2/9
P(X1=2|C=1) = 3/9
P (X1=3|C=1) = 4/9
P(X1=1|C=-1) = 3/6
P(X1=2|C=-1) = 2/6
P(X1=3|C =-1) = 1/6
P(X2=S|C=1) = 1/9
P(X2=P|C=1) = 4/9
P(X2=Q|C=1) = 4/9
P(X2=S|C=-1) = 3/6
P(X2=P|C=-1) = 2/6
P(X2=Q|C=-1) = 1/6

Berechnen Sie die gewünschte Wahrscheinlichkeit:
P ( C = 1 ∣ X 1 = 3 , X 2 = S ) = α P ( X 1 = 3 , X 2 = S ∣ C = 1 ) = α P ( X 1 = 3 ∣ C = 1 ) P ( X 2 = S ∣ C = 1 ) = 0,0296 α P ( C = − 1 ∣ X 1 = 3 , 1 ) = α P ( ∣ C = − 1 ) = 0,333 α P(C=1| 3,X2=S|C=1) = αP(X1=3|C=1)P(X2=S|C=1) \\ = 0,0296 α \\ P(C=-1|X1=3,X2 =S) = αP(X1=3,X2=S|C=-1) = αP(X1=3|C=-1)P(X2= S|C=-1) \\ =0,333αP ( C=1∣ X 1=3 ,X 2=S )=α P ( X 1=3 ,X 2=S C=1 )=α P ( X 1=3∣ C=1 ) P ( X _=S C=1 )=0,0296 aP ( C=1∣ X 1=3 ,X 2=S )=α P ( X 1=3 ,X 2=S C=1 )=α P ( X 1=3∣ C=1 ) P ( X _=S C=1 )=0,333 α
, sodass der Klassifikator die Kategorie dieser Stichprobe mit C=-1 vorhersagt.

Hier kann αP(X1=3,X2=S|C=1) direkt als αP(X1=3|C=1)P(X2=S|C=1) geschrieben werden, da der naive Bayes-Algorithmus Bedingungen übernimmt Die Unabhängigkeitsannahme Vereinfacht durch die Annahme, dass alle Funktionen voneinander unabhängig sind.

Künstliche neurale Netzwerke

Der Hauptinhalt des Teils des künstlichen neuronalen Netzwerks ist das Prinzip des künstlichen neuronalen Netzwerks, des Perzeptronalgorithmus und des mehrschichtigen neuronalen Netzwerks

Perzeptron-Algorithmus

Das Ziel des Perzeptronalgorithmus besteht darin, die Verlustfunktion zu minimieren, die Parameter w und b im Modell zu lernen und die Trennhyperebene zu finden, die die Probe teilt.

Fügen Sie hier eine Bildbeschreibung ein
Die Zuordnungsbeziehung von der Eingabe zur Ausgabe ist wie folgt:
Y = F ( w 1 x 1 + w 2 x 2 − θ ) Y = F(w1x1+w2x2-θ)Y=F ( w 1 x 1+w 2 x 2θ )
F ist die Aktivierungsfunktion, die eine Stufenfunktion annimmt. Wenn sie kleiner als 0 ist, ist sie 0, und wenn sie größer als 0 ist, ist sie 1.

Nehmen Sie beim Training des Perzeptrons an, dass die Trainingsrunde i ist, die Lernrate α ist, der Fehler E (i) jedes Mal berechnet wird und die Parameter angepasst werden:

E ( i ) = d ( i ) − y ( i ) w 1 ( i + 1 ) = w 1 ( i ) + α E ( i ) x 1 ( i ) w 2 ( i + 1 ) = w 2 ( i ) + α E ( i ) x 2 ( i ) θ ( i + 1 ) = θ ( i ) + α E ( i ) ( − 1 ) E(i)=d(i)-y(i) \\ w_1 (i+1)=w1(i)+αE(i)x_1(i) \\ w_2(i+1)=w2(i)+αE(i)x_2(i) \\ θ(i+1) = θ(i)+αE(i)(-1)E ( i )=d ( i )y ( i )w1( ich+1 )=w 1 ( i )+α E ( i ) x1( ich )w2( ich+1 )=w 2 ( i )+α E ( i ) x2( ich )θ ( d. h+1 )=θ ( i )+α E ( i ) ( 1 )
wobei d(i) die ideale Ausgabe der i-ten Runde ist und der Parameteranpassungsteil tatsächlich ist: die Lernrate x der Kehrwert des Gradienten der Verlustfunktion auf den Parametern, und die Verlustfunktion für die Parameter. Der Gradient von wird unter Verwendung der Kettenableitungsregel wie folgt erhalten:
∂ L ∂ w 1 = ∂ L ∂ O × ∂ O ∂ y × ∂ y ∂ w 1 \frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial O} \times \frac{\partial O}{\partial y} \times \frac{\partial y}{\partial w_1}w1 L=O L×y O×w1 y
Die Verlustfunktion wird normalerweise wie folgt angenommen:
VERLUST = 1 2 (Richtige Ausgabe − Tatsächliche Ausgabe) 2 Abgeleitet, um ∂ L ∂ O = − (Richtige Ausgabe − Tatsächliche Ausgabe) zu erhalten. VERLUST = \frac{1}{2} (Richtige Ausgabe – Tatsächliche Ausgabe )^2 \\ Abgeleitet zu get\frac{\partial L}{\partial O} = -(korrekte Ausgabe-tatsächliche Ausgabe)VERLUST _=21( Korrekte Ausgabetatsächliche Ausgabe )2Suchen Sie die AbleitungO L=( korrekte AusgabeTatsächliche Ausgabe )
und die Schrittfunktion können nicht differenziert werden, daher wird im Perzeptronalgorithmus die Schrittfunktion nicht multipliziert, um das gewichtete Ergebnis abzuleiten, also nur:
y = w 1 x 1 + w 2 x 2 − θ Ableitung Erhalten Sie ∂ y ∂ w 1 = x 1 y = w1x1+w2x2-\theta \\ Leite ab, um \frac{\partial y}{\partial w_1} = x_1 zu erhaltenj=w 1 x 1+w 2 x 2ichSuchen Sie die Ableitungw1 y=X1
Daher wird der endgültige Anpassungsparameter wie folgt berechnet:
w 1 ( i + 1 ) = w 1 ( i ) + α × − ( − (korrekte Ausgabe − tatsächliche Ausgabe) × x 1 ( i ) ) = w 1 ( i ) + α E ( i ) x 1 ( i ) w_1(i+1)=w1(i)+α\times -(-(korrekte Ausgabe-tatsächliche Ausgabe) \times x_1(i)) =w1(i)+αE(i ) x_1(i)w1( ich+1 )=w 1 ( i )+A×( ( Korrekte Ausgabetatsächliche Ausgabe )×X1( ich ))=w 1 ( i )+α E ( i ) x1( i )
Was nach α multipliziert wird, ist die entgegengesetzte Richtung des Gradienten, sodass es schließlich mit E(i)x1(i) multipliziert wird. Die Anpassungsmethode zum Ermitteln von θ ist ähnlich.

Künstliche neurale Netzwerke

Der Kern dieses Teils des Inhalts ist das Prinzip des Gradientenabstiegs und die Berechnung der Fehler-Backpropagation. Tatsächlich wird es im PPT-Teil des Deep Learning deutlicher erklärt. Lernen Sie hauptsächlich, die Formel für die Fehlerrückausbreitung zu finden.

Frage
Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein
Fügen Sie hier eine Bildbeschreibung ein
                 (2)
Fügen Sie hier eine Bildbeschreibung ein

Acho que você gosta

Origin blog.csdn.net/Aaron503/article/details/130953711
Recomendado
Clasificación