NLP-Studiennotizen Zwölf – Bag-of-Words-Modell

NLP-Studiennotizen Zwölf – Bag-of-Words-Modell

Das Bag-of-Words-Modell ist eigentlich ein sehr einfaches statistisches Modell. Dieses statistische Modell wird vom Blogger selbst definiert. Es kann auch das Bag-of-Words-Modell im statistischen Modell enthalten. Warum wird es als statistisches Modell bezeichnet? Weil Das Bag-of-Words-Modell basiert auf Statistiken. Zum Beispiel haben wir jetzt zwei Wortgruppen und möchten nun ein Bag-of-Words-Modell für diese Wortgruppe erstellen. Beispiele sind wie folgt:

Hinweis: Das Bag-of-Words-Modell ist im Wesentlichen ein Datenkonvertierungsmodell, bei dem einige nichtdigitale Informationen wie Zeichen und Bilder in digitale Informationen umgewandelt werden, die von Computern erkannt werden können.
Zum Beispiel haben wir jetzt zwei Wortgruppen

  1. Mittlerweile habe ich maschinelles Lernen gut gelernt.
  2. Ich habe Python jetzt gut gelernt, ich bin sehr froh.
    Dann erstellen wir ein Wortbeutelmodell für die beiden oben genannten Wortgruppen. Was sollen wir tun:
    (1) Zählen Sie zuerst, wie viele verschiedene Wörter es gibt.
    Zum Beispiel gibt es die folgenden verschiedenen Wörter:
    Ich habe maschinelles Lernen gelernt. Nun gut, Python. Ich bin sehr froh,
    dass die Länge unseres endgültigen konvertierten Vektors die Anzahl der verschiedenen Wörter ist
    (2). Vektorkonvertierung von Phrasen
    1->[1,1,1,1,1 ,1,1, 0,0,0,0]
    2->[2,1,1,0,0,1,1,1,1,1,1]

Dann möchte ich hier erwähnen, dass das Bag-of-Words-Modell im Wesentlichen die Anzahl des Vorkommens eines Wortes in einer Phrase zählt. Bei der Vektorkonvertierung ist das Bag-of-Words-Modell relativ einfach. Es berücksichtigt nicht die interne Beziehung zwischen Während des Konvertierungsvorgangs wird die Reihenfolge zwischen den ursprünglichen Wörtern dieser Wörter nicht berücksichtigt.

Guess you like

Origin blog.csdn.net/weixin_43327597/article/details/131497572