Erstens: Zusammenfassung
Jieba ist eine hervorragende Drittanbieterbibliothek für die Segmentierung chinesischer Wörter .
Chinesischer Text muss durch Wortsegmentierung einzelne Wörter erhalten
Jieba ist eine hervorragende Drittanbieterbibliothek für die Segmentierung chinesischer Wörter, die eine zusätzliche Installation erfordert
Die Jieba-Bibliothek bietet drei Wortsegmentierungsmodi. Für den einfachsten Modus muss nur eine Funktion installiert werden.
Die Jieba-Bibliothek verwendet den chinesischen Thesaurus, um die Wortsegmentierung zu identifizieren.
Der Installationsbefehl lautet wie folgt:
→→→→→→→→→ Klicken Sie auf Windows + R, um die Eingabeaufforderung aufzurufen, und geben Sie cmd ein. Geben Sie nach dem Aufrufen der Benutzeroberfläche pip install jieba ein . Sie können es installieren.
Zweitens: Anweisungen zur Verwendung der Jieba-Bibliothek
(1) Vier Modi der Jieba-Wortsegmentierung
Exakter Modus, Vollmodus, Suchmaschinenmodus, neues Partizip
① jieba.cut(s) Präziser Modus: Teilen Sie den Text präzise auf, ohne überflüssige Wörter:
② jieba.lcut(s,cut_all=True) Vollmodus: Alle möglichen Wörter im Text scannen, es gibt Redundanz:
③jieba.lcut_for_search(s) Suchmaschinenmodus: Segmentieren Sie lange Wörter basierend auf dem genauen Modus erneut:
④jieba.add_word(w), füge ein neues Wort w zum Wortsegmentierungswörterbuch hinzu:
Das Codebeispiel lautet wie folgt:
import jieba
a=jieba.add_word("奇才队控球后卫约翰沃尔是NBA超级巨星")
b=jieba.lcut("奇才队控球后卫约翰沃尔是NBA超级巨星")print(b)
Die laufende Schnittstelle ist wie folgt:
Kernpunkt: jieba.lcuts(s), kann eine präzise Wortsegmentierung für die Zeichenfolge s durchführen und einen Listentyp zurückgeben.
————————————————
Link zum Referenzartikel:
https://cloud.tencent.com/developer/article/2154756
https://blog.csdn.net/weixin_61631131/article/details/124274495