NLP(1)jieba、pyltp、pkuseg、nltkの単語セグメンテーションを使用する

この記事では、以下を紹介します。

  • jieba分詞を使う
  • pyltpワードセグメンテーションを使用する
  • pkusegを使用して単語をセグメント化する
  • nltk分詞を使用する

通常、NLPは完全な段落または文を一度に処理できないため、最初のステップは多くの場合、文と単語のセグメンテーションです。ここでは、いくつかの単語セグメンテーション方法を紹介します。

1つは、jiebaワードセグメンテーションを使用する

以前に書いた記事を参照できます:https//blog.csdn.net/TFATS/article/details/108810284

次に、pyltpワードセグメンテーションを使用します

以前に書いた記事を参照できます:https//blog.csdn.net/TFATS/article/details/108511408

第三に、pkusegワードセグメンテーションを使用します

以前に書いた記事を参照できます:https//blog.csdn.net/TFATS/article/details/108851344

第四に、nltk分詞を使用します

nltkツールは、通常、英語のテキストの単語埋め込みツールとして使用されます。ここでは、tokenize
メソッドのみを紹介します。詳細な使用法については、https//www.cnblogs.com/chen8023miss/p/11458571.htmlhttp//www.pythontip.com/blog/post/10012/を参照してください

注: nltkのインストール時に問題が発生する可能性があります。以前に共有した記事を参照してください:https://blog.csdn.net/TFATS/article/details/108519904

from nltk import word_tokenize

sent1 = "I love sky, I love sea."
sent2 = "I like running, I love reading."

sents = [sent1, sent2]
texts = [[word for word in word_tokenize(sent)] for sent in sents]

# ------ output------
[['I', 'love', 'sky', ',', 'I', 'love', 'sea', '.'], ['I', 'like', 'running', ',', 'I', 'love', 'reading', '.']]

おすすめ

転載: blog.csdn.net/TFATS/article/details/108800919