NLP: NLTK、HanLP などの使い慣れた NLP オープン ソース ツールを生成し、PKU、CoreNLP、LTP MSR、AS CITYI などのコーパスを検索、ダウンロードし、慣れさせます。

目次

1.NLTK

2.ハンLP

3.PKU

4.コアNLP

ファイブ、LTP

6.MSR


1.NLTK

        NLTK (Natural Language Toolkit) は、Python 用のオープンソースの自然言語処理ライブラリです。大量の前処理されたテキスト データとコーパスに加え、一般的に使用されるいくつかのテキスト処理アルゴリズムと NLP ツールが提供されます。たとえば、NLTK は、単語の分割、品詞のタグ付け、固有表現認識、感情分析などの機能を提供します。NLTK を使用した品詞タグ付けの例を次に示します。

​import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

sentence = "The quick brown fox jumps over the lazy dog."
tokens = word_tokenize(sentence)
tags = pos_tag(tokens)

print(tags)

# Output: [('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN'), ('.', '.')]
  1. NLTK は、学習および研究用に大規模なコーパスも提供します。これらのコーパスには次のようなものがあります。
  • Gutenberg Corpus: 25,000 以上の無料電子書籍のテキストが含まれています。
  • Brown Corpus: 自然言語処理における言語のバリエーションを研究するために使用される、さまざまな種類の約 500,000 語の言語サンプルが含まれています。
  • Reuters Corpus: 118 のトピック カテゴリに含まれる 10,788 のニュース文書が含まれています。
  • 映画レビュー コーパス: 1000 件の映画レビュー テキストが含まれており、それぞれに肯定的または否定的なラベルが割り当てられています。

2.ハンLP

        HanLP は、中国科学院計算技術研究所の自然言語処理およびソーシャル ヒューマン コンピューティング研究所によって開発されたオープンソースの自然言語処理ツールキットです。中国語の単語の分割、品詞のタグ付け、固有表現認識、依存関係の解析、キーワード抽出などの機能をサポートします。以下は、HanLP を使用した中国語単語分割の例です。

from pyhanlp import *

text = "自然语言处理是一项重要的人工智能技术。"

segmenter = HanLP.newSegment().enableCustomDictionary(False)
words = segmenter.seg(text)

for word in words:
    print(word.word)

# Output: 自然语言 处理 是 一项 重要 的 人工智能 技术 。
  • 中国語ニュース コーパス: 350 万を超えるニュース テキストが含まれています。
  • 中国語チャット コーパス: 500 万を超えるインスタント メッセージング テキストが含まれています。
  • 人民日報コーパス: 1964 年から 2018 年までの人民日報のテキストが含まれています。

3.PKU

  1. PKU コーパスは、非常に人気のある中国語の自然言語処理コーパスであり、大量のテキスト データおよびその他の言語処理リソースが含まれています。これには、中国語の単語の分割、品詞のタグ付け、固有表現の認識、依存関係の解析などの機能が含まれています。以下は、中国語の単語の分割に PKU を使用する例です。
import pkuseg

text = "自然语言处理是一项重要的人工智能技术。"

seg = pkuseg.pkuseg()
words = seg.cut(text)

print(words)

# Output: ['自然语言', '处理', '是', '一项', '重要', '的', '人工智能', '技术', '。']
  1. PKU コーパスには次のものが含まれます。
  • PKU 人民日報中国語コーパス: 品詞タグ付け、固有表現認識などを含む、1998 年から 2010 年までの人民日報のテキストが含まれています。
  • ニュース コーパス: 20 年以上の期間をカバーする 1,000 万以上のニュース テキストが含まれています。

4.コアNLP

  1. CoreNLP は、スタンフォード大学の自然言語処理グループによって開発されたオープンソースの自然言語処理ツールキットです。英語、中国語、アラビア語などの複数の言語をサポートし、単語の分割、品詞のタグ付け、固有表現認識、構文分析、感情分析などのタスクを実行できます。以下は、CoreNLP を使用した英単語の分割の例です。
import json
from pycorenlp import StanfordCoreNLP

nlp = StanfordCoreNLP('http://localhost:9000')

text = "The quick brown fox jumps over the lazy dog."
output = nlp.annotate(text, properties={
    'annotators': 'tokenize',
    'outputFormat': 'json'
})

tokens = [token['word'] for sentence in output['sentences'] for token in sentence['tokens']]

print(tokens)

# Output: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']
  • Penn Treebank Corpus: 構文解析やその他の自然言語処理タスクの研究用のさまざまなタイプの英語テキスト データが含まれています。
  • OntoNotes コーパス: 固有表現の認識や意味的役割のラベル付けなどのタスクを研究するために使用される、複数の言語のテキスト データが含まれています。

ファイブ、LTP

        LTP (Language Technology Platform) は、ハルビン工業大学のソーシャル コンピューティングおよび情報検索研究センターによって開発された、中国語用のオープンソースの自然言語処理ツールキットです。中国語の単語の分割、品詞のタグ付け、固有表現認識、依存関係構文分析、意味論的な役割のタグ付けなどのタスクをサポートします。以下は、中国語の単語の分割に LTP を使用する例です。

from pyltp import Segmentor

segmentor = Segmentor()
segmentor.load("/path/to/your/model")
text = "自然语言处理是一项重要的人工智能技术。"
words = segmentor.segment(text)

print(words)

# Output: ['自然语言', '处理', '是', '一项', '重要', '的', '人工智能', '技术', '。']
  • SIGHAN2005 コーパス: さまざまな種類の中国語テキスト データが含まれており、中国語の単語の分割、品詞のタグ付け、その他のタスクの研究に使用されます。
  • CTB5.1 コーパス: 構文分析やその他の自然言語処理タスクの研究用に 170,000 を超える中国語文が含まれています。

6.MSR

  1. MSR は、Microsoft Research Asia によって開発された中国語向けの自然言語処理ツールセットです。中国語の単語の分割、品詞のタグ付け、固有表現認識、依存関係構文分析などのタスクを実行でき、複数の言語でインターフェイスを提供します。以下は、MSR を使用した中国語単語分割の例です。
import msr

text = "自然语言处理是一项重要的人工智能技术。"
seg = msr.segment(text)

print(seg)

# Output: ['自然语言', '处理', '是', '一项', '重要', '的', '人工智能', '技术', '。']
  • MSR 中国語単語分割コーパス: 中国語の単語分割やその他のタスクの学習に使用される 100 万の中国語文が含まれています。
  • MSR 実体認識コーパス: 固有表現認識などの研究タスクのための大量の実体注釈データが含まれています。

おすすめ

転載: blog.csdn.net/SYC20110120/article/details/132646555
おすすめ