0082福スピーチと言語処理-2.4テキストの正規化


すべてのNLPタスクには、テキストの正規化が必要です。

  1. 単語のトークン化(セグメント化)
  2. Word形式の正規化
  3. 文のセグメント化

2.4.1UNIXでの単純なトークン化

テキストファイルを指定して、単語トークンとその頻度を出力します

tr -sc ’A-Za-z’ ’\n’ < sh.txt
tr -sc ’A-Za-z’ ’\n’ < sh.txt | sort | uniq -c 
tr -sc ’A-Za-z’ ’\n’ < sh.txt | tr A-Z a-z | sort | uniq -c 
tr -sc ’A-Za-z’ ’\n’ < sh.txt | tr A-Z a-z | sort | uniq -c | sort -n -r 

2.4.2単語のトークン化分詞词

NLTK
ここに画像の説明を挿入します
中国語のトークン化は、通常、単語のトークン化を必要としません。

2.4.3バイトペアエンコーディングのトークン化

  • サブワードのトークン化(トークンは単語の一部であることが多いため)-est-erなどの
    一般的な形態素を含めることができます(形態素は、言語の最小の意味を持つ単位です。最もありそうもない形態素には、un-、possible および-estがあります。)

  • 3つの一般的なアルゴリズム:

  1. バイトペアエンコーディング(BPE)(Sennrich et al。、2016)
  2. ユニグラム言語モデリングのトークン化(工藤、2018)
  3. WordPiece(Schuster and Nakajima、2012)
    すべてに2つの部分があります。
  • トークン学習かかる生訓練コーパスと誘導語彙(トークンのセット)。
  • トークンセグかかる生のテスト文をその語彙によると、それをトークン化

BPEトークン学習アルゴリズム
ここに画像の説明を挿入します
したがって、トレーニングコーパスの空白の前に、最初に特別な単語の終わりの記号「__」を追加します

2.4.4単語の正規化、語彙化、およびステミング

単語の正規化

単語/トークンを標準形式で
配置する例如:
USAまたはUSA
uhhuh or uh-huh
Fed or fed
am、is be、are

大文字から小文字に折りたたむケース

これを必要とする状況もあれば、必要としない状況もあります

  • 音声認識と情報検索では、すべてが小文字にマッピングされます
  • 感情分析とテキスト分類、IE、MTの場合、ケースが役立ちます

Lemmatization

すべての単語を共有ルートとして表します。=辞書の見出し語の形式:

  • am、are、is-> be
  • 車、車、車、車 '->車

ステミングステミング

用語を語幹に減らし、接辞を大雑把に切り落とす

ポーターの声

  • シリーズ
    Aカスケードで実行される一連の書き換えルールに基づいており、各パスの出力が次のパスに送られ
    ます。いくつかのサンプルルール:
    ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/weixin_48760912/article/details/114837882
おすすめ