目次
すべてのNLPタスクには、テキストの正規化が必要です。
- 単語のトークン化(セグメント化)
- Word形式の正規化
- 文のセグメント化
2.4.1UNIXでの単純なトークン化
テキストファイルを指定して、単語トークンとその頻度を出力します
tr -sc ’A-Za-z’ ’\n’ < sh.txt
tr -sc ’A-Za-z’ ’\n’ < sh.txt | sort | uniq -c
tr -sc ’A-Za-z’ ’\n’ < sh.txt | tr A-Z a-z | sort | uniq -c
tr -sc ’A-Za-z’ ’\n’ < sh.txt | tr A-Z a-z | sort | uniq -c | sort -n -r
2.4.2単語のトークン化分詞词
NLTK
中国語のトークン化は、通常、単語のトークン化を必要としません。
2.4.3バイトペアエンコーディングのトークン化
-
サブワードのトークン化(トークンは単語の一部であることが多いため)-estや-erなどの
一般的な形態素を含めることができます。(形態素は、言語の最小の意味を持つ単位です。最もありそうもない形態素には、un-、possible 、および-estがあります。) -
3つの一般的なアルゴリズム:
- バイトペアエンコーディング(BPE)(Sennrich et al。、2016)
- ユニグラム言語モデリングのトークン化(工藤、2018)
- WordPiece(Schuster and Nakajima、2012)
すべてに2つの部分があります。
- トークン学習かかる生訓練コーパスと誘導語彙(トークンのセット)。
- トークンセグかかる生のテスト文をその語彙によると、それをトークン化
BPEトークン学習アルゴリズム
したがって、トレーニングコーパスの空白の前に、最初に特別な単語の終わりの記号「__」を追加します
2.4.4単語の正規化、語彙化、およびステミング
単語の正規化
単語/トークンを標準形式で
配置する例如:
USAまたはUSA
uhhuh or uh-huh
Fed or fed
am、is be、are
大文字から小文字に折りたたむケース
これを必要とする状況もあれば、必要としない状況もあります
- 音声認識と情報検索では、すべてが小文字にマッピングされます
- 感情分析とテキスト分類、IE、MTの場合、ケースが役立ちます
Lemmatization
すべての単語を共有ルートとして表します。=辞書の見出し語の形式:
- am、are、is-> be
- 車、車、車、車 '->車
ステミングステミング
用語を語幹に減らし、接辞を大雑把に切り落とす
ポーターの声
- シリーズ
Aカスケードで実行される一連の書き換えルールに基づいており、各パスの出力が次のパスに送られ
ます。いくつかのサンプルルール: