論文読む|多基準単語分割のための効果的なニューラルソリューション

主なアイデア

この記事は、以前よりも、複数の標準中国語の単語、および復旦の物品の使用で、その方法は、複雑な構造をよりシンプルではありませんが、従来の方法よりも効率的。

方法

積み上げLSTM、トップはCRFです。

下はバイLSTM・キャラクタ・セットです。入力:埋め込む文字、出力:各文字は文脈で表現されています。

 

 

推論層としてのHT、CRFを得た後。

レート:

地元のスコア:

前記は、バイLSTMのバイグラムは隠れ層と埋め込みHTスプライシングを備えています。

 

 

グローバルスコア:

 

 

 AはYJをタグ付けする遷移行列タグYIあります。

 

 

 

 

 

 マルチスタンダードCWS

文の始めと終わりにプラス、それは標準を使用していることを示しているトークン。スコアの時間を計算し、その後除去。

トレーニング

 

 

 Y- Xは、   すべての可能なタグ配列の文Xを表します。

実験

異種データ・セットを知ることができる。1.当社のマルチスタンダードソリューション?

2.当社のソリューションは、テキストの小と非公式グループの大規模コーパスに適用することができますか?

3.より多くのデータ、より良いパフォーマンス?

Dynet(Neubigら、2017)に基づきます


ダイナミックニューラルネットワークのフレームワーク

データセット

Q1:SIGHAN2005

Q2 3:SIGHAN2008

すべてのデータセットは、ユニークなトークンを使用して英語の文字と数字の連続置換することによって前処理しました。トレーニングセットと発展のために、ラインがより速くバッチのために、文や句句読点によって短いに分かれています。

特に、中国の伝統的なコーパスCityU、ASおよびCKIPは、人気の中国のNLPツールの使用、簡略化されたバージョンに変換 HanLP2を。

 

 

 

 

 

おすすめ

転載: www.cnblogs.com/shona/p/11540353.html