「数学的な美しさ」フェルトを読みます

  最初に私は、私はしていない言語のレッスン、なぜ書評を書きたいので、先生は、私たちはこれは私が理解していなかった本である「数学の美しさ」を見てみましょう、しかし、数学的な美しさは、しかし、後に読んでなぜ数学を見てこの本は本当に便利にするだけ。

  実際に、私はいくつかの章を読んでいないが、統計的言語モデルだけでなく、目の前で話すことは私に多くの関心を引き起こしたが、また私に大きなインスピレーションを与えました。本の中で述べたように、テキストのシーケンスの確率を知りたい場合はSに表示され、シーケンス内の各単語の出現確率はP(S)= P(W1)P(W2 | W1)と乗算されるP(W3 | W1、W2)... P(WN | W1 W2 ..... WN-1)、P(W2 | W1)はワードが最初に表示される場合、第2ワードでよく知られています発生確率。しかし、あなたは、単語が関連している以前のn-1に単語の出現確率を計算量が高い計算するには大きすぎるので、難しい計算し、マルコフの仮定をしたい場合にのみ、同じWiでそれを表示される任意の単語の確率は単語の前でのWi-1関連。以下の式を簡略化することができる:P(S)= P(W1)P(W2 | W1)P(W3 | W2)···P(のWi |のWi-1)。

  これは、各機械翻訳システムバーレーンの後、我々はすべてモーセBLEU値で埋め実験室でテストする必要があり、私の新入生統計的機械翻訳システムのことを思い出します。BLEU値は2つの文の類似度を決定するために使用される、単純な栗与える:2つの文S1を= Iは、C ++を学ぶ; S2:私はJavaの学習、これら2つの文の類似度は2/3分子であります翻訳候補単語の数が基準翻訳(同じ文を参照翻訳中かどうか)に表示され、分母は言葉候補変換数です。なぜBLEUは、いくつかの基準の翻訳に対応する単語の機械翻訳であるため、同じ文章翻訳で参照が、しかし、より多く有する複合スコアを計算するために比較され、したがって、文と比較されていないかどうかを言うことはありませ基準期間に比べて翻訳。干渉一般的な単語を避けるために、我々はまた、結果は、最終BLEUを得るために最大に互いに比較され、マルチワードの比較の精度は、文章中の各基準翻訳を表示改善する回数を用います。

  また、ワードが最大の確率は最高のワード方式である場所を見つけるために計算登場した後、それぞれの文の統計的言語モデル確率を使用して、中国のあいまいな言葉の問題を解決するための統計モデルを使用します。これは私がコーパスの準備で、インストールの過程で、モーセを考えてみましょう。

トークン化:単語や句読点の間にスペースを挿入します。
Truecasing:文中の単語のそれぞれは、データのスパース性を減らすことができますプロトタイプに変換される可能性が最も高いです。
 クリーニング:長い文章と空のステートメントは、トレーニング中に問題を引き起こすので、削除し、削除された大幅にずれ文を削除することができます。

前処理コーパスでは、最初の中国語の単語コーパスの必要性は、パラレル整列コーパスは、後に使用GIZA ++を促進します。

 私は、統計的機械翻訳を参照して、統計的言語モデル「数学的な美しさ」を支援することは偉大であると考えています。

   ゆっくりと「数学的な美」を読んで私は切っても切れないまだ多く、数学とコンピューターを学ぶことができることが判明してきた、多くのアルゴリズムは、数学に関連したトレーニングモデルが、私はそこになると信じて「数学の美しさ」の世話をしていきますより深い理解。 

おすすめ

転載: www.cnblogs.com/snowlxy/p/11442944.html
おすすめ