WMDアルゴリズムの深い理解

WMDアルゴリズムの深い理解

WMD(Wordのムーバーの距離)1は、 2015年に提案されているテキストの類似性を測定する方法です。それは次のような利点があります。

  • 優れた結果:をフルに活用word2vec移行のフィールド
  • 教師なし:注釈データを依存しない、無コールドスタートの問題
  • モデルは単純です:入力として、用語ベクトルの結果だけ、オーバー引数はありません
  • 解釈可能:線形計画に問題は、グローバルな最適解が存在します
  • 柔軟性:人間の介入の重要性の単語ことができます

もちろん、それはまた、いくつかの欠点があります。

  • 言葉モデルのバッグは、何の予約語の注文情報はありません
  • (語彙のうち)OOVない良い言葉処理ベクタ問題
  • 電力オフセット否定の言葉を処理
  • 単語の同義語の処理能力の偏りは、相互に排他的領域
  • 高い時間計算:O(p3logp)O(p3log⁡p)(ここで、体重の語彙のサイズに2つのワードテキストのP代表)

WMDは二つのテキストの類似性を使用して計算される場合、それは以下のステップを実行します。

  • word2vecベクター語に符号化ワードの使用

  • ストップワードを削除します

  • 表すために、通常、単語頻度によって、テキストの重みに各単語のシェアを計算します

  • この言葉の他の規定で見つかった各単語について、その単語にどのくらいの運動を決定します。二つの単語が比較的似意味場合は、すべての移動またはそれ以上移動することができます。意味の違いが大きくなる場合は、より少ない、あるいは全く運動を移動させることができます。二つの単語の移転の費用を掛けているどのように多くの言葉や動きベクトルの距離

  • 転送和の全体的なコストが最小であることを確認

  • 1から完全になるように言葉をテキスト、2ワードにすべてのテキストが必要です

    我々 (例えば、正規化された単語の周波数特性を使用するなど)分布のような文書の最初の単語。まず作る方法を検討し、「別の文書にすべての単語に一致する異なる重量の単語ごとに1つのドキュメントを。」以下に、それは我々がそれを「部分一致」を許可し、非常に簡単です。ここでは、文献1の単語として一致する単語の2つのベクトル間のユークリッド距離のコストを動かし、2つのワードのプロセスを文書化するために「移動」。たとえば、「オバマ氏は、」重量(確率)で、文書1に、私は価格が動いているので、上の「社長」、0.05移動「挨拶」にまで移動......とあれば0.5、0.4である[公式]
    制約である必要があり、ここで:「オバマ氏「右のワード文書が重い2を割り当てられ、それが文書1倍で平等の権利である必要があり、それがあります[公式]

    今、「必須」、この機能を検討してください。意志2に一致する単語を文書化するために、我々は、同じ時間を尋ね、そのような「押し」のためとして2重量(単語のドキュメントの右側に流入することができ、その重み=「オバマ」→右「を押して」重い+」に流れ込みます文書2重量右に等しい「→」キーを押し「右重量+」メディア「→」右押し」...... +重量)、話します。だから、言葉の制約に沿って、二つ以上の移動ごとに、私たちは移動の総コストを持っています。私たちは、すなわち、二つの文書のWordムーバーの距離(WMD)の間を移動するための最低価格となります

    著者:Ziyuan

    リンク:https://www.zhihu.com/question/33952003/answer/134691643

おすすめ

転載: www.cnblogs.com/rise0111/p/11440365.html