論文の正式名: Deep Neural Solver for Math Word 問題
モデルには正式な略称はありませんが、 (2020 COLING) Solving Math Word Questions with Multi-Encoders and Multi-DecodersではDNS と略されています。
論文リンク: https://aclanthology.org/D17-1088/
この記事は、MWP の問題に焦点を当てた 2017 EMNLP 論文です。
これは、問題を RNN を使用して式に直接マッピングし、ニューラル ネットワークを使用して MWP 問題を解決した最初の論文です。次に、RNNと類似度ベースの検索モデルを組み合わせて使用し、検索モデルの類似スコアが閾値より高い場合は検索結果の式テンプレートを使用し、それ以外の場合はRNNを使用します。
記事ディレクトリ
1. 背景
導入部分は読むのが面倒です。
興味深い参考文献は、(2016 ACL) How Well do Computers Solve Math Word Questions? Large-Scale Dataset Construction and Evaluation により、単純な類似性に基づく手法がすでにほとんどの統計学習モデルを超える可能性があることがわかりました。
2.モデル
番号マッピング→番号識別→取得→数式テンプレートを直接適用するか、seq2seq モデルを使用
モデルのハイパーパラメータの詳細を書くのが面倒ですが、これはまだ非常に従来型の RNN です。
変数: V p = { v 1 , … , vm , x 1 , … , xk } V_p=\{v_1,\dots,v_m,x_1,\dots,x_k\}Vp={ v1、…、vメートル、バツ1、…、バツk} (既知の数値と未知の変数)
2.1 データの前処理
数値マッピング
は、数式を数式テンプレートにマッピングします。既知の数値を数値トークンに置き換えます。
重要な数値の識別
すべての数値が使用されるわけではないため、重要な数値のみに焦点を当てます。バイナリ分類には LSTM を使用します (入力は数値とコンテキストです)。
2.2 RNN ベースの Seq2seq モデル
エンコードとデコードではそれぞれ GRU と LSTM を使用します
アクティベーション関数がソフトマックスを直接使用すると、不正なシンボルが発生します。したがって、不正な文字は、事前に生成された式に従って判断され、事前定義されたルールに従って実現されます。
ρ \rhoρはベクトルで、各要素は 0 または 1 で、文字が数学的に正しい (または上記のルールに準拠している) かどうかを表します:
LSTM デコーダーの出力に基づく → 文字を生成する確率
2.3ハイブリッドモデル
両方のモデルの正しいスケール:
2.3.1 検索モデル
サンプルとすべてのトレーニング セット サンプルの間の語彙の類似性を計算します。
質問の表現: Word TF-IDF スコア
類似度は、TF-IDF ベクトルの Jaccard 類似度です。
1 つの観測値は、類似性のしきい値と 2 つのモデルの精度 ( θ \thetaθはしきい値です。つまり、類似性がしきい値より大きい場合、この検索モデルを使用します)。
3. 実験
3.1 データセット
3.2 ベースライン
純粋検索モデル
ZDC
KAZB は大きすぎて試すことができません
3.3 本実験の結果
3.4 実験分析
大なり記号は、行が列より大きいことを意味します