Re43: 数学の文章問題のための DNS Deep Neural Solver という論文を読む

神は沈黙する - 個人の CSDN ブログ投稿ディレクトリ

論文の正式名: Deep Neural Solver for Math Word 問題
モデルには正式な略称はありませんが、 (2020 COLING) Solving Math Word Questions with Multi-Encoders and Multi-DecodersではDNS と略されています。

論文リンク: https://aclanthology.org/D17-1088/

この記事は、MWP の問題に焦点を当てた 2017 EMNLP 論文です。
これは、問題を RNN を使用して式に直接マッピングし、ニューラル ネットワークを使用して MWP 問題を解決した最初の論文です。次に、RNNと類似度ベースの検索モデルを組み合わせて使用​​し、検索モデルの類似スコアが閾値より高い場合は検索結果の式テンプレートを使用し、それ以外の場合はRNNを使用します。

1. 背景

ここに画像の説明を挿入

ここに画像の説明を挿入

導入部分は読むのが面倒です。

興味深い参考文献は、(2016 ACL) How Well do Computers Solve Math Word Questions? Large-Scale Dataset Construction and Evaluation により、単純な類似性に基づく手法がすでにほとんどの統計学習モデルを超える可能性があることがわかりました。

2.モデル

ここに画像の説明を挿入
番号マッピング→番号識別→取得→数式テンプレートを直接適用するか、seq2seq モデルを使用

モデルのハイパーパラメータの詳細を書くのが面倒ですが、これはまだ非常に従来型の RNN です。

変数: V p = { v 1 , … , vm , x 1 , … , xk } V_p=\{v_1,\dots,v_m,x_1,\dots,x_k\}Vp={ v1vメートルバツ1バツ} (既知の数値と未知の変数)

2.1 データの前処理

数値マッピング
は、数式を数式テンプレートにマッピングします。既知の数値を数値トークンに置き換えます。

重要な数値の識別
すべての数値が使用されるわけではないため、重要な数値のみに焦点を当てます。バイナリ分類には LSTM を使用します (入力は数値とコンテキストです)。

ここに画像の説明を挿入

ここに画像の説明を挿入

2.2 RNN ベースの Seq2seq モデル

ここに画像の説明を挿入

エンコードとデコードではそれぞれ GRU と LSTM を使用します

アクティベーション関数がソフトマックスを直接使用すると、不正なシンボルが発生します。したがって、不正な文字は、事前に生成された式に従って判断され、事前定義されたルールに従って実現されます。
ここに画像の説明を挿入
ここに画像の説明を挿入

ρ \rhoρはベクトルで、各要素は 0 または 1 で、文字が数学的に正しい (または上記のルールに準拠している) かどうかを表します:
ここに画像の説明を挿入
LSTM デコーダーの出力に基づく → 文字を生成する確率

2.3ハイブリッドモデル

両方のモデルの正しいスケール:
ここに画像の説明を挿入

2.3.1 検索モデル

サンプルとすべてのトレーニング セット サンプルの間の語彙の類似性を計算します。

質問の表現: Word TF-IDF スコア
ここに画像の説明を挿入

類似度は、TF-IDF ベクトルの Jaccard 類似度です。ここに画像の説明を挿入

1 つの観測値は、類似性のしきい値と 2 つのモデルの精度 ( θ \thetaθはしきい値です。つまり、類似性がしきい値より大きい場合、この検索モデルを使用します)。
ここに画像の説明を挿入

3. 実験

3.1 データセット

ここに画像の説明を挿入

3.2 ベースライン

純粋検索モデル
ZDC

KAZB は大きすぎて試すことができません

3.3 本実験の結果

ここに画像の説明を挿入

3.4 実験分析

ここに画像の説明を挿入
大なり記号は、行が列より大きいことを意味します

ここに画像の説明を挿入

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/PolarisRisingWar/article/details/131772810