NLP タスクとメトリクス (Perplexity、BLEU、METOR、ROUGH、CIDEr)

タスク

ここに画像の説明を挿入します

1. 情報検索IR(情報検索)

情報検索 (NLU) とは、大規模なテキスト ライブラリまたはデータベースで関連情報を検索することによって、ユーザーのクエリに一致するドキュメントまたはレコードをユーザーに返すことを指します。情報検索には主に、インデックス構築、クエリ処理、結果の並べ替えなどのテクノロジーが含まれており、ユーザーが必要な情報を迅速かつ効果的に取得できるようにすることを目的としています。

ここに画像の説明を挿入します
クエリとドキュメントは同じ特徴空間にマッピングされ、従来の IR における語彙と意味の不一致の問題を回避するために類似度の計算が実行されます。
ここに画像の説明を挿入します

モデルアーキテクチャ

ここに画像の説明を挿入します

クロスエンコーダ アーキテクチャ: まず、クエリとドキュメントのトークンが結合されて共通の LM に送信され、CLS トークンが両方の共通表現として使用されます。ペアワイズ ヒンジ損失はトリプレット損失に似ており、正のサンプル ペアを近づけ、負のサンプル ペアを分離するために使用されます。

ここに画像の説明を挿入します

デュアル エンコーダ アーキテクチャ: クエリとドキュメントをそれぞれエンコードし、特徴ベクトルの NLL 損失を計算して比較学習を実行します。

ここに画像の説明を挿入します

このアーキテクチャの利点は、文書を事前にエンコードしてインデックスを構築できることであり、新しいクエリがあった場合にはクエリのみをエンコードし、faiss などの KNN ベクトル ライブラリを使用して高速マッチングを実現します。

ここに画像の説明を挿入します

評価指標

これは、上位 K 件の結果を返すときの検索システムのパフォーマンスを測定するために使用されます (TOP-K 検索オブジェクトのみが評価されます)。

  • MRR@K (K での平均逆順位) : 指定されたクエリ セット Q で返された最初の K 個の結果に現れる最初の関連ドキュメントの平均逆順位を測定します。なお、ここでの「相互順位」とは、結果リストにおける当該文書の相互の位置を意味し、例えば、最後であれば第1位であることを意味する。MRR@K 値が大きいほど、システムは最初の関連ドキュメントをより速く返します。
    ここに画像の説明を挿入します

  • MAP@K (K での平均平均精度) : 指定されたクエリ セットで返された上位 K 個の結果の平均精度 (精度) を測定します。MAP@K では、結果のランキングと各位置での結果の精度が考慮され、スコアが高いほど、上位 K 個の結果におけるシステムの平均精度が高くなります。
    ここに画像の説明を挿入します

  • NDCG@K (K での正規化割引累積ゲイン) : NDCG は、返された結果リストの関連性の並べ替え品質を測定します。NDCG 計算では、相関にはさまざまな重みが与えられ、並べ替えられたリスト内の位置とレベルに基づいて、より高い相関にはより高い重みが与えられます。NDCG@K 値が高いほど、最初の K 個の結果におけるシステムの関連性ランキングの品質が向上します。
    ここに画像の説明を挿入します
    ここに画像の説明を挿入します

開発の方向性

  1. より困難なネガティブサンプルペアをマイニングするにはどうすればよいでしょうか?

ここに画像の説明を挿入します
ANCE を使用すると、モデルはトレーニング プロセス中に推論プログラムを非同期に維持できます。推論はトレーニングの k ステップごとに実行されます。推論の上位のエラー結果は、否定的になりにくいサンプルとして使用され、次のトレーニング ラウンドに追加されます。
ここに画像の説明を挿入します

  1. 大規模なモデルをより適切に事前トレーニングするにはどうすればよいでしょうか?

SEED は、很弱的decoderエンコーダがより強力な CLS 特徴表現を生成するように強制します。

ここに画像の説明を挿入します

  1. モデルの数ショット性能を向上させるにはどうすればよいですか?

ここに画像の説明を挿入します

2. テキスト生成TG(テキスト生成)

テキスト生成 (NLG) は、コンピューターを使用して自然言語テキストを自動的に生成するプロセスを指します。テキスト生成は、特定のルール、テンプレート、または統計モデルに基づいて行うことができ、記事、会話、要約、タイトルなど、さまざまな形式のテキストを生成するために使用できます。テキスト生成の応用分野には、自動要約、機械翻訳、インテリジェントな顧客サービスなどが含まれます。

ここに画像の説明を挿入します

主に、data2text と text2text という 2 つのテキスト生成モードが含まれています。これら 2 つのタスクは両方とも自然言語生成の分野に属しますが、懸念される問題とタスクの目標は少し異なります。data2text は主に構造化データを自然言語テキストに変換する方法に焦点を当てており、text2text はさまざまなテキストからテキストへの変換タスクをカバーしています。

2.1 データからテキストへの変換

入力データは画像(イメージ理解)、テーブル(表理解)、グラフ、jsonなどの非テキストデータで、データの要約テキストが出力されます。

ここに画像の説明を挿入します
data2text (データからテキストへ): このタスクの目標は、指定された構造化データを自然言語テキストに変換することです。一般的なアプリケーションには、レポート、概要、説明などの生成が含まれます。たとえば、天気予報では、気象データ (気温、湿度など) が読みやすい天気予報のテキストに変換されます。

2.2 テキストからテキストへ

text2text (テキストからテキスト) は、さまざまな自然言語生成タスクをカバーする広範なタスク ドメインです。text2text の目的は、機械翻訳、テキスト要約、質問と回答の生成、テキスト スタイル変換など、入力自然言語テキストを別の形式の自然言語テキストに変換することです。たとえば、英語の記事を中国語に翻訳したり、テキストの要約を生成したり、質問を回答に変換したりできます。
ここに画像の説明を挿入します
たとえば、概要の要約
ここに画像の説明を挿入します

例えば、対話システムは人間と機械の間の自然な対話インタラクションの実現を目指しています。ユーザーが提供する指示やニーズに基づいて質問に答えたりタスクを完了したりするタスク駆動型の対話システムである場合もあれば、ユーザーと自由に対話するオープンな対話システムである場合もあります。会話システムはコンテキストを理解し、一貫した応答を生成し、ユーザーと効果的に対話する必要があります。ここに画像の説明を挿入します

モデルアーキテクチャ

ここに画像の説明を挿入します

デコーダのタイプ:

ここに画像の説明を挿入します

評価指標

**共通のインジケーター: **BLUE、Perplexity、ROUGH、NIST、METOR、CIDEr

ここに画像の説明を挿入します
ここに画像の説明を挿入します

その他の指標:

ここに画像の説明を挿入します

制御可能なテキスト生成Control TG

入力:prompt + text
ここに画像の説明を挿入します

モデルレベル:Prefix + Model
ここに画像の説明を挿入します

確率分布を変更します。
ここに画像の説明を挿入します

モデル構造を変更します。

ここに画像の説明を挿入します

3. 質問への回答

質問と回答 (NLU+NLG) とは、事前定義された質問知识库、またはユーザーが提起した質問に基づいて、システムが文本集合正確な回答を見つけて生成することを意味します。質疑応答では、NLU テクノロジーと NLG テクノロジーを組み合わせることができます。NLU は、ユーザーの質問を理解し、それをマシンが理解できる形式に変換し、クエリの重要な情報を決定するために使用されます。NLG は、ナレッジ ベースで見つかった回答から自然言語形式で回答を生成し、ユーザーに返すために使用されます。

  • 読解Q&A:入力された文章と質問を読んで理解し、それに基づいて文章情報に関する質問に答えることが求められます。

  • オープンドメイン Q&A : オープンドメイン QA とは、入力にプロンプ​​ト テキストを入力せずに、事実に基づく質問をすることができることを意味します。回答を自分で直接生成することも、外部のナレッジ ベースを検索して回答を生成することもできます。

3.1 読解RC

RC タスクの設計には次のものが含まれます: Cloze test完形填空(CNN/Daily Mail、CBT)Multiple choice多选(RACE)Extractive 答案在原文的提取问答(SQuAD)

モデルアーキテクチャ

ここに画像の説明を挿入します

クエリと参照を直接まとめて BERT などの言語モデルに送信し、コードを記述して相互作用することができます。

ここに画像の説明を挿入します

大規模モデルでは読解の形式を統一しており、検索読解(答えが本文中にある)、要約読解(答えが本文中にない)、選択問題、判断問題などがパラダイムに統一されていますtext2text

ここに画像の説明を挿入します

3.2 オープンドメイン質問応答 OQA

オープンドメイン QA とは、あらゆる事実に基づく質問ができることを意味します。通常、Wikipedia/Baidu Encyclopedia などの膨大なテキストのコーパスを提供し、そこから主観的でない質問に対する答えを見つけてもらいます。これは明らかに困難です。 . たくさんあります。

モデルアーキテクチャ
  • 生成モデルの生成ベース: 大規模モデルの巨大なパラメーターには大量の知識が含まれており、外部知識ベースなしで答えを直接生成できます。
    ここに画像の説明を挿入します

  • 検索モデル 検索ベース: ① テキスト検索: 検索者は、大量のテキスト (知識ベース/インターネット) から質問に最も関連性の高い N 個の文書を検索する必要があり、これらの文書には質問に対する答えが含まれます; ② 読解:読者は、上で抽出した文書から具体的な答えを見つける必要があります。
    ここに画像の説明を挿入します

RAG 検索拡張生成: 事前トレーニングされた検索と、REALM などの大規模な言語モデルを組み合わせて生成します。
ここに画像の説明を挿入します

ラベルのないテキストをマスクして空白を埋め、マスクされたテキストをクエリとして使用し、クエリを取得した上位 k 個のナレッジ ベース コンテンツと結合し、それを大規模モデルに送信して回答を生成します (マスクされたテキストに対する回答)。

ここに画像の説明を挿入します

事前に構築された外部ナレッジ ベースでの検索に加えて、インターネット上で大規模な検索を実行することもできます。

ここに画像の説明を挿入します

メトリック

機械翻訳ではBLEU、METEOR、ROUGEが一般的に使用され、映像字幕生成ではCIDErが一般的に使用されます。

困惑

https://zhuanlan.zhihu.com/p/633757727

ブルー

いわゆるBLEUはもともと機械翻訳に使用されていました。彼のアイデアは実際には非常にネイティブであり、特定の文に対して、標準の翻訳 S1 とニューラル ネットワークによって翻訳された文 S2 があります。BLEU の考え方は、機械翻訳 S2 に出現するすべてのフレーズを調べ、S1 に出現するフレーズの数を確認し、比率を計算して BLEU スコア (精度と同様) を取得することですまず、フレーズに含まれる単語の数を、BLEU-1、BLEU-2、BLEU-3、BLEU-4 などの n-gram に従って分割します。違いは、記事を 1 単語の長さの語句、2 語の長さの語句に分割することです。次に、標準訳文に出現するこれらの語句の数を数え、合計の分割数で割ります。対応する BLEU-1 スコア、BLEU -2 スコア... は実際の正解率です。これらの分割されたフレーズが標準翻訳にいくつ出現するかを確認してください。一般的に言えば、ユニグラムの精度は単語翻訳の精度を測定するために使用でき、高次の n グラムの精度は文 n{1,2,3,4} の流暢さを測定するために使用できます。

しかし、BLEU には欠陥があります。単語を翻訳し、その単語がたまたま標準翻訳に含まれている場合 (翻訳は非常に短い)、精度は 100% ではないでしょうか? この欠陥に対して、BLEU アルゴリズムには長さペナルティ係数。翻訳が短すぎる場合にはペナルティが発生します。もう 1 つの欠陥は、BLUE スコアでは翻訳内の単語の順序が考慮されていないことです。

コードレベルでの使用方法に関する具体的な提案については: https://zhuanlan.zhihu.com/p/404381​​278

メーター

一般的な考え方は、翻訳モデルの翻訳結果が正しい場合もありますが、それはたまたま参照翻訳と一致しないだけである (たとえば、同義語が使用されている) ため、WordNet などの知識ソースを使用して同義語セットを拡張し、語形も考慮されます(語幹が同じ単語も部分一致とみなされ、一定の報酬が与えられるはずです。たとえば、「いいね」を「いいね」と訳したほうが、他の乱雑な単語に訳すよりも良いですよね?)。チャンクの概念(候補翻訳と参照翻訳を位置合わせすることができ、空間的に連続した単語がチャンクを形成します。この位置合わせアルゴリズムはやや複雑なヒューリスティック ビーム検索です) では、チャンクの数が少ないほど、チャンクの数が少ないことを意味します。各チャンクの平均長が長いほど、つまり候補訳と参考訳の語順が一致します最終的に再現率と正答率の両方を考慮する必要があり、最終的な評価指標としてF値が使用されます。

METEOR の欠点も明らかです。1 つは、これが Java でのみ実装されており、API ではなく jar パッケージであることです。METEOR は、各ステートメントを個別にテストするのではなく、テスト セット全体でしかカウントできません (各ステートメントを作成しない限り)ステートメントをファイルに分けてから jar パッケージに分割する)、それは本当に愚かです。Python がディープラーニングの主流を占めている現在、このインジケーターを使用する人はほとんどいないと考えられます...

粗い

ROUGE アルゴリズムの基本的な考え方は BLEU のアルゴリズムと似ていますが、再現率をカウントします。つまり、標準翻訳に含まれるフレーズについて、機械翻訳に出現するフレーズが何個あるかをカウントします (BLUE とはまったく逆です)。 ) . 実際には、機械を見ることです どのくらいの翻訳が正しいですか? この評価指標は主に、フレーズが標準翻訳に含まれるかどうかに依存するため、自然な機械翻訳の翻訳が長いほど、結果は良くなります。

サイダー

画像字幕の生成に一般的に使用されるCIDEr は、BLEU とベクトル空間モデルを組み合わせたものです各文を文書として扱い、TF-IDF ベクトル(ただし単語ではなく n-gram です)のコサイン角を計算し、これに基づいて候補文と基準文の類似度を求めます。これも異なる長さの n であり、 -gram の類似性が平均されて最終結果が得られます。利点は、コーパス全体でより一般的な n グラムには含まれる情報量が少ないため、異なる n グラムは異なる TF-IDF で異なる重みをもつことです。画像字幕生成の評価の重要な点は、モデルが重要な情報を捉えているかどうかを確認することです。たとえば、写真の内容は「人は日中プールで泳いでいます」ですが、最も重要な情報は「泳いでいる」である必要があります。字幕を生成する際、実際には関係のない他の情報(「昼」など)が含まれている場合は、キーワード以外の重みを減らすなどの操作が必要になります。

おすすめ

転載: blog.csdn.net/weixin_54338498/article/details/133019398