この記事オリジナルの著者:鵬Jiangjunは、承認後にリリース。
元のリンク:https : //cloud.tencent.com/developer/article/1532635
はじめに:
このセクションでは、オンラインインジケーターとオフラインインジケーターの違いを特定し、オフラインインジケーターとオンラインインジケーターを調整し、大まかな関係を取得する方法に焦点を当てます。オンラインで改善できる指標に対応して、オフラインで指標を最適化します。これにより、モデルがオンラインになるリスクを回避できます。したがって、指標の分析も非常に重要な問題です。
1:インジケーターの紹介
この一連の記事1では、いくつかの一般的な指標がリストされており、分析と計算のプロセスがここに示されています。
1.1:NDCG
氏名:正規化された割引累積利益。測定インデックスは、この正規化された割引を使用して、ヘッダーの順序の正確さを保証します。
NDCGの計算式から始めましょう(式を使用する方法はありません)。
この式は、CG、DCG、およびNDCGの3つの部分に分割できます。
まずCGについてお話ししましょう。これは、Cumulating Gainの略で、通常、ロケーションと組み合わせて使用されます。位置に制限がないので、どのように並び替えてもCGは同じです。以下に示すように:
スコアが0.8を超えると仮定すると、ラベルには2というラベルが付けられ、0.5〜0.8は1として記録され、0〜0.5は0として記録されます。(ここで見るのは奇妙です。通常、0〜1のスコアはしきい値として0.5であり、ラベルは0と1の2つのカテゴリに分けられます。実際、しきい値の選択は異なり、最終的に正と負のサンプルの比率が分けられます。異なり、AUCはしきい値の選択を回避しますが、これについては後で説明します。これは、私自身の構成の単なる例であり、NDCGの概念を説明するのに便利です)
例1:1つの検索と並べ替えに5つのドキュメントがあり、実際のラベルと予測ラベルは上記のとおりです。
最初の5つのCGなら。
グラウンドトゥルースの順序は、Doc_1、Doc_2、Doc_5、Doc_4、Doc_3です。
Predictの順序は、Doc_2、Doc_1、Doc_5、Doc_4、Doc_3です。
計算は次のとおりです。
グラウンドトゥルース:CG =(2 ^ 1-1)+(2 ^ 2-1)+(2 ^ 1-1)+(2 ^ 0-1)+(2 ^ 0-1)= 5
予測:CG =(2 ^ 1-1)+(2 ^ 2-1)+(2 ^ 1-1)+(2 ^ 0-1)+(2 ^ 0-1)= 5
ここに3つのポイントがあります:
1:ここでの各サンプルのゲインの計算は、主にラベル間の違いを明らかにするためのインデックスの形式で行われますが、CGを取得するためのゲインとしてラベル値を直接使用することもできます。
2:CGを計算する場合、グラウンドトゥルースラベルに基づいて計算されるため、予測doc_1とdoc_2は逆になりますが、CGを計算するときは、グラウンドトゥルースラベルに基づいて計算されます。
3:CGを位置と組み合わせて使用すると、次のような違いが反映されます。
グラウンドトゥルース:CG @ 1 = 2 ^ 2-1 = 3
予測:CG @ 1 = 2 ^ 1-1 = 1
これが、Groundが予測よりも優れている理由です(これは明らかにGroundtruthです)。
次に、CGよりもDが大きいDCGについて説明します。最初のセクションでは、NDCGがこのDに基づく頭部の評価により注意を払っていることを覚えておいてください。
前面のラベルの値を大きくする、または背面のラベルの値を大きくするために、DCGは位置に対応する割引を行います。つまり、異なる位置の割引を異なるものにし、高い位置のペナルティ(割引)を行います。大きい。
ここで計算できます:
予測:DCG =(2 ^ 1-1)/ 1 +(2 ^ 2-1)/1.58+(2 ^ 1-1)/ 2 +(2 ^ 1-1)/2.32+(2 ^ 0-1 )/2.58=1.551
Groundtruth:DCG =(2 ^ 2-1)/ 1 +(2 ^ 1-1)/1.58+(2 ^ 1-1)/ 2 +(2 ^ 0-1)/2.32+(2 ^ 0-1 )/2.58=3.148
ここに3つのポイントがあります:
1:各ゲインの後の除数は、log(i + 1)に上記の数式のランクを加えた値です
2:GroundtruthのDCGが計算される理由は、後のNDCGサービスのためです
最後にNDCGに来ました。DCGのみがカウントされるため、累積が多いため、置換リストの長い方が明らかに支配的です。そのため、GroundtruthのDCGで除算する必要があります。正規化する
したがって、予測ソート結果のNDCG値は最終的に次のようになります。
NDCG = 1.551 / 3.1486 = 0.4925
1.2:MAP
フルネームは平均平均精度です。MAPは、各トピックの平均精度の平均です。
MAPは、すべての関連ドキュメントに対するシステムのパフォーマンスを反映する単一値のインデックスです。システムによって取得される関連ドキュメントが高いほど(ランクが高いほど)、MAPは高くなる可能性があります。システムが関連文書を返さない場合、精度率はデフォルトで0になります。
例:トピック1:4つの関連ドキュメントがあり、それぞれ1、2、4、7にランク付けされています。次に、MAP =(1/1 + 2/2 + 3/4 + 4/7)/4=0.83。
1.3:MRR
フルネームはMean Reciprocal Rankです。評価システムによって与えられた結果における標準的な回答のランキングの逆数をその精度として受け取り、トップを確保するためにトップのランキングを割り引きます。
例:トピック1:4つの関連ドキュメントがあり、それぞれ1、2、4、7にランク付けされています。次に、MRR =(1/1 + 1/2 + 1/4 + 1/7)/4=0.475。
1.4:AUC
AUCは実際には非常に一般的に使用される評価指標であり、個別に説明することもできます。記事の構成を完全にするために、検索ランキング評価指標に入れて詳しく説明します。
AUC自体は、予測値が特定のしきい値未満であるかどうかに注意を払いません。これは、しきい値自体を解決するために使用されるため、以下のコードで予測値が0.5より大きい場合でも、AUCはAUC値を予測できます。特定のしきい値の選択とは関係ありません。
AUCについて以下に説明します。
AUC:正式名称はArea Under Curveで、CurveはROC曲線を指します。
ROC曲線:横軸は偽陽性率(偽陽性率)、y軸は真陽性率です。さまざまなしきい値の下で(x、y)の接続を計算します。したがって、ROC曲線は、サンプルのペア(ポジティブサンプルとネガティブサンプル)をランダムに描画し、トレーニングされた分類子を使用してこれら2つのサンプルを予測するように変換できます。ポジティブサンプルを予測する確率は、ネガティブサンプルの確率よりも大きくなります。
したがって、AUCおよびROCの定義と組み合わせることで、AUCが従来の計算精度(精度)の問題を解決することがわかります。これは、最初にしきい値を設定し、確率をカテゴリーに変換して精度を計算する必要があります。サンプルが均一である場合、しきい値は適切に決定されるためです。2つの分類の問題では、0.5を選択することをお勧めします。ただし、サンプルのバランスが取れていない場合、しきい値を定義することが難しく、手動で選択する必要があるため、リスクがあります。AUCはすべてのしきい値を直接1つずつ直接試行して、ROC曲線を生成します。したがって、AUCはバイアスされたサンプルの測定により適しています。
実際、ROCの下の面積を計算するためにすべてのしきい値を直接試行する代わりに、計算する場合、正と負のサンプルペアを計算し、正と負のサンプルペアを計算します。合計の比率。式に変換されます:
統計的なROC曲線の計算AUCおよびこの方法で計算された同等性は、https://blog.csdn.net/chjjunking/article/details/5933105にあります。
例:実際のラベルと予測ラベルは次のとおりです。
次のように真理値表を描画します。
しきい値を1つずつ設定し、ROC曲線を描画します
実際、ポジティブとネガティブのサンプルペアを作成することで、AUCを直接計算できます。
サンプル番号は次のとおりです。doc1-doc8、doc1-dc4はポジティブサンプル、doc5-doc8はネガティブサンプルです。
4 * 4 = 16の正と負のサンプルペアがあり、正と負のサンプルペアの予測ペアの数は10で、AUC = 0.625として取得できます。
2:オンラインおよびオフラインインジケーターのアライメント分析
以下は、オフラインとオンラインの不整合を予測する機械学習の一般的な問題を分析する最近のプロジェクトです。
特定のプロジェクトと機械学習モデリングの背景をご覧ください。
2.1:問題
モデルを作成する過程で、オンラインインジケーターとオフラインの不整合の問題が見つかりました。プラットフォームでの2つのモデルの実験結果を次の図に示します。
ここでは、NDCG、MAP、MRRを計算するときに、0〜3(クリックなし、ショートクリック、ミディアムクリック、ロングクリック)の4種類のラベルを使用して計算します。ロングクリックのAUCとGAUCを計算する場合、ラベルはロングクリックの有無に基づいて計算されます。同様に、クリックのAUCとGAUCを計算する場合、ラベルはクリックの有無(ショート、ミディアム、ロングクリックを含む)に基づいて計算されます。 。オンラインインジケーターのCTRはクリック率、CVRはコンバージョン率、LCVRはロングコンバージョン率を表します。比較ごとに異なるプレフィックスが設定されていますが、それらはすべて長い変換率に基づいています。
4種類のラベル計算を計算すると、次の2つの現象が見られることがわかります。
1:モデル1のMAP、NDCG、およびMRRはモデル2よりも高いですが、変換率を上げることはできず、オンラインとオフラインは一致していません。
2:AUC値の観点から見ると、モデル1のロングクリックAUCとクリックされたAUCのどちらがモデル2のそれよりもはるかに高いか、モデル1のロングクリックがオンラインになっても改善されないのはなぜですか。
2.2:問題の場所
長い間測位した後、モデルによって予測された平均位置を使用して説明することを後で考えました。以下に示すように:
2.1の質問1への回答:モデル1は全体的なクリックをより適切に予測する傾向があります(対応する図の平均クリック数)が、長いクリックの平均予測ポイントは確かにモデル2よりも低くなっています。したがって、予測平均掲載順位の観点から見ると、モデル1の方がクリックに対する予測効果が高く、クリックのAUCが高いことがわかります。予測された平均掲載順位は、ランキングを測定するための指標としても使用できると思いますか(実際には可能だと思いますが、この指標は離散的であり、最適化の観点からすると、最適化は適切ではありませんが、オフライン評価は使用できるはずです)の)。
今回はサンプルの分布図を見ていきます。
私たちが作成した4種類のサンプルでは、総クリック数における長いクリック数の比率が高くないため、クリック数に対して良好な予測効果をもたらすモデルが得られ、全体的なNDCG値は高くなります。これはインジケーターチャートのNDCGと同じです。 、MAP、MRRおよびその他のインジケーターは、クリックされたAUCと一致しています。
質問の1はこれまでに答えることができます。ラベルの作成では、長いクリックの総量が支配的ではないため、NDCG値はこのラベルによって設定された長いクリックの影響を十分に反映していないためです。
質問2:前の表では、指標GAUCについて説明していません。長い間考えた後、私はGAUCを見つけました。後で、この一連の記事を書く準備をしているときに、同社がすでにいくつかのブログ投稿で言及しており、評価指標としてGAUCを使用していることがわかりました。
上の図では、GAUCはオンラインと一貫性があることがわかりますが、AUCは無効です。これは2番目の質問に答えます。次に、GAUCとAUCの違いを詳しく説明する短い段落を使います。
3:GAUC
GAUCはグループAUCと呼ばれます。AUCに対するその変化は、AUC全体を計算することではなく、各グループの下のAUCを計算してから、AUCの平均値を計算することです。
CAUCの式は次のとおりです。
機械学習アルゴリズムでは、多くの場合、AUCは最も一般的に使用される評価指標と見なされ、AUCは全体的なサンプルのランキング機能を反映しますが、AUCが問題を完全に説明しない場合があり、AUCは実際には反映されない場合がありますモデルの品質、
CTR事前推定方法(並べ替えアルゴリズムは一般にこれを非常に重要な指標と見なします)を例にとると、ユーザーがクリックしたサンプルは陽性サンプルと見なされ、クリックされなかったサンプルは陰性サンプルと見なされます。このタスクはバイナリ分類として扱われます。モデルの最終出力は、サンプルがクリックされたかどうかの確率です。
ユーザーのすべてのサンプルをさまざまな時間に混合して、ユーザーがクリックした正のサンプルに対するモデルの正確さを計算し、負のサンプル予測を使用してAUC値を取得します。この検索は、単語検索でのランキング効果にうまく適合できない場合があります。ユーザーが表示する結果は、A(クリック)、B、Cだけです。次の検索結果には、D、E(クリック)、Fが表示されます。これら2つの検索の結果は融合して予測され、AUCは単一の検索の効果をあまり反映していない可能性があります。したがって、単一の検索結果では、ユーザーは次の検索の結果のみを表示します。検索結果の並べ替え順序は、この並べ替えの結果に対して評価されるべきではありません。
具体例を挙げてください:
ソートの結果は次のとおりです。
この場合、モデルAとBは、ユーザーAとBの2つの検索のエクスペリエンスに違いはありません。それぞれの検索状況では、クリックしたドキュメントがクリックされなかったドキュメントよりも優先されるためです。AUCでは、その差は大きくなります。
したがって、最終的には、GAUCが評価と最適化の指標として選択されました。
GAUCの上昇とオンライン指標の上昇の定量的な関係については、観測に時間がかかります。
歴史シリーズの記事:
[テクノロジーシェアリング] 3つ:検索ランキング-機械学習モデリング
[テクノロジーシェアリング] 5つ:検索ランキング-特徴分析
Tencentクラウドワンストップ機械学習プラットフォームインテリジェントチタンTI-ONEが正式に公開されました。
インテリジェントなチタン機械学習プラットフォームTI-ONE cloud.tencent.com
あなたの訪問を楽しみにして、プロのAI開発者コミュニティ!
Smart Titan AI Developer-Cloud + Community-Tencent Cloud cloud.tencent.com
より高品質の技術記事については、公式のWeChatパブリックアカウントに注意してください。