[技術共有] 7:検索の並べ替え-並べ替えモデル

この記事オリジナルの著者:鵬Jiangjunは、承認後にリリース。

元のリンク:https : //cloud.tencent.com/developer/article/1533656

はじめに:

モデルは、機械学習の3つの質問で、学習方法をリンクしています。これは、特徴と従属変数の間の関係を決定するためのコアステップです。この部分には、モデルの選択、最適化の目的と損失関数の選択が含まれます。ソートは最初のセクションで説明されています。LTRには、ポイントワイズ、ペアワイズ、リストワイズの3つのモードがあります。ここでは、主に使用されるLightgbmモデルについて説明します。以下では、決定関数の選択(最適化の目標)がもたらす効果について説明します。最後に、データビジネスとモデル全体の理解に基づいて、リストワイズモデルではCTRとコンバージョン率がそれぞれ0.6ずつ向上し、ポイントワイズモデルでは、コンバージョン率が3ポイント向上しました。

1:Lightgbmの概要

LightgbmとXgboostに関して、2つの間の関係はLightgbmがXgboostの軽量バージョンであり、トレーニングプロセスが高速で、メモリ消費が少ないと見なすことができます。予測の原理を詳細に見つけて理解しやすくするために、ブログ投稿がここに投稿されています。

https://blog.csdn.net/meyh0x5vDTk48P2/article/details/79876825

要約すると、実装されたメインモデルはGBDTです。これは、ツリーモデルに基づく統合学習モデルです。GBDTのアルゴリズムフローは、次のリンクhttps://zhuanlan.zhihu.com/p/29765582参加できます。このリンクには、いくつかの式の導出が含まれています。導出式を理解したくない場合は、移動せずにクリックできます。以下では、アルゴリズムの考え方を説明するために短い単語と画像を使用します。

GDBTはツリーモデルに依存しています。

ツリーモデルでは、次の図に示すように、他のものを多数のIF-THENルールのセットとして単純に見ることができます。サンプルは、サンプル特性の分割に従って多くのリーフノード間の値として予測できます。

ツリーモデルに基づいて、GBDTは予測された残差に基づいて数回の反復を行いました。簡単に言えば、最初のCART予測に基づいて、最初の質問の予測誤差が2番目のツリーで予測され、繰り返されます。停止条件に達するまで、GBDTの予測はN本の木の予測結果の合計です。

2:プロジェクトの実践

プロジェクトの背景とモデリングは、セクション3:検索ランキング-機械学習モデリングで確認できます。

このセクションでは、3つの異なる最適化目標に基づく結果を示します。

最適化の問題として純粋なクリックを選択した場合、最適化の目標は、ユーザーのクリックを最適化の目標として一意に決定され、現時点では、バイナリ分類としてlightgbmモデルを選択します。2番目のカテゴリのポイントワイズモデルは、click_point_modelと呼ばれます。

純粋なロングクリックを最適化の問題として選択すると、最適化の目標は、ユーザーのロングクリックを最適化の目標としてのみ決定されます(ロングクリックは、ユーザーがクリックして特定の条件を満たすために監視する時間として理解できます)。 lightgbmモデルの2つのカテゴリ。2番目のカテゴリのポイントワイズモデルは、longclick_point_modelとして記録されます。

クリックとロングクリックを同時に最適化することを選択した場合、ラベルを0〜3のカテゴリに設定します。ラベルの設定については、次の表を参照してください。

lightgbmモデルの下のlambdamartが使用され、listwise_modelと表示されます。ここで複数分類が使用されない理由は2つあります:1:カテゴリ間の違いは実際には非常に不均一です。2:各ラベルを正確に予測するという点では、ラベル間の順序関係により注意を払っています。これに基づいて、最終的にリストワイズモデルを選択しました。

ラベルの分布を以下に示します。

 

複数のインジケーターの中から最も代表的なものを選択し、最終的な結果を以下に示します。

このうち、ロングコンバージョン率1は、Tencentビデオの競合製品の価値を比較し、競合製品の設計を参照することを主な目的とする、何らかの処理後の値です。言うまでもなく、どれが特定の製品になります。

いくつかの傾向グラフと相まって:

バレルCTR​​トレンドグラフ

バケットの長い変換傾向グラフ:

このことから、最適化するターゲットを選択し、モデル最適化学習の方向を決定する決定関数を決定することが非常に重要であることがわかります。

さらに、Lightgbmを使用すると、特徴の重要度分布も取得できます。次の図は、ロングクリックトレーニングによって取得されたツリーモデルの重み重要度分布を反映しています。

ここで実際に行っているのは、きめ細かい作業です。その中で使用されている機能の一部は、最も原始的な機能ではなく、実際に処理されています。たとえば、pctrディメンションの機能は、何億もの機能を持つDNNネットワークが得られる(多くの疎な埋め込み機能)ので、ここでは拡張しません。

このグラフは、統合学習のツリーモデルにおける各機能の重要性を反映しています。機能重要度分析前の機能分析セクションで説明したことを忘れないでくださいさまざまなカテゴリを選択し、情報エントロピーに基づいてJS分岐を取得すると、重み付けされた重要度値も取得されます。

一連の記事:

[技術の共有] 1:検索の並べ替え-概要

[技術の共有] 2:検索の並べ替え-工業プロセス

[テクノロジーシェアリング] 3つ:検索ランキング-機械学習モデリング

[技術の共有] 4:検索の並べ替え-データの収集と構築

[テクノロジーシェアリング] 5つ:検索ランキング-特徴分析

[テクノロジー共有] 6:検索のソート-インデックスの紹介と選択

元の記事を3件公開しました 賞賛されました1 訪問数1475

おすすめ

転載: blog.csdn.net/qq_42933419/article/details/104994631