再ランク付けの2次並べ替えアルゴリズムを推奨する

再ランク付けの2次並べ替えアルゴリズムを推奨する


序文

推奨される再ランク付けランキングには2つの状況があります。1つは、再ランク付けランキングアルゴリズムを使用して、オフライン計算中に各ユーザーの推奨結果を事前に計算する場合と、リアルタイムのオンラインWeb推奨で二次融合ランキングを行う場合です。エンジン。ただし、使用するアルゴリズムの種類に関係なく同じです。たとえば、ロジスティック回帰、ランダムフォレスト、ニューラルネットワークなどを使用して、製品がクリックまたは購入される確率を予測します。使用されるモデルはすべて同じであり、予測時に特徴変換が同じ方法で実行されます。通常、オフラインおよびオンラインのシナリオで呼び出す一般的な方法をカプセル化します。

1.ロジスティック回帰、ランダムフォレスト、ニューラルネットワークに基づく分類のアイデアによる二次ソート

2番目の並べ替えを行う前に、まず候補結果のセットを用意する必要があります。簡単に言うと、ユーザーが購入する可能性が最も高い商品を予測します。数千の商品が含まれていない限り、すべての商品を再度予測することはありません。データベース。1つ。実際、eコマースWebサイトの製品は、通常、数万、さらには数百万のSKUです。もう一度予測すると、走った後はいつかわからないと推定されます。したがって、一般的な処理方法は、小さな候補セットで生成されます。この候補者セットは、大まかなスクリーニングと考えることができます。もちろん、この大まかなスクリーニングは思ったほど大まかなものではなく、実際にはアルゴリズムによっても得られ、精度も非常に良いです。精度をレベルまで向上させるための再ランク付け二次並べ替えアルゴリズムを介してのみ。推奨効果をどれだけ改善できるかは、機能エンジニアリングとパラメーター調整がうまくいったかどうかによって異なります。しかし、一般的に言えば、推奨される効果は10%以上改善される可能性があり、最適化効果は非常に重要であると考えられています。もちろん、数倍にすることも可能です。

ロジスティック回帰、ランダムフォレスト、ニューラルネットワークのアルゴリズムについては前の章で説明しました。広告システムでは、クリック率の推定を2次ランキングに使用し、推奨システムを購入の確率に使用できます。

第二に、ランキングをランク付けするための学習の学習アイデアに基づいて二次ランキングを実行します

ランク付け学習は、推奨、検索、広告の中心的な方法です。ランキング結果は、ユーザーエクスペリエンスと広告収入に大きく影響します。ランキング学習は、機械学習におけるユーザーランキングの方法として理解できます。これは、教師あり機械学習プロセスです。指定されたクエリとドキュメントのペアごとに、特徴が抽出され、ログマイニングまたは手動アノテーションによって実際のデータアノテーションが取得されます。次に、並べ替えモデルを使用して、入力を実際のデータと同様にすることができます。

一般的に使用される並べ替え学習は、PointWise、PairWise、ListWiseの3つのタイプに分けられます。

1)PointWise

単一ドキュメントメソッドの処理オブジェクトは単一ドキュメントです。ドキュメントが特徴ベクトルに変換された後、機械学習システムはトレーニングデータから学習した分類または回帰関数に従ってドキュメントをスコアリングし、スコアリング結果は検索結果または推奨結果。

2)PairWise

検索またはレコメンデーションシステムの場合、システムはユーザークエリを受信すると、関連するドキュメントのリストを返すため、問題の鍵はドキュメントの順序を決定することです。単一文書法は、文書間の順序関係を考慮せずに、単一文書の分類スコアの観点から完全に計算されます。ドキュメントペアリング方法は、ドキュメントの順序関係が妥当かどうかを判断するためにベクトルに焦点を合わせます。この機械学習法のトレーニングプロセスとトレーニング目標は、任意の2つのドキュメントで構成されるドキュメントペア<D0C1、D0C2>が順序関係を満たすかどうか、つまりD0C1をランク付けする必要があるかどうかを判断することであるため、ドキュメントペア法と呼ばれます。 DOC2の前面。一般的に使用されるPairWiseの実装には、SVMランク、RankNet、RankBoostが含まれます。

3)ListWise

シングルドキュメントメソッドは、トレーニングセット内の各ドキュメントをトレーニングインスタンスと見なし、ドキュメントペアリングメソッドは、トレーニングインスタンスと同じクエリの検索結果で任意の2つのドキュメントペアを使用します。ドキュメントリストメソッドは、上記の2つとは異なります。メソッド、ListWiseメソッド全体のシーケンスが直接考慮され、ランキング評価インデックスが最適化されます。一般的に使用されるMAP、NDCGなど。一般的に使用されるListWiseメソッドは、LambdaRank、AdaRank、SoftRank、LambdaMARTです。

4)指標をランク付けするための学習の概要

(1)MAP(平均精度):

2つのトピックがあり、トピック1には4つの関連するWebページがあり、トピック2には5つの関連するWebページがあるとします。システムは、トピック1の4つの関連するWebページを取得し、それらのランクは1、2、4、7です。トピック2の場合、3つの関連するWebページが取得され、それらのランクは1、3、および5です。トピック1の場合、平均正解率は(1/1 + 2/2 + 3/4 + 4/7)/ 4 = 0.83です。トピック2の場合、平均正解率は(1/1 + 2/3 + 3/5 + 0 + 0)/ 5 = 0.45です。次に、MAP =(0.83 + 0.45)/ 2 = 0.64です。

(2)NDCG(正規化された割引累積利益):

レコメンダーシステムはいくつかのアイテムを返し、リストを作成します。このリストがどれだけ優れているかを計算したいと思います。各アイテムにはスコア値が関連付けられており、通常、これらのスコア値は負ではない数値です。これがゲインです。さらに、ユーザーフィードバックのないこれらのアイテムについては、通常、ゲインを0に設定します。ここで、これらのスコアを合計します。これが累積ゲインです。リストの一番上にある最も関連性の高いアイテムを確認することを好むため、これらのスコアを追加する前に、各アイテムを損失値である増加する数値(通常はアイテムの位置のログ値)で除算し、DCGを取得します。 。

ユーザー間でDCGを直接比較することはできないため、DCGを正規化する必要があります。最悪の場合、負でない相関スコアを使用すると、DCGは0になります。最高のものを得るには、テストセット内のすべてのアイテムを理想的な順序で配置し、上位K個のアイテムを取得してDCGを計算します。次に、元のDCGを理想的なDCGで除算し、0から1までの数値であるNDCG @Kを取得します。推奨リストの長さを表すためにKを使用していることに気付いたかもしれません。この番号は専門家によって指定されます。これは、より一般的な値である10や50など、ユーザーが気付く可能性のあるアイテムの数の見積もりと考えることができます。

MAPとNDCGの2つの指標については、NDCGがより一般的に使用されます。ランク付けの学習と教師あり分類のアイデアに基づく再ランク付けの二次ソートの全体的な効果はそれほど変わりません。重要な点は、機能エンジニアリングとパラメーターの調整によって異なります。


3つ、二次ソートを行うための式ルールの加重組み合わせに基づく

上記の機械学習を使用して2次ソートを実行することに加えて、比較的簡単な方法を使用して2次ソートを実行することもできます。この方法は単純ですが、必ずしもこの方法の推奨効果が低いことを意味するわけではありません。レコメンデーションシステムの場合、最後に購入コンバージョン率を確認します。どのアルゴリズムまたは戦略で売り上げを伸ばすことができるかは、優れたアルゴリズムです。

Redisキャッシングについて話すとき、あなたはそれが好きだと思います。ユーザーの新鮮さを満足させるために、ユーザーの最近の関心の変化についてリアルタイムのフィードバックを提供できます。オンラインWebサイトに推奨結果が表示されると、推奨と呼ばれます。リアルタイムのWebインターフェイス。聞いたコースID、次にコースIDを使用して、類似の推奨結果から複数の推奨リストの融合を並べ替えます。この融合は、前述の加重組み合わせ戦略です。

加重組み合わせ戦略の古典的な公式:

3つの製品があり、各製品に6つの製品が推奨される場合、推奨される製品Rの総合スコアは次のようになります。

I sr =(1 /(d + 100))

その中で、O1-O3はそれぞれ3つの製品の中で製品Rの推奨順序を表し、Cは0以上に設定できるバランス係数です。最後に、ランキング結果からの推奨製品のSr値が高くなります。 、ランキングが高いほど前向きです。

この式は、複数の推奨アルゴリズムリストの全体的な集計と並べ替えにも適用できます。

私たちが行う2番目の並べ替えは、スコアの解除を含め、重みの異なる複数の推奨リストを合計の推奨リストに混合することです。ただし、基本的な組み合わせに加えて、他のいくつかの要素が追加されます。たとえば、クラスに参加することの重みは、レッスンを見るときの重みよりも大きく、最新の訪問時間の重みは、古い訪問時間の重みよりも大きくなります。時間、そして最後に得点順序が計算されます。おそらく、ユーザーの最近の行動、重複を削除するためのリアルタイムの融合、およびリアルタイムの2次的な並べ替えに基づいて、新しい結果をリアルタイムで計算することです。

一般に、複数の推奨リストを組み合わせて2次ソートを行う場合、複数のリストが繰り返し推奨を投票する製品が最初にランク付けされ、最近表示および購入した関連製品が最初にランク付けされます。これは、重みが減衰した結果です。時間。

総括する

再ランク付けの2次並べ替えアルゴリズム推奨することに加えて

MXNetなどの他のディープラーニングフレームワークにも優れたオープンソース実装があります。課金アプリ、コース、WeChatグループ、その他のコンテンツに注意してください。新しい本「分散型機械学習プラクティス(人工知能科学技術シリーズ)」を参照してください。 「」

[新しい本の紹介]
「分散型機械学習の実践」(人工知能科学技術シリーズ)[ChenJinglei編集] [Tsinghua University Press]
新しい本の特徴:分散型機械学習のフレームワークと、パーソナライズされたレコメンデーションをサポートするアプリケーションについて説明します。ステップバイステップのアルゴリズムシステム、顔認識、対話ロボットおよびその他の実用的なプロジェクト

【新刊紹介動画】
分散型機械学習実践(人工知能科学技術シリーズ)新刊【チェン・ジンレイ】

ビデオ機能:新しい本の紹介、最新のテクノロジーホットスポットの分析、技術的なキャリアプランの提案に焦点を当てます!このレッスンを聞くと、人工知能の分野でまったく新しい技術的ビジョンが得られます。キャリア開発もより明確に理解できるようになります!

【優秀コース】
「分散型機械学習実戦」ビッグデータ人工知能AIエキスパートレベル優秀コース

【無料体験動画】:

人工知能百万年俸の成長ルート/ Pythonから最新のホットテクノロジーまで

初心者からPythonプログラミングの基礎がないことから、高度な実践的な一連の人工知能コースまで

ビデオ機能:この一連のエキスパートレベルの高品質コースには、対応するサポートブック「DistributedMachine Learning Practical Combat」があります。高品質のコースとブックは相互に補完し合うことができ、学習効率が大幅に向上します。この一連のコースと書籍では、分散型機械学習をメインラインとし、それが依存するビッグデータテクノロジーについて詳しく紹介します。その後、現在の主流の分散型機械学習のフレームワークとアルゴリズムに焦点を当てます。この一連のコースそして本は実際の戦闘に焦点を合わせています。最後に、私は皆のためのいくつかの産業レベルのシステム戦闘プロジェクトについて話します。コースのコアコンテンツには、インターネット企業のビッグデータと人工知能、ビッグデータアルゴリズムシステムアーキテクチャ、ビッグデータファンデーション、Pythonプログラミング、Javaプログラミング、Scalaプログラミング、Dockerコンテナ、Mahout分散型機械学習プラットフォーム、Spark分散型機械学習プラットフォーム、分散型が含まれます。深層学習フレームワークとニューラルネットワークアルゴリズム、自然言語処理アルゴリズム、産業グレードの完全なシステム戦闘(推奨アルゴリズムシステム戦闘、顔認識戦闘、対話ロボット戦闘)、雇用/インタビュースキル/キャリアプランニング/プロモーションガイダンスなど。

【有料ですか?会社紹介】

Rechargeable Appは、オフィスワーカー向けの職業訓練と学習に焦点を当てたオンライン教育プラットフォームです。

仕事の職業スキルの向上と学習に焦点を当て、仕事の効率を向上させ、経済的利益をもたらします!今日は充電していますか?

公式サイトhttp://www.chongdianleme.com/を充電してい
ますか

課金されますか?アプリの公式ウェブサイトのダウンロードアドレス
https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

機能は次のとおりです。

【業界全体のポジション】-サラリーマンの職業スキルの向上に焦点を当てる

あなたがサラリーマン、エグゼクティブ、または起業家であるかどうかにかかわらず、すべての業界とポジションをカバーして、あなたが学びたいビデオと記事があります。その中でも、ビッグデータインテリジェントAI、ブロックチェーン、ディープラーニングは、インターネットの第一線の産業レベルの実践的な経験です。

専門的なスキルの学習に加えて、企業経営、公平なインセンティブとデザイン、キャリアプランニング、社会的エチケット、コミュニケーションスキル、プレゼンテーションスキル、会議スキル、メールスキル、仕事のプレッシャーを緩和する方法、個人的なつながりなどの一般的な職場スキルがあります。など。すべての面であなたの専門レベルと全体的な品質を向上させます。

【ニウレン教室】-ニウレンの実習体験を学ぶ

1.インテリジェントなパーソナライズエンジン:

さまざまな業界とポジションのスキルワードプリファレンスマイニング分析を通じて、すべての業界とすべてのポジションをカバーする大規模なビデオコースで、現在のポジションに最も関心のあるスキル学習コースをインテリジェントに照合します。

2.ネットワーク全体で講義を検索します

大規模なビデオコースを検索するためのキーワードを入力してください、すべてがあります、あなたに適したコースが常にあります。

3.クラスの聴取の詳細

ビデオ再生の詳細、現在のビデオの再生に加えて、関連するビデオコースや記事の読み方もあり、特定のスキル知識ポイントを強化して、特定の分野の上級エキスパートになることができます。

【優れた読書】-スキル記事の興味深い読書

1.パーソナライズされた読書エンジン:

さまざまな業界のポジションのスキルワードプリファレンスマイニング分析を通じて、すべての業界とすべてのポジションをカバーする数千万の記事を読み、現在のポジションで最も関心のあるスキル学習記事をインテリジェントに照合します。

2.ネットワーク検索全体を読む

キーワードを入力して、読むべき多数の記事を検索してください。すべてが利用可能であり、興味のある記事を学ぶスキルが常にあります。

[ロボット教師]-楽しい学習を個人的に強化する

検索エンジンとインテリジェントな深層学習トレーニングに基づいて、私たちはあなたをよりよく理解し、自然言語、娯楽と学習、効率的な学習、そして幸せな生活でロボット教師とチャットして学ぶロボット教師を作成します。

【ショートコース】-知識を効率的に学ぶ

時間の断片化された学習を満足させ、特定のスキル知識ポイントを迅速に向上させるための大規模な短期コース。

おすすめ

転載: blog.csdn.net/weixin_52610848/article/details/109771632