工学プロジェクトのインターネット広告は、クリックスルーレート特性

http://blog.csdn.net/mytestmy/article/details/19088827からの振替

免責事項:

1)ブログは、オンラインの情報や専門家の無私の献身から素晴らしい仕上げ牛です。特定の情報に引用した参考文献を参照してください。声明はまた、元の文書の特定のバージョンを参照してください

。この資料では、学術的、非商業的な使用のためである2)。だから、特定の参照のすべての部分は、詳細には対応していませんでしたが、いくつかの部分は、常に上に直接別のブログからコピーされました。セクションが誤って人々の利益を侵害しませんが、またLaonaを許すと連絡を見れば、利害関係者が満足するまで、削除または修正。

3)I Caishuxueqianは、とき避けられないミスまとめ仕上げ、高齢者にもありがとう、あなたは私を修正して自由に感じる願っています。

4)記事を読む必要があり、機械学習など、統計的学習理論、最適化アルゴリズム、基礎を(それは問題ではないではない場合、)資本の自慢の学生と同じように、見ないでください。

あなたがCSDNをダウンロードするためにアップロードすることができ、必要に応じて5)私は、ワード版とPDF版を持っています

 

A. インターネット広告機能の動作

ボーエン「インターネット広告のクリックスルーレートシステムの概要」インターネット広告のクリックスルー率のシステムを論じてロジスティック回帰モデルは比較的シンプルで実用的です、それはトレーニングの様々な方法があるが、あなたは、見ることができますが、目標は同じであり、トレーニングインパクトの効果の結果は比較的大きいが、トレーニング方法自体、トレーニングはそれぞれの重量は微妙な違いがCTRに大きな変化を生じさせない重いウェイトを備えているため、有効性は、決定的ではない影響を与えます。
CTRの見積もりが決定的な役割を果たしているため決定のトレーニング方法の後、オプション機能です。

 

1.1機能の選択と使用

CTRの推定値は、他の手は、ユーザーのデータである上、全てのデータが今持っている場合、ジョブは、ユーザーが広告をクリックし、両方の可能性を評価するためのデータを使用することで、1は広告データである、二つの側面のデータが必要です(すなわち確率)。
ユーザー機能は、より利用者の年齢、性別、地域、職業、学校、モバイルプラットフォームなどです。広告の特長は、広告サイズ、広告テキスト、あなたのビジネスを宣伝、広告イメージとして、また非常に豊富です。このような交差CTRと各広告、広告のセックスCTRリアルタイムとしてフィードバック機能があります。広告機能に興味のある人を描くことができるように非常に多くの機能から選択する方法、それはデータマイニングエンジニアの大きな問題です。
選択された特性は、また、例えば、機能として、個人の年齢は、それが最終的にどのような訓練を受けている場合、機能の方法を選択するために注意を払う必要がありますか?そのため自分の年齢の合計は無意味である、我々は唯一の機能として、各年齢を置くことができ引くが、この光はできますか?機能を使用する方法、それは大きな問題の広告アルゴリズムのエンジニアです。


1.1.1選択機能

推定CTRに適した機能はどのような?問題は、広告アルゴリズムのエンジニアの多くは検討する必要があります。
私たちはほとんど関与していない機械学習アルゴリズム、機能の議論のほとんどのモデルについて話します。実際のアプリケーションでは、ほとんどのデータマイニングエンジニアの仕事は、検証機能を提供している、考えています。
プラス精神的な強さである機能を生きていきたい、あなたも、より多くのそれは、業界は、業界の特徴を確認する唯一の方法があり、特性を設定する方法を考えていなかったということです踏み込み、フィールドの多くの知識を必要としています。インターネット広告業界では、単にそれを来るか共通の特徴について話しています。
まず、この機能の年齢ことを、どのようにそれは、CTRと関係を持って知っているのですか?今、直感的な説明は、若い人たちは、一般的にヘルスケア製品の広告の50歳以上の人のような車、家屋等の広告のような、約30歳の男性、広告キャンペーンの種類が好きということです。根拠の特徴は、物事の様々なタイプのように、すべての年齢層の人々に基づいてラフ部門であるとして、あなたが年齢を選択し、見ることができ、非常に主観的なものです。
この機能のセックス以外にも、直感的な感覚は、男性は一般的にスポーツカークラス、ツーリストクラスの広告が好きということで、女性は一般的に化粧品、衣料品の広告が好きです。産み分けの機能が類似した根拠に基づいており、これも見ることができ、別の大きな経験のような男性と女性が何かということです。
より学習の下で、中国南部の人々は、アニメやゲーム、ワイン、タバコなどの北朝鮮、中国の人々を好む、この地理的な特徴については?
広告特徴、広告の画像サイズ、広告フォアグラウンドの背景色は、実際に人々がそれをクリック影響を及ぼすことができますか?実際には、これは憶測です。インサイド絵であるか、動物の要因のようなスターも考慮することができます。
要するに、この機能を考える基本的なことは、唯一の機能は、人とあまり問題ない場合でも、彼らは良い検証を持って、より多くの機能を考えると、すべての人生の歩みのも、より多くの知識を想像するために何かを持つことができるくらいのスペクトルではありません一部。これは、遅く帰ってくる、穏やかにそれを説明しない言い訳と見つけ言い訳する方法を考えるための言い訳を持っている必要がしたい口実として、男性と基本的にあります。
思考の特徴は、それが決定され、検証されなければなりません。
検証は、マルチウェイ、直接観察のCTR、カイ二乗検定、1つのAUCおよびその他の機能を備えています。直接観察のCTRは、上記の多くの男性よりもクリックスルー率以上の女性では、ライブレコーディング、化粧品の広告のクリック率に応じて、化粧品業界でのセックスを予測する能力によって特徴付けられるように、非常に効果的な方法であり、もしスポーツ男性では上記のCTRが女性よりも高く、スポーツ業界でのセックスこの機能はまた、予測力を持っているサプライは、複数の業界を証明し、我々は、性別、この機能を使用することができることを信じています。
評価のこのタイプの年齢特性は、それが様々な年齢グループ間CTRに差がある広告を観察している、と示し、違いがある場合は、その後、広告のクリック率が異なる年齢の分布と同じではありません観察すること、この機能の年齢にそれは使用することができます。
実際の使用では、この機能はまた、それらの使用が関連している可能性がでこれらの2つの機能は、いくつかの効果を持っていますが、最初の2それほど明白ではない以上、効果的な地理や年齢で、この機能は、より効果的な性別であることをモバイルプラットフォームを見つけましたが、また、さらに掘削。
この機能はまた、非常に効果的であるCTR一方、実際の使用にもその広告フィードバックを見つけ、この機能は現在の広告が、実行されているの一部を入れて、すでにしている、これはベースの一部に当たるCTRとみなすことができることを意味し、また、CTRは非常に有効であるトラフィックを推定するために使用、広告の品質の表れ、と考えることができます。


1.1.2処理と特徴

また、問題がどのように使用するには、機能を取得することを選択します。
行うには推定CTRが仕事下図で、私は実際には、需要についてお話しましょう- CTRユーザー/広告の組み合わせを計算します。

上記の機能が選択されている、暫定的なフィードバックCTR広告、ユーザーの年齢、性別三つの特徴があります。
離散化
フィードバックCTRが直接できるだけことを特徴と浮動小数点数であり、フィードバックは、クリック率を仮定していることを特徴とします。二つの図は、20歳の大きさを比較すると、年齢が浮動小数点数、30歳と20歳ではありませんので、年齢に対応して、30は減算を追加すると、最適化で計算し、意味がない、意味がありませんが、そうではありません実際のコンピューティングCTRは、サイズの2つの数字を比較する伴うだろう。WXとして、wは特徴xの値が20または30である場合に決定された、値WXの差はあっても、論理式、大きく、次いで、得られた値を比較して比較的大きいが、多くの場合、同じ広告の金利間の年齢差の30年の20歳の男性はそれほど大きくはありません。このような状況の解決策は、このような年齢のわずか20〜29歳の10種類の合計として、各年齢一つの特徴点である、2-11(1つの広告フィードバックCTR)から番号機能を、行うためにあらゆる年齢を取りました人は20歳である場合は、その値の特性上の数2は、0が1番、3〜11です。このように、この種の年齢特性が10の機能、10機能を持つことになり、これは、この機能は、個別の機能と呼ばれ、相互に排他的です。
第二に、クロスは、
それは、上記の問題を解決することができますが、十分に見えますか?
例えば、人はその後、数が2以上、それは1となっていることを特徴としている、20歳、広告バスケットボールは、広告は1、重み2の数を取得するには、このような訓練の結果である化粧品の一つであることの意味であります-20歳のすべての広告の可能性は、この重量ですクリックする人、これは実際には無理があります。
意味のあるべき、それは価値あるスポーツ関連の広告、との時間だ、この20歳の男性、;関連するヘルスケア製品と広告は、それが値です。だから、合理的に見えます。これは、上記に基づいて、同じ理由で、深い十分でない場合、この機能は同性でも、上記の個別操作が数12と13でなかった場合、12は男性であり、13は女性です。この場合、雄/スポーツ広告の組合せのために、機能12は図1に示すように、雄型特徴値の合計数で番号付け/ 12はまた、化粧品です。これは不合理です。
どのように合理的なのですか?上記の例では、セックスです。番号12は、特性値が男性/スポーツ広告の組み合わせについて記載したように、男性の数の値は、上記のように、番号12の物理CTRを備え、男性ユーザ上記CTRの引数を取りませんで機能12は、浮動小数点数、浮動小数点の加算となり、減算は理にかなっています。
このアプローチは、クロス機能と呼ばれ、今固有値を取得するための広告と性別の交点があります。現在の産業用アプリケーションを横断する他の多くの方法があります(その特性数1)利用者との最も特徴的なクロス広告は、広告のクロスジェンダー特性と、広告は携帯電話の広告で、年齢とのクロスを備えていますクロスプラットフォーム機能、地理的な機能を備えたクロス広告。より行われた場合は、広告主があるかもしれません(各広告の配信計画は、広告主によって提出され、広告主は、複数の打ち上げ計画を提出することができる)さまざまな機能と交差します。
第三に、連続変数機能の個別の特徴は、
特性値が十分にある交差のですか?答えは、必ずしもではありません。
機能1の数として、CTR自体をアドバタイズされ、対数正規分布と呼ばれるロングテール分布に沿ってそのインターネット広告のクリックスルーレートを仮定すると、確率密度が低く図である(この仮定が実際のデータを表すものではないことに注意してください観測からの実際のデータは、形状のような種類と一致している、紙)は、Yahooのベータ分布に沿って、それを平滑化しているようです。

以下、これらの広告をカバーしているときは、広告のほとんどは、特定の狭い範囲内でのクリックスルー率は、高いCTR、より少ないトラフィックを見ることができます。広告は0.2%のクリックスルー率であれば、他の言葉では、時間の約0.2%に当たる、B広告のクリックスルー率は、実際には、広告よりもクリック率B、広告、広告bを表現するのに十分以上、0.05%、0.25%でした幅広い多くの良い、しかし、時間の約1.0%のクリックスルー率、クリックスルー率は1.0%である宣伝、広告Bのクリックスルー率は1.05パーセントであり、そこにある方法は、広告宣伝よりもはるかに良いBということを意味し、この0.05%のため、広告は、間隔はあまりないが、二つの基本的な広告が同じとみなすことができます。機能やCTRは番号を構成することをユーザーが広告をクリックする確率が完全に正の相関がないので、つまり、異なる間隔でヒットし、あなたは、異なる重み係数を考慮する必要があり、より多くを評価することが可能です大規模な、より重要な特徴は、ある程度成長する価値があるかもしれない、重要性が減少しました。
このような問題のために、Baiduの科学者は、連続機能の離散化を提案しました。彼らは、異なるセクションの特性連続値の重要性異なるセクションに同じなので、うまくいけば連続機能ではありませんが、異なる重みを持っている中で、特徴的な分割間隔を達成するための方法ですが、それぞれの間隔は、新たな機能であると考えてい。
特定の実装では、離散周波数などの使用:1)その機能1についての上記数は、各レコードの最初の統計的履歴は、各10,000インプレッションがあると仮定すると、数1によって特徴付け値の並べ替えを表示しますこのレコードは、特徴値が浮動小数点数と同じではありません示し、最低から最高まで、このフロート感想、最下行の範囲として記録1000回のショーに合わせて記録されたすべての特徴値のため、2000年から1001年には、ランキングを表示します特性値の範囲として記録、など、10点の間隔の合計を分割。2)1-1000の記録からランク付けする機能番号を並べ替える1000年を示し、彼らは数1に新機能のオリジナルの特徴を、番号、1であり、ランキングのために1001年から2000年からのレコードがあり、彼らは、数2に1の値を、新しい機能のオリジナルの特徴を番号など、新しい機能1-10 10の合計の数が存在することになります。各レコードのショーのために、1から1000位に、新機能が0から10までで1番にのみ第2の場合は、他の同様のレコードが表示され、そう、CTR、広告自体が占有されています第10の特徴は、10個の離散機能にそれを回しとなっています。
そして、元の各機能に必要な他の離散周波数が行っている、つまり、元の数は1-13の番号が付けられ、そして10にそれぞれ個別の機能ならば、多くの離散的な数に、そして最終的には130を特色にするだろう、Wトレーニング結果は、130次元のベクトルとなり、ウェイト130は、特徴量に対応します。
テーブル名の実際の応用、離散的特徴は、非線形の関係データを近似することができ、元の連続的な効果よりも優れた機能を達成するために、およびオンラインアプリケーション、乗算を実行する必要が、また、CTRを計算速度を加速しました。


濾過し、補正特性1.1.3

実際には、前述したように、ログ統計の歴史によって実証されている可能性があり、このような広告フィードバックCTR、広告やクロスジェンダー特性などの多くの機能フィードバック機能。しかし、いくつかの広告が男性ユーザーに表示することさえ少なく、非常に小さなを表示しなければならなかった、広告や性別のクロスCTRを計算するために、この時点では、この機能を修正する必要がある、非常に正確です。具体的な補正方法は、ブログを参照することができ、「円滑なベイジアンCTR。」
CTRは特性が行う修正した後、我々は実際のオンラインアップグレードの比較的大きな効果を持っています。
この機能を使うと、より場合は、広告機能か何かで学校の交差点で、機能の数千人と離散化した後、この場合はそうで、このようなオーバーフィッティングなど、あまりにも多くの機能によって引き起こされる、さまざまな問題を生成します。この問題の一つの解決策は、このような差別CTRの使用など、オフラインのデータを評価することです。もう一つは、重量が0になると、クリックスルー率の推定、予測が強くない場合に備えて、その一部を取得するために定期的な研修を通じて定期的な重みベクトル、特に通常のL1、L1の使用、である、それは見積もりには影響を与えません。これは、フィルタ特性、「L1および実装を参照してくださいボーエンに関するいくつかの具体的な議論であるロジスティック回帰への一般化線形モデルから」、「OWL-QNアルゴリズム」と「eラーニングアルゴリズムtRLを。」

 

謝辞

多くのLinkedln、Baiduの研究者無私の公開情報。
多くのブロガーは、情報をブログ。

 

リファレンス

[1]広告のクリック予測:塹壕からの眺め。H.ブレンダンMcMahan、ゲイリー・ホルトら、グーグル的论文
[2]  http://www.cnblogs.com/vivounicorn/archive/2012/06/25/2561071.html  @Leo張的博客
[3]計算広告: LinkedInの道。ディーパックAgarwalさん、LinkedInの株式会社CIKM

おすすめ

転載: www.cnblogs.com/cmybky/p/11772875.html