シェアは、今日の見出しやコンテンツ推薦システムの分析、ユーザータグ、評価分析、コンテンツセキュリティ原則の概要に焦点を当てます。
I.システムの概要
推薦システムは、実際にコンテンツ利用者の満足度の機能に合わせて記述するための正式な方法であれば、この関数は3次元の入力変数が必要です。
最初の次元は、コンテンツです。見出しは現在、コンテンツのための包括的なプラットフォームは、グラフィックス、ビデオ、UGC小さなビデオ、クイズ、マイクロ見出し、各コンテンツは独自の特性をたくさん持っている、機能の異なる種類の内容を抽出する方法を検討する必要性が提言を行います。
二次元は、ユーザの機能です。興味、職業、年齢、性別などを含む種々の標識は、多くのモデルは、暗黙的なユーザーの関心を示していると上のように、そこにあります。
三次元は環境特性です。これは、情報の嗜好がシフトしているモバイルインターネット時代の特性の勧告、モバイルユーザーいつでも、どこでも、さまざまなシナリオの職場では、通勤、観光、です。
3次元と組み合わせることで、モデルは、投機は、このシナリオでは、ユーザーに適切な勧告であるという予測を提供します。
直接測定することはできません、どのようにターゲットを導入するという問題もありますか?
推奨されるモデルは、クリックスルー率、読む時間、親指アップ、コメント、などの親指を転送すると、目標を定量化することができるが、推定値は、モデルで行うオンラインのリフトが良いを行うことを知ることができます見に直接取り付けることができます。
しかし、推薦システムの一般的なボリュームは、完全にインデックスによって評価することができない、多くのユーザーにサービスを提供する、データ指標以外の要素の導入も非常に重要です。
例えば、広告や特別な周波数のコンテンツ制御。Qカードは、コンテンツの特殊な形のようなものです、その推奨ターゲットは正確にユーザーが閲覧できるようにするだけでなく、コミュニティにコンテンツを提供するために、ユーザーを引き付けるために答えを考えていません。どのようにこれらと一般的なコンテンツ - テキスト、考慮すべき周波数制御の必要性を制御する方法について説明します。
また、コンテンツの生態配慮し、社会的責任のためのプラットフォームは、下品なコンテンツとして抑制するために、当事者のタイトルは、抑制、低品質のコンテンツに、トップの重要なニュースは、加重、バージは、低レベルは、適切なコンテンツをダウンアカウントアルゴリズム自体は完了することができませんコンテンツのさらなる介入の必要性。
今、私は簡単に上記のアルゴリズムに基づいてその目標を達成する方法について説明します。
前述の式y = F(XI、徐、XC)が、古典的な教師あり学習問題です。伝統的な協調フィルタリングモデルとして実現する多くの方法がありますので、上の因子分解マシンとGBDT、深い学習のモデルに基づいて、アルゴリズムロジスティック回帰モデルを学習し、監督。
良い推薦産業システムは、構造調整モデルを含むアルゴリズムの組み合わせの多様性を、サポートすることができる非常に柔軟なアルゴリズムの実験プラットフォームを必要とします。モデルが困難であるため、推奨シーンのすべてに共通のアーキテクチャを持っています。
今LRとDNNの非常に人気の組み合わせ、Facebookは数年前に組み合わせて、GBDT LRアルゴリズムを行います。今日のニュースの見出しいくつかの製品のアルゴリズム推薦システムの強力なセットで使用されているが、異なるシナリオによると、モデルのフレームワークが調整されます。
モデル後の勧告の典型的な特徴を見て、機能の4種類があるが、より重要な役割を果たしすることをお勧めします。
最初のカテゴリは、相関特性である属性やコンテンツは、ユーザーが一致するかどうかを評価することです。明示的な一致は、キーワードマッチング、分類一致、ソース・マッチ、テーマのマッチングが含まれます。FMモデルと同様に、いくつかの隠された試合があり、ユーザーは、距離ベクトルとベクトルのコンテンツから導出することができます。
第二のタイプは、時間、場所などの環境特性です。これらは、バイアスが、また、いくつかのマッチング機能を構築するためにだけではなくています。
第三のカテゴリーは、熱特性です。グローバル熱、分類熱を含め、これに関するトピック、およびキーワード熱とを加熱します。熱コンテンツ情報は、システムは、特にユーザコールドスタートで推奨されている時に非常に有効です。
第四のカテゴリーは、それがいわゆるアルゴリズムがある程度狭いの問題を押す解決することができます共同機能です。
コラボレーション機能は、ユーザーが歴史を持っているとはみなされません。しかし、このような類似した、関心同様のテーマ同じような興味と類似の単語、あるいは類似したベクトル、探査モデルを拡張する機能をクリックするなど、ユーザーの行動によって、異なるユーザー間の類似性の分析に。
トレーニングモデルは、ヘッドライン部門のほとんどは、リアルタイムのトレーニングを使用して製品をお勧めします。情報製品の流れのために非常に重要であるリアルタイム訓練省資源化と高速フィードバック、。ユーザ行動情報を迅速に捕捉され、次の推薦ブラシ効果モデルにフィードバックする必要があるかもしれません。
我々は現在、オンラインリアルタイムをクリックし、ショー、収集、共有、行動の他のタイプを含む嵐のクラスタのサンプルデータに基づいた処理。
モデルパラメータサーバは、オープンソースのシステムの安定性とパフォーマンスに似て速すぎて、見出しデータの増加の大きさは、満たすことができないので、社内で開発した高性能システムであり、目標と最適化の多くを行うために私たちの基本的な自己開発システム、提供します運用・保守ツールを改善するだけでなく、既存のビジネス・シナリオを適応させます。
現在、世界中の推薦アルゴリズムモデルの見出しは、数百億とベクトル機能のオリジナルの特徴の十億を含む、比較的大きいです。
全体のトレーニングプロセスサーバがキューにオンライン記録リアルタイム機能、カフカのファイルをされ、その後、カフカ消費データクラスタ、さらに輸入ストームは、クライアントがオンライントレーニングモデルパラメータが続く推奨ラベル建設トレーニングサンプルは、最新のサンプルに応じて更新されて戻ります、モデルの最後の行が更新されます。
資料では、必ずしも表示されないことを推奨した直後に、時間のこの部分を考慮していないので、このプロセスは、遅延フィードバック遅延アクションのメインユーザーである、システム全体がほぼリアルタイムです。
現在の含有量が少ない映像コンテンツと、非常に大きいですが、レベルの何百万を持っているのでしかし、見出しは、すべてのコンテンツ推薦システムは、すべてのモデルで推定することはできません。
だから、デザイン戦略の一部、レベルがコンテンツの塊からライブラリのコンテンツの数千のうちスクリーニング推奨するたびに思い出すことが必要です。リコール戦略最も重要な要件は、一般的な残業が50ミリ秒を超えてはならない、究極のパフォーマンスになることです。
多くの種類の戦略を思い出し、私たちは主に思考の反転方法を使用するがあります。反転を維持オフライン、反転キーを分類することができる、トピック、エンティティ、ソース。
熱、新鮮さ、などのアクションを注文することを検討してください。オンラインリコールはすぐに大規模なライブラリから、ごく一部の反転ユーザーの関心タグに基づいて、より信頼性の高い効率的なスクリーニングからのコンテンツを作るためにカットすることができます。
第二に、コンテンツ分析
テキスト分析、画像解析や映像解析などのコンテンツ分析。私たちは、主に、我々は、メインテキスト解析について話今日、見出し情報を行います。テキスト分析は、推薦システムにおいて非常に重要な役割は、ユーザーの興味モデリングです。
いいえテキストラベルと内容は、ユーザーがラベルの権益を取得することはできません。例えば、物品のタグを知っている人のみが、インターネットは、インターネットユーザーがあまりにもインターネットのラベルを持つユーザー、他のキーワードを知るために、物品のラベルを読んでいます。
一方、ラベルテキストは、直接、このようなMeizuのコンテンツとして推奨機能は、ユーザーのタグをマッチングされるユーザの注意Meizuのにお勧めすることができますすることができます。
メインチャンネルが推奨する一定の時間が十分でない場合は、推奨狭窄が発生し、ユーザーが特定のチャンネルが(など、科学技術、スポーツ、エンターテイメント、軍事、など)の読み取りをお勧めでしょう、メインフィードへの復帰、勧告が良いだろう。
モデル全体が開いているので、サブチャネルは、顧客のニーズを満たすために簡単に小さなスペースを、探索します。推薦精度率を改善するための唯一の単一チャネルフィードバックは良いを行うには、サブチャンネルは非常に重要であり、難易度の比較的大きな程度になります。そして、これはまた、良質なコンテンツ分析が必要です。
地図上に今日の見出しは、実用的なテキストの場合です。あなたはこの記事では、テキスト分類、キーワード、トピック、エンティティの言葉などを備え、見ることができます。
もちろん、ないテキスト機能せず、推薦システムはない仕事、アマゾンで最も古いアプリケーション推薦システム、およびビデオNetfilx含むそこにもウォルマートの時代には、また、直接の協調フィルタリングを備えたテキストをお勧めしませんすることができます。
しかし、IT製品のため、一日の大半の消費者のコンテンツ、新しいテキストのないコンテンツは、コールドスタートは非常に困難である特徴、コラボレーティブクラスの特集記事は、コールドスタートの問題を解決することはできません。
今日の見出しの推薦テキスト特徴抽出システムは、主に以下のカテゴリが含まれています。ファーストクラスセマンティックタグは、明示的に意味タグの付いた記事を備えています。
タグのこの部分は、各ラベルには、明確な意味を持ち、人々の特性によって定義され、ラベルシステムは、あらかじめ定義されています。
そこ主に、明確な意味を確率分布を説明しないのトピック単語ことを特徴としている話題やキーワード機能、ことを特徴とする暗黙のセマンティックの特徴でもあり、そしていくつかのキーワードをもとに統一された特性、明確なコレクションを特色にします。
また、テキストの類似性を備えても非常に重要です。見出しでは、ユーザーからのフィードバックは、最大の疑問の一つは、合計が重複したコンテンツを推奨する理由であるとなっています。問題の難しさは、誰もが、繰り返しの同じ定義はないということです。
例えば、一部の人々は、この記事では、レアルマドリードとバルセロナの話を見つける昨日同様の内容を見てきました、今日は繰り返され、両チームと述べました。
すべてのレポートを通読しているためではなく、重いファンのために、特にバルセロナのファンは待つことができません。同様の記事が判定テーマに応じて、この問題を解決する必要があり、これらの特性に基づいて、オンライン戦略を行うなど、身体、読み込みます。
同様に、空間的および時間的特性は、コンテンツのシーン解析及び適時性があります。リミット・ラインのユーザーをプッシュするように北京に武漢などの事が意味を成さない場合があります。
最後に、また、それは柔らかい、チキンスープであるかどうか、わいせつ、下品な内容かどうかを判断するために、品質関連の特性を考慮?
図セマンティックタグ見出しの機能と使用シナリオです。そのレベル、異なる要件の違い。
目標は、各ビデオには、各コンテンツの分類の希望を持って、総合的な分類に到達することであり、実際のシステムでは、同じ名前や内容が明らかに代わって人やものをいう正確に区別できるようにするには、正確な必要がありますが、全体をカバーしていません。
コンセプト・システムは、より正確な解決のために責任があると抽象化のセマンティクスに属します。これが私たちの最初のフリープラクティスの分類と概念が技術的な相互運用性で見つかった、と後の技術的なアーキテクチャの統一セットをすることが可能です。
現時点では、すでに暗黙の意味的な機能は非常に参考に勧告することができ、およびセマンティックタグが反復を継続する必要性をタグ付け、新しい用語が新しいコンセプトを新興、タグ付けを続行する必要があります。暗黙の意味的な特徴よりもはるかに大きいを行うには、その難しさと資源は、なぜあなたは、セマンティックタグが必要なのでしょうか?
このようなコンテンツの分類チャネルとして、製品、上のいくつかの必要性が明確に定義されたと理解しやすいテキストラベルシステムが必要です。セマンティックタグは、会社のNLP技術の試金石の効果を確認することです。
今日のニュースの見出し分類のオンライン推薦システムは、一般的な階層型テキスト分類アルゴリズムです。
ルート上には、第一層の分類は、このような科学技術、スポーツ、金融、娯楽、スポーツ、その後、以下の内訳サッカー、バスケットボール、卓球、テニス、トラックとフィールド、水泳...、細分国際サッカーサッカーなどのカテゴリの下にあります中国のサッカーは、中国のサッカーは、優れたデータスキューの問題を解決することができ、階層テキスト分類アルゴリズムを使用して、個々の分類器よりも...、スーパー、代表チームに故障しました。
いくつかの例外は、あなたがリコールを改善したい場合は、我々はいくつかのフライラインの接続を確認することができ、それにあります。この共通のアーキテクチャでは、問題の難易度に応じて、各異性体は分類子、いくつかの良い結果としてSVMの分類は、CNNと一緒にいくつかは、RNNと一緒にいくつかは、それを再処理することがあります。
図エンティティは、単語認識アルゴリズムの場合です。セグメンテーションと選択候補音声タグ付けの結果に基づいて、知識ベース期間に応じてスプライスを作成する必要がある場合があり、単語の一部は、マッピングエンティティを記述することができる単語のどの組み合わせを決定するために、エンティティの組み合わせです。
マッピング複数のエンティティの結果場合には、ワードベクトルも、それ自体と他の違いトピック単語頻度分布、相関モデルの最終的な計算を通ります。
第三に、ユーザータグ
コンテンツ分析とユーザータグ推薦システムの2個の礎石です。課題をエンジニアリング、よりユーザータグと比較していくつかのより多くの機械学習に関連するコンテンツの内容分析、。
今日のヘッドライン、共通のユーザー・ラベルには、ユーザーの関心や垂直クラスタリングのさまざまなに基づいて分類し、ユーザー、キーワード、ソースへの関心の話題、関心のある特徴(車、スポーツチーム、株式など)を含んでいます。同様に、性別、年齢、場所やその他の情報など。
性別情報は、第三者のソーシャルユーザアカウントのログインを経て得られました。年齢情報は通常、モデル、モデル、推定読書時間分布によって予測されます。
ユーザーからの恒久的な場所は、居住者のポイントを得るために、従来のクラスタリング手法による位置情報に基づいて、アクセス位置情報を承認しました。
他の情報と組み合わせて、永久的なポイントは、仕事、旅行サイト、旅行サイトのユーザーの場所と推測することができます。これらのユーザーは非常に有用勧告にラベルを付けます。
もちろん、最も簡単なユーザーは、タグラベルの内容をブラウズしています。しかし、ここでそれはデータ処理戦略の一部になります。
含みます:
Aは、ノイズ濾過しました。クリックの短い滞留時間、党のろ過のタイトル。
第二に、罰の焦点。適切な治療を行うにはダウン(いくつかの時間前に、ニュースのPG一つとして)人気のある記事の数のユーザーアクション。理論的には、コンテンツの普及広い範囲、信頼が低下します。
第三に、時間減衰。戦略は、新規ユーザーの行動に関心があるので、ユーザーの関心シフトは、発生します。そのため、ユーザーアクションの増加とともに、古い機能の重みは、新しいアクション機能の重みが重みにさらに大きな貢献となり、時間とともに減衰します。
第四に、罰ショー。記事のユーザに推奨されていませんがクリックされると、関連する特性(カテゴリ、キーワード、ソース)重量が処罰されます。とき
しかし、我々はまた、グローバルな文脈を考慮しなければならない、それはより関連性の高いコンテンツのプッシュ、および関連する閉鎖や嫌い信号ではありません。
一般的に採掘ユーザーのタグは主に今述べた課題をエンジニアリング、比較的簡単です。ユーザータグの見出しバッチコンピューティングフレームワークは、プロセスが比較的単純で、初版で、過去2ヶ月で描かれた昨日日活のユーザアクションデータ、毎日、Hadoopクラスタでバッチ結果。
しかし、問題は、ユーザーの関心のモデルタイプおよびその他のバッチ処理タスクの急速な成長が増加していると、計算量があまりにも関与していることです。
2014年に、ユーザーのバッチ処理タスクの数百万人が更新Hadoopのタスクにラベルを付け、完了日はしぶしぶ始めています。コンピューティングリソースの制約が簡単に他の作業に影響を与えることができ、クラスタ、濃縮書き込み分散ストレージシステムの圧力が上昇し始めると、ユーザ関心タグの更新遅延がますます高くなって。
これらの課題に直面。2014年の終わりには、ライン・ユーザー・タグストームクラスタコンピューティングシステム、今日の見出しをストリーミング。ストリーミングした後、長いユーザーの更新アクションは、ラベルを更新としてとして、コストが比較的小さいCPUである、あなたが大幅にコンピューティングリソースのコストを削減、CPU時間の80%を保存することができます。
同時に、わずか数十機は数十ユーザ関心モデルの何百万ものをサポートすることができ、毎日更新され、非常に高速な更新された機能、基本的にほぼリアルタイムに行うことができます。このシステムは、これまでのラインから使用されてきました。
もちろん、我々はまた、必ずしもすべてのユーザーがストリーミングシステムにラベルを付ける必要があることがわかりました。性別、年齢、この情報の恒久的なユーザーの場所のように、リアルタイムのダブルカウントを必要としない、それはまだ毎日の更新を保持します。
第四に、評価・分析
上記は、推薦システムの全体的なアーキテクチャを説明し、その後、良い効果を評価する方法をお勧めしますか?
私は非常に賢明な言葉、あると思う「ものが最適化を評価することができませんではありません。」同じことは、推薦システムの真のです。
実際には、多くの要因が推奨される結果に影響を与えます。最適化アルゴリズムパラメータ推奨機能は、一例によるもののような、そのような候補セットの変更、改良、又はリコールモジュールが増加すると、改善されたモデル・アーキテクチャの増加、。
評価を意味することは、最適化の多くは、最終的に負の効果であってもよいことである、それはライン上の改善、最適化に影響を与えません。
総合的な評価推薦システムは、完全な評価システム、強力な実験プラットフォームと実証分析ツールの使いやすさを必要とします。
いわゆる完全なシステムは、あなただけのクリックスルーすることができない等のレートまたは長い滞留時間、包括的な評価、単一尺度ではありません。
多くの企業は、十分な技術能力は、アルゴリズムもありませんが、実験のための強力なプラットフォームを必要とするだけでなく、知能データ信頼感指数を分析することができ、便利な実験解析ツール。
いくつかの原則に従うために良い評価システムの必要性は、まず、短期および長期の指標指数の両方を確立します。私は電気事業方向を担当する会社が調整するために、多くの戦略を観察したときに前に短期的なユーザーが新鮮に感じますが、実際には長期的な利点はありません。
第二に、それは考慮に入れ、ユーザーの指標と生態系の指標を取る必要があります。彼がより創造的尊厳、だけでなく、バランスをとる必要があり、どちらもユーザーを満たすために義務であるとする、コンテンツ作成者のための価値を提供することが必要です。
また、マルチゲームとバランスのプロセスである、広告主の利益が考慮すべきです。
また、相乗効果の影響に注意を払います。外部の影響に注意を払う、行うのは難しい厳格なトラフィックの分離実験。
非常に直接的な実験プラットフォームは、すぐに経営効率を改善し、回復流れ同時実験は比較的長い時間が、トラフィックは人間のコミュニケーションなしに、プラットフォームによって自動的に割り当てることができる強力な利点、および実験の終了です。
この分析は、企業がコストを削減することができ、反復アルゴリズムの効果アップ速度は、システム全体の最適化を進めて迅速に作業することができます。
これは見出しA / Bテスト実験システムの基本原理です。まず、私たちが良く、ユーザポイントバレル、[割り当てオンライントラフィックの実験を行います、ユーザーは、実験グループをオフラインに与えられた、バケツをタグ付けします。
例えば、10%オープンフロー実験、2つの実験群のそれぞれ5%、5%、ベースライン、ポリシーおよびオンライン市場、別の新たな戦略と同じです。
実験は収集ユーザーのアクション、基本的には準リアルタイムになります時には、毎時見ることができます。しかし、理由は通常、毎日時間ノードビューで、データの時間が変動します。操作後は非常に便利、データベースに書き込ま収集したログ処理、分散統計があるでしょう。
このシステムではエンジニアのニーズは流量のみ、実験時間を設定する必要があり、フィルタ条件は、特別な、カスタム実験群のIDを定義します。システムが自動的に生成することができます:比較実験データ、実験データの信頼を、実験結果と実験最適化の提案をまとめました。
もちろん、唯一の実験プラットフォームでは十分ではありません。オンライン実験プラットフォームは、データのみの指標を推測することができ、ユーザーエクスペリエンスを変更する変更が、データ・メトリックとユーザーエクスペリエンスの違い、多くの指標が完全に定量化することはできません。
多くの改善はまだ手動で解析する必要があり、主な改良点は、二次確認を手動で評価する必要があります。
第五に、コンテンツセキュリティ
今日の見出しは、コンテンツセキュリティにおける多くのイニシアチブを紹介する最後。見出しは現在、最大のコンテンツ作成と配布スリップは、より多くの注目は、社会的責任と業界リーダーの責任でなければなりません。推薦コンテンツの問題の場合は1%、より大きなインパクトを持つことになります。
さて、成人向けコンテンツの生産能力を持つ主に最初の2つの部分、PGCプラットフォームから、今日の見出しの内容は、
まず、クイズ、ユーザーレビュー、マイクロ見出しとしてUGCのユーザーコンテンツ。これらのセクションの両方が統一され、監査が必要です。それはPGCコンテンツの数が比較的少ない場合には、監査リスクを指示する、全く問題は、広い範囲をお勧めしません。
UGCコンテンツが二次リスク審査に入ることになる問題のリスクモデルをフィルタリングする必要があります。承認後は、コンテンツがお勧めすることは本当にあります。あなたはコメントを一定量以上の受信または負のフィードバックをレポートする場合はその後、レビューのリンクにここに戻ってくる、直接既製品の質問があります。
全体のメカニズムは、コンテンツセキュリティの業界リーダーとして、今日の見出しは、最高水準そのものを使用している、比較的頑丈です。
共有コンテンツ識別技術は、主にカム黄色モデル、虐待や下品なモデルモデルです。モデル下品な深さのトレーニング学習アルゴリズム、非常に大規模なサンプルライブラリ、画像の同時分析、テキストによって今日のニュースの見出し。
リコールへのモデル賃金以上の注目のこの部分は、さらにいくつかの精度を犠牲に。不正なサンプル・データベース・モデルは、より万人以上であり、95%+ 80%+精度までリコール。ユーザー頻繁に率直なまたは不適切なコメントならば、我々はいくつかの罰のメカニズムを持っています。
低品質のケースは、偽のニュースは、黒ドラフト、タイトルテキスト、党の低いタイトル、コンテンツの品質、などと一致しないように、機械のこの部分を理解することは非常に困難であり、他のサンプル情報を含む、多くのフィードバックを必要とする非常に多く関与パンを識別比較。
現在、低品質の精度のモデルと再現率が特に高くはないですが、またマニュアル見直しの組み合わせを必要とし、しきい値を増加します。現在、最終的なリコールは、やるべき仕事がたくさんあるという事実のこの部分を95%に達しています。プラットフォームではないですか。
次のようなメリットを受けることができ読者(受信します):