ユーザー絵のユーザープロファイル
ユーザーに基づくコンテンツ推薦は肖像画を分離することはできません。推薦システムではなく、最初のビューの販売およびマーケティングスタッフには、ユーザー(またはいくつかのドロータグクラウドイメージ統計属性)を見て、利用者の肖像画は、マシンのポスターに代わりになっているはずです。
一致スコアの前に推奨システム、及びユーザの最初の項目は、結果を定量するために、ユーザは、そのユーザ・プロファイルである、定量化するために計算されます。目的は、ユーザ推薦システムの肖像画ではなく、キー推薦システム・プロセスを構築します。
この前にリコール(候補生成)のためのユーザのユーザ肖像最終一致スコア(順位)だけでなく、ステージに加えて
二つの重要な要因は、利用者の肖像画を構築する:寸法を、量子化
1.各次元の実際の意味は理解できる。次元数を決定していない(実際の状況に応じて設計される)特定のものの寸法がわかりません
2.(マシンへの)それぞれの次元を定量化することは、主観的には、利用者の肖像画を最適化するように配向リバースの良い点、悪い影響に推奨されるべきではいけません
ユーザーの肖像画を構築する方法:
1.チャ湖口。利用者の肖像画の内容などの生データを使用。情報(人口統計情報)、購入履歴は、歴史や他のそのような登録をお読みください。データのクリーニングに加えて、データ自体は任意の抽象的、誘導、ない技術的な内容が、そのようなコールドスタートなどのユーザーシナリオのために有用ではありません。
2.ヒープデータ。統計的な仕事をするために過去のデータの蓄積。歴史的な行動データからの利息などのラベルには、統計的な定量結果の結果として、その後、ラベルサイズの統計を行い、ラベルを掘るします。
3.ブラックボックス。例えば、暗黙的要因のために、そのベクトルを埋め込む、読み出しにおけるユーザの関心を潜在的意味分解モデル行列を構築します。通常は、説明することはできません直接読み取ることはできませんが、実際に推薦システムの役割は非常に大きいと仮定します。
テキストマイニングからのデータ
インターネットテキストデータは、一般に、ユーザ肖像テキストマイニングアルゴリズムの構築に使用される量は、高速処理、小メモリで表現製品情報の最も一般的な形態です。
例のユーザ端末:
1.名前を登録し、個人的な署名
2.ダイナミック、コメント、ログを公開
3.チャット(?セキュリティとプライバシーで...)
例項目の終わり:
1.記事のタイトル、説明
2.(例えばニュースカテゴリなど)物品自体の内容
テキストオブジェクトの3.その他の基本的な性質
利用者の肖像画からテキストベースの情報を構築するには、次の二つのことを実行します。
1.非構造化テキスト構造化、フィルタリング、キー情報を保持
ユーザー、ユーザー自身の組み込まれ構造化された情報に配信記事の結果のユーザーの行動データ構造。
構造化テキスト
記事情報からテキスト情報の終了は、NLP高度なアルゴリズムの分析は、次のカテゴリがあり得使用することができます。
1.キーワード抽出:最も基本的なラベルの源は、一般的にTF-IDFとTextRank使用します
2.エンティティの認識:キャラクター、作品、歴史的な出来事とホットな問題の場所と場所、一般的に用いられている方法を組み合わせ辞書CRFモデルに基づいています
3.カテゴリコンテンツ:テキスト分類システムの分類によれば、分類情報を有する粗いグレイン構造を表現します
4.テキスト:分類システムの開発の前提の下で誰もが、教師なしのテキストは、複数のクラスのクラスタに分割されます。クラスタ番号などのないラベルは、一般的なユーザーの肖像画で構成されているが、
5.トピックモデル:既存のテキストの大多数からのテーマベクトルを学習し、各トピックの分布上の新しいテキストの確率を予測します。
6.埋め込み:限定次元ベクトル文字通りタップセマンティック情報(ダウンものを見つけるために)下で、発現させます
上記の一般的なテキスト構造化アルゴリズムと呼ば:
1. TF-IDF
用語頻度 - 逆文書頻度。コアアイデア:リカーリングは、すべてのテキストの面で、より重要になる言葉ではそれほど重要で表示されます。これら2点がTFとIDFと2つの指標に量子化されます。
TF =回数は、単語が記事に表示されます/単語TF =記事や単語の総数は記事に表示されます/記事中の単語の出現の最大数が表示されます
IDF =ログ(物品の総コーパス/単語+1を含む全記事)
1.テイクトップKワード:各単語の重みに乗算した2つの値は、次に重みキーワードに応じて再スクリーニングします。しかし、K未満で得られた単語の総数であれば、明らかに不合理であり; 2.すべての単語の加重平均の重みを計算し、加重平均キーワードなどの単語を引き継い
2.ランクテキスト
I.このような統計的共起関係ウィンドウにおけるK単語、単語、テキスト設定ウィンドウ幅、どの無向グラフとして。
II。すべての単語の重要性が初期化されている1
III。「接続され、彼らが持っている」他のノード(共起)に権利を割り当てられた各ノードの平均重量の
IV。それらの合計に与えられる重み内の他のすべてのノードへの各ノード、それらの新たな重みとして
V。すべてのノードの重みが収束するまで反復III、IV、
う共起関係はお互いがキーワードになってサポートしている人があります。
3.コンテンツカテゴリ
アプリグラフィック情報をストリーミング情報コンテンツが自動的にそれによって最も粗粒の構造情報を取得し、異なるチャネルに分類される必要があり、ユーザーがユーザーの関心を探索コールドスタート時にも使用されています。
クラシック短いテキスト分類アルゴリズムは、最も一般的に使用されるオープンソースのツールで、SVMであるオープンソースのFacebook FastTextです。
4.エンティティの認識
NER名前付きエンティティの定義されたセットの1つを識別し、各サブワードについて良い、(認識-エンティティ名前)。NLPは、シーケンスラベリング問題で考慮されます。
シーケンスラベリング問題は、一般的に主に望ましい結果の構造を掘るしたいアルゴリズムのHMMまたはCRF、推薦システムを使用しています。
法律辞書:実用的な非モデルアプローチもあります。辞書ツリーは、記憶された各種エンティティ辞書の予め用意され;ここで辞書に良い言葉を見つけるにポイントを保持し、単語がエンティティの事前に定義されていると考えられるがわかりました。
高い工業用グレードのツールスペイシー効率。
5.クラスタ
同じことは、より正確なテーマを把握することができるLDAモデルへのテーマの代表として、(テキストが複数のクラスのクラスタに属することができる)のソフトクラスタリング効果を得る、教師なしです。
何のビジネスの専門家が特別に調合分類システムが存在しない場合は、LDAは非常に参考になります。より低いK値を選択する毎に2つに関連するKとの間の各平均値の類似度を計算する:セット番号に関連するKは、Kの値は、によって実験的に決定することができます。また、各トピックのテキストの分布を得るために、あなたはテキストのテーマとして、最初のいくつかのトピックの最大確率を維持することができます。
LDAオープンソースツールGensim、PLDA
6.埋め込み
言っても過言ではない、もっと身近な。主に高次元のデータが前方にすると非常に迅速に伝播計算を逆に、フォローアップモデルの効果を向上させるために役立つ計算ルックアップテーブルの前に密ベクトルにマッピングされている疎ことです。
第二に、ラベル選択
どのように構造化された情報項目のユーザにしますか?
商品のユーザーの行動は、消費者や消費者は、分類問題視されていません。実用的なアクションは、ユーザは、彼が実際に機能選択問題に興味を持つようになった特性を選び出す、データの数をマークしました。
最も一般的な2つの方法である:カイ二乗検定(CHI)と情報利得(IG)
基本的な考え方:
文書として1.構造化コンテンツアイテム
2.商品のカテゴリとして、ユーザーの行動
3.アイテムを見ている各ユーザーは、テキストのコレクションです
ユーザーは各気に何を選択するテキスト特徴選択アルゴリズムのこのコレクションで4
1.カイ二乗検定
自身が特徴選択方法です。機密情報のラベル付けを提供する必要性、(TF-IDF、TextRankは教師なしです)監修しています。なぜあなたはそれが必要なのでしょうか?
テキスト分類タスクでは、分類タスクおよびサービスのためのキーワードを選択するだけ直感的に選ぶの重要な単語を思えません。カイ二乗検定を行うには本質的には、チェック「という単語と、互いのカテゴリCから独立し、」この仮定が確立され、この仮定からの乖離も大きくは、単語とカテゴリCは非常に関係あることより、言葉がキーワードであることは明らかです。
カテゴリCjとの言葉のWiとカイ二乗値を計算する、私たちは4つの値をカウントする必要があります。
1. Wiは、テキスト、テキストの数をCJに見える単語を入力
2.単語Wiが非テキストデータCj Bのテキストで表示されます
3.のWiカテゴリはC Cjのテキストの数とテキストで表示されません。
4.単語は、テキストDの非のWi Cjのテキストに表示されません。
そして、すべての単語とすべてのカテゴリのカイ二乗値を計算します。
いくつかの説明:
1.各単語は単語を残す必要があり、これらのカテゴリの1の助けを借りている限り、カテゴリごとに計算され、
2.それはカイ二乗値の比較のサイズであり、それは、すべての単語のように、テキストの総数であるので、式Nは、計算に参加することができないので
大きいカイ二乗値は、対立仮説近い「単語とカテゴリは、互いに独立ではない」ことにより、遠く「互いに独立した単語とカテゴリ」仮説平均偏差3.
2.インフォメーション・ゲイン
キーワードの選択方法の情報利得(ゲイン情報)監督の一種である、またあなたが情報をマークする必要があります。そして、カイ二乗検定は、各行動に別々のラベルを選別するために、異なる、カイ二乗検定で、情報利得は、グローバル統一のスクリーニングです。
情報を理解するにはどのようにそれをエントロピー。テキストが任意にそのカテゴリのテキストを選択、カテゴリの数とマークされていますか?各カテゴリ内のテキストの元の量が同じであれば、それは確かに最悪の推測ですが、任意の他のカテゴリよりでCカテゴリテキストの量ならば、右に推測することは容易です。違いは、情報エントロピー異なる情報が前者大小後者エントロピーということです。
このテキストの束と、その後は、テキストカテゴリでいつでも見に、まだそこにある上記2例と、Wテキストは単語の数が含まれている選び出す場合さらに、だと思います。テキスト全体の状況が1の場合は、しかし、Wは2となる単語を含む場合を選び出し、その後、ワードWは非常に便利です。状況を考えてみましょう!
これは、情報ゲインのアイデアです:
1.グローバルな統計情報エントロピーのテキスト
2.条件付きエントロピーの各単語の統計(エントロピーはワードのテキストの後に統計を知っているが、計算する単語を含む2つの部分に情報エントロピーの単語を含む、テキストの加重平均のその割合に応じていません)
3.両方の減算は、各単語の情報利得であります
スプリットポイントの選択基準として情報利得を使用するにはCARTの意思決定ツリー。
あなたは毎日ユーザーの肖像画を更新できるようにカイ二乗検定および情報ゲインは、完成オフライン段階バッチです。(新しいユーザーにそれを - ?MAB号)
ラベルのコンテンツ推薦システムを越えて
コンテンツベースの推薦システム、ラベルのほんの一部(そして、もっと私たちはより有用ラベルになると言うことではありません)。コンテンツベースの勧告は、実際には、情報検索システム(パッケージ化された推薦システム)であるが、彼らは推薦システムの複雑さの基本であるが、コールドスタート(新項目)の問題を解決するのに役立ちます。
コンテンツデータは、より容易に利用可能、および推奨システム(特にテキストデータ)のために有用な情報を掘るのは簡単です。
次元解析を高めるために、データのサプリメント相同で多くの努力、データクレンジング、冗長性の排除、ゴミ、機密コンテンツ、データマイニングは、中・深さ;ユーザーとアイテムの関連するプロパティとの間に、より合理的な関心を計算します
1.コンテンツベースのフレームワークの勧告:
コンテンツベースの推薦ではなく、最も重要なアルゴリズムが、鉱業、内容分析。より詳細なコンテンツ分析は、ユーザーグループをつかむために、より慎重に、好感のユーザーが上昇し、高いより多くのフィードバックをコンバージョン率をお勧めします。
出力内容の分析は2つあり:
(利用者の肖像画を学ぶために、ユーザーからのフィードバックと一緒に)構造化コンテンツライブラリ。
(その後、分類、話題のモデル、エンティティの認識モデル、埋込み、リアルタイムの勧告に新しいアイテムが出てする必要がある場合、これらのモデルは、構造化されたコンテンツを抽出するために、リアルタイムのコンテンツ分析を必要とし、利用者の肖像画を一致させるために使用される)、コンテンツ解析モデル
2.コンテンツ推薦アルゴリズム
私。最も簡単な方法は、ソート推奨アイテムの類似性に基づいて、スパースベクトルスパースベクトルコンテンツとユーザの肖像側端部との間の類似度を計算することです。(解釈可能に強いです)
ii. 更好地利用内容中的结构化信息:不同字段的重要性不同。常用的开源搜索引擎 Lucene 已经实现了 BM25F 算法(相关性计算)
iii. 机器学习方法(考虑推荐的目标),CTR预估模型。每条样本由两部分构成,一部分是特征,包含用户端的画像内容、物品端的结构化内容、日志记录的上下文信息(时间、地理位置、设备...);另一部分就是用户行为,作为标注信息(有反馈、无反馈两类)。训练一个二分类器,常用 LR 和 GBDT 或两者混合,按照用户行为发生的概率排序。