アイテム協調フィルタリングに基づく推薦アルゴリズム

(アイテムベース協調フィルタリング)に基づく協調フィルタリング項目アルゴリズムは、より多くの業界の以前のアルゴリズムです。かどうかはアマゾンやNetflixはHuluはYouTubeは、その推薦アルゴリズムの基礎はアルゴリズムです。起草の便宜上、以下、英語と呼ばItemCF図。この記事では、ステップ改善により、ステップに基づいて、その基本的なアルゴリズムに話をしますMovieLensのあなたの古典的なアルゴリズムの美しさの味を持って、コードを達成するためにショーを設定したデータ。

1.基本原則

以前、我々は単にビットのユーザベースの協調フィルタリング(UserCF)を説明し、実装コードを示します。友人リンク----に行くことができるかわからないユーザーに基づく協調フィルタリングの推薦アルゴリズムしかし、我々はまた、ユーザーの関心を計算する類似度行列は、時間と空間の複雑さの計算の複雑さがますます困難になり、ユーザーの数が増加します、サイトの利用者数の増加と、まず、アルゴリズムのいくつかの欠点について話しました広場に似て成長。第二に、ユーザーに基づく協調フィルタリング推薦の結果を解釈することは困難です。そのため、よく知られている電子商取引企業Amazonは別のアルゴリズム--ItemCFを提示しています。

ItemCFは、ユーザーにのような彼らの前に類似のアイテムとアイテムをお勧めします。例えば、アルゴリズムは、あなたは、「統計的学習」を購入し、あなたがお勧め与えるため、「機械学習を。」しかし、ItemCFアルゴリズムがない商品間の類似度を計算するために、コンテンツ属性項目を使用しないことがある、オブジェクト解析間の類似度を計算するために主にユーザの行動記録を通じて、アイテムAとアイテムBとみなさアルゴリズムは偉大な類似性を持っているので、私の記事Aのユーザーの最も気に入った商品数Bのようなものです

協調フィルタリングアルゴリズムに基づいてアイテムを使用すると、ユーザーの歴史的な振る舞いを提供することができる結果をお勧めする説明をお勧めします、そのようなユーザとしては、「ローズマリー」の説明があるため、ユーザーの前に「自分のまつげ」のようなものがありお勧め。

記事に基づく協調フィルタリング・アルゴリズムが2つの段階に分かれています

  1. アイテム間の類似度を算出します
  2. ユーザの行動や履歴項目の類似性に基づいてユーザー生成推薦リストへ

別の購入しばしば購入した製品のユーザー定義された単語を開始するには、我々は次式の定義の類似品を使用することができます:
\ W_の[IJ} = {\ FRAC {| N(I)\ Nのbigcapを(J)|} {| N
(I)|} \] ここで、分母\(| N(i)は| \)ユーザー項目I、分子の数のようなものである\(N(I)\ bigcap N(J) \) iと商品のJのように同じ時間記事でユーザーの数です。従って、上記式は、ユーザとして理解することができるアイテムを好きIどのアイテムjのようなユーザーの割合。

上記の式は非常に合理的に見えますが、問題があるが。アイテムjが非常に人気のある場合は、多くの人が同じようなので、\(W_ {IJ} \) 1に近い、素晴らしいことだろう。したがって、式は任意の人気アイテムとアイテムが明らかにロングテール情報推薦システムを悪用しようとするための良好な特性ではない偉大な類似性を、持っていますが発生します。ホットおすすめ商品避けるために、あなたは以下の式を使用することができます
} W_のIJ [\ = {\ FRAC {| N(I)\ N(J)bigcap |} {\ sqrtの{| N(I)|| N( J)|}} \]
この式のペナルティを課す項目jの重みは、このように人気のある商品と多くの項目の可能性を減少させることは似ています。

あなたはので、それらをまとめて、多くのユーザーのような2つの記事の類似性を生成するために、上記の定義、協調フィルタリングから見ることができ、各ユーザーができることを意味し、その歴史的な関心リストの類似性によって寄与項目を与えますそこ仮説を意味し各ユーザの関心は、特定の分野に限られているということなので、ユーザーが関心リストの2つの項目に属している場合、これら2つの項目は、領域の限られた数に属していてもよいし、2つの場合多くのユーザーの関心に属するアイテムのリスト、類似性がたくさんあるので、それらは、同じフィールドに属することができます

そしてUserCFアイテム反転リスト、その後、商品の類似度を計算する-アルゴリズム似ていますが、ここでは、ユーザーを作成することです。ItemCFは、次式でユーザを算出u項目のj関心の:
\ [P_ {UJ} = \ sum_ {I \ Nで(U)\ bigcap S(J、K)} {W_ {JI} R_ {UI}} \]
ベースMovieLens:データセットは(データは明示的なフィードバックを設定)アルゴリズムを実装して、アドレスを参照ItemCFアルゴリズムを

2.改善されたアルゴリズム

2.1発表IUFはソフト罰アクティブユーザパラメータ

彼らは、リスト内の多くのユーザーの関心に合わせて表示されるので、それはItemCFプロデュース類似度に2回の記事では、前の段落で見ることができます。言い換えれば、関心は、商品の類似性に各ユーザーの貢献のリストを作成しました。しかし、中に現実の生活ではなく、すべてのユーザーの貢献は同じです

だからジョンS.ブリーズが呼ばれる紙提示\(IUF \) ユーザー度数逆)、上のユーザアクティビティの、すなわち数
逆数を、彼はまた、記事の類似貢献のアクティブユーザーが少ない非アクティブよりべきであると考えていますユーザが、彼が増加することを提案しなければならないIUF
パラメータ算出式が修正される類似の記事:
。\ [W_のIJ} = {\ FRAC {\ sum_ {U \ Nで(I)\ N bigcap(J){} \ {FRAC 1 } {\ LOG1 + | N(
U)|}}} {\ SQRT {| N(I)|| N(J)|}} \] もちろん、上記式にするだけアクティブユーザであるソフトを罰はなく、類似度行列を避けるために、このような详细ユーザーの80%が本を買った人上記のようにあまりにも多くのアクティブユーザーのためには、あまりにも緻密で、我々は一般的に、実際の計算で彼の直接の関心のリストを無視し、中に含まれていません類似度算出データセット

2.2正規化された類似性マトリックス

Karypisの研究では、場合ことを見出しItemCF 正規化最大による類似度行列、推薦精度を向上させることができます\:記事をW類似度行列となっている場合、それは正規化後の「W」次式の類似度マトリックスにより得ることができることを研究が示す
[W「_} = {FRACのIJ \のIJ {} {} {W_ MAX_ {J} W_ {IJ \ }} \]
だけでなく、推薦の利益を返すは、精度を高めることであり、それは、カバレッジ及び多様性の推奨を改善することができます。一般的には、項目は常に、多くの異なるカテゴリに、より密接にリンクされたアイテムのそれぞれに属しています。

ドキュメンタリー、アニメーション-例として、二つの映画が存在するステーションと仮定する。次いで、ItemCF算出した類似度は、類似性または類似性、典型的にはアニメやドキュメンタリーとドキュメンタリー、アニメーションよりドキュメンタリー類似大きいです。しかし、ドキュメンタリーやアニメ映画の間の類似性との間の類似性は必ずしも同じではありません。二つのカテゴリーに記事を考える- A&B、クラスA 0.5物品、0.6のクラスBとの間の物品の類似性、およびクラスAとクラスBとの類似度との間の類似度の記事は記事0.2です。ユーザがで5クラスA、クラスB項目5つの項目が好きな場合は、この場合には、ItemCF彼の推薦を、それが、クラスBの項目を推奨される
理由は、クラスBのアイテム間の類似性の大きい程度。、正規化の後、クラスAの物品との間の類似度が1となる場合には、クラスBの物品1との類似度は、5件の記事Aおよびクラス5クラスBのようなユーザならば、この場合には、アイテムは、クラスAとB級品アイテムの数の推奨事項の彼のリストは、ほぼ等しくなければなりません。この例から分かるように、正規の類似性は、多様性の推奨を改善することができます。

だから、2つの異なるクラス間の高い類似性のために、どのような類似の記事それの彼らのクラスの低度内のクラスの、その項目の何クラスですか?一般的には、その項目内の人気のクラスは、一般的に、より大きな類似しています。正規化がなければ、クラス内でより多くの人気アイテムをお勧めします、そしてこれらの項目は、より人気があります。そのため、推奨カバレッジ率は比較的低いです。逆に、類似度の正規化すれば、推薦システムのカバレッジを向上させることができます。

3.まとめ

ItemCF推薦結果は、歴史の中でユーザーの関心を維持することに焦点を当てているが、遺産でユーザー自身の関心を反映し、よりパーソナライズされた勧告です。書籍、映画やアマゾン、クレソンなどの電子商取引サイトでは、ネットフリックス、中ItemCFはそれが非常に有利ことができます。まず第一に、これらのサイトでは、ユーザーの関心が固定されており、比較的長く続きます。これらのサイトは、の勧告パーソナライズされているミッションは、ユーザーが本研究の彼の分野に関連する項目を見つけることです

品目番号アルゴリズムは、アイテムに適用されます大幅未満ところ、ユーザー数、豊富なロングテールアイテム、パーソナライズされたフィールドのための強力なユーザーの需要。このアルゴリズムは、ユーザーがリアルタイムレコメンド結果の変化につながる、新しい動作を持って、リアルタイムことができます。そして、勧告の良い説明を与えることができます。コールドスタート、新しいユーザーの長い農産物項目の行動のように、我々は、アイテムと彼に関連する他のアイテムをお勧めすることができます。しかし、オフラインアップデート項目の類似性テーブルなしで、ユーザーに新しいアイテムをお勧めする方法はありません。

PS:(◠◡◠)著者はかなり良いを感じ、それがああ推奨され指してください!おかげで百万!

おすすめ

転載: www.cnblogs.com/rainbowly/p/12128615.html