基本的なアルゴリズム[推奨]アーキテクチャday4マイクロブログの推奨エンジン:コアの詳細

入門

ソーシャルアプリケーションのマイクロブログは、多くの人が使用しています。読書、注意、@およびその上、返信、転送、元:毎日ブラシをマイクロブログ、毎日数などの操作になります。このうち、最初の4つは短いボーエンためのもので、最終的懸念は@と誰か心配のユーザーとの関係のためである、それはあなたが彼のファンになること、そして、彼はあなたの友達になりました。誰かがあなたを意味します!彼はあなたのつぶやきを見たいです。
Weiboは、独自の「ニュース」のアプローチを共有することが一般大衆に関連する「自己メディア」、であると考えられています。最近、一部の人々が影響力と収益レポートから、メディア自体が共通して使用します。マイクロブログの影響力の男はそれを計算する方法ですか?私たちの経営に見えない手としてどのようなマイクロブログのアルゴリズム?どのように私たちの行動のそれぞれは、アルゴリズムDOに影響を与えますか?
直感的に、マイクロブログは、人間社会の縮図シンプルが実際にある、ネットワークのマイクロブログの機能のいくつかは、多分あなたは私たちが本当のソーシャルネットワーク上の法律を取得啓発することができます。データマイニングの新しい寵児となっソーシャルネットワーキングの爆発的な発展のおかげで、「ソーシャル・コンピューティング」、特にソーシャルネットワーク分析。ここでは、いくつかのアルゴリズムは、他のソーシャルアプリケーションにも適用することができるマイクロブログネットワークの分析のためのアルゴリズムの数を上のブリーフィング。

 

ラベルのスプレッド

ユーザーWeibo膨大な量の、異なる人々が異なる興味を持っています。タップして、各ユーザの関心は、より正確な広告、コンテンツ推薦に貢献します。各ユーザの関心を得るために、あなたは、各ラベルの関心の代わりに、ユーザーを自分のユーザーにラベルを付けることができ、ユーザは、1つの以上のラベルを持つことができます。最終ユーザーのタグを得るためには、まず最初の仮説を実行します。
人民各ユーザの友人(またはファン)は、ユーザーの大多数と同じ興味を持っています。
本明細書で提示する最初のアルゴリズム、すなわち、ラベル伝播アルゴリズムにこれがリード。このアルゴリズムでは、ほとんどの友人、または1つまたは複数のファンそれぞれのユーザーのタグラベル方。もちろん、あなたがラベルの友人やファンが考慮されることができるラベルの重みの友人やファンの異なるラベルが与えられたときに、統合を考慮することができます。次のようにプロセスのラベル伝播アルゴリズムは次のとおりです。
1)ユーザは、ラベルの最初の部分を与えられます。
2)ユーザーごとに、1つまたは複数のタグの最大数が表示され、ユーザーを与え、ファンの数とその友人のラベルを数えます。
3)ステップ2サイクルに、ラベルが発生するまで、ユーザーは、もはや大きな変化になるまで。


 

ユーザ類似度計算

ラベル伝播アルゴリズムは、その欠点は、仮定が、このような社会的な礼儀のように、虚偽作ったとき、私たちは一般的にこれらの人々を心配親戚や友人を追加すると、我々は必ずしも同じラベルを持っていないということです、実装が簡単です。アルゴリズムの結果が悪くなります。ソリューションは、ユーザ間の類似度を計算することで、ユーザタグのラベル率の友人やファンの貢献度を測定することです。これにより、第2の仮定を得ます:
ユーザータグラベルかもしれ類似ユーザの友人やファン、。
だから、どのようにユーザー間の類似性を測定するには?これは、つぶやきは、転送、オリジナルを含め、ユーザーによって投稿さを考慮して必要となります。ここでは、侮れないユーザーのすべてのつぶやきを収集しますので、実際の計算では、ユーザーではなく、マイクロブログのユーザーとの間の類似性との間の類似性を考慮することです。任意の方法は、用語マイクロブログ情報として袋を使用することであるコサイン類似度法などを計算するために直接使用し、その後、用語ベクトルとして表されます。しかし、この方法ではない簡単に良い結果を達成するために、単純すぎる、LDA(潜在的ディリクレ配分)の類似度計算方法に基づいてここで紹介します。
3つの確率モデル、テーマの確率分布として見られている各ドキュメント、テーマが見てきた、まだテキストを表現する言葉を使用したが、途中でテーマ層を追加するために、「 - - テーマ言葉文書」を形成LDA袋方法などの単語の確率分布です。次のようにLDAモデルでは、文書を生成することができます。
1)各文書の場合:
2)トピック分布からトピックを抽出します。
3)被験体における単語分布から単語を抽出します。
文書内のすべての単語が生成されるまで4)手順2と3を繰り返します。
LDAモデルパラメータ推定アルゴリズムは、この記事の範囲外です。ここだけ、あなたはLDAにより、各ユーザーのトピック分布のツイートを得ることができることを知っておく必要があります。方法は、次いで、コサイン類似度法を用いて計算され、ユーザ間のKL距離は、ユーザ間の類似性に関して、類似度の分布に関する得られます。これは、タグの伝播重み付き類似性に使用されています。

 

時間係数およびネットワーク要因

アルゴリズムの上、不利な点は何ですか?
時間が経つにつれて、それは、ユーザーの関心がすべてのツイートが一緒に非常に合理的に来ているたびに、ユーザーの類似度を計算され変更されます。この点で、現在の時刻に近いNマイクロブログから選択することもできます。例えば、各ユーザのために、最後の50のTwitterから現在の時刻を選択LDAに一緒に訓練を受けました。Nここでどちらも大き過ぎず小さすぎます。あまりにも多くのユーザーがドリフト関心を受けやすい投稿するマイクロブログのランダム性のためには小さすぎる、時間に対するユーザの関心を反映することは容易ではありません。最大限に活用するためには、Nの時系列は、その適応に応じて各ユーザーのために作られた値として公表することができ、このようなマイクロブログとして、固定Nに固執しないことがあります。
この時点で、このアルゴリズムは、返信、転送、およびその他のネットワーク情報によって、マイクロブログの関係は考慮されていなかった@提起しました。あなたが頻繁にユーザーがマイクロブログマイクロブログの友人を転送した場合、例えば、転送するには、ユーザーと他の友人に比べて類似の友人は、それは高くする必要があります。ここでは、3つの仮定として見ることができます。
転送周波数をマイクロブログの友人、大きいユーザーの類似性と友人の関心が高いユーザー。
同様に、我々は4を得ることができると仮定します。
ユーザーの高い周波数、興味のある友人とユーザーのより大きな類似@マイクロブログユーザー。
それにより、類似の追加の因子が計算される得られます。このように行くための類似性を測定するための重みとして付加価値を定量化し、前方周波数と考えることができるなど、既存の類似度、に新しい要素を追加するための多くの方法があります。


 

コミュニティFOUND

コミュニティは、人々のマイクロブログの関係でグループ間の密接なリンクを指しマイクロブログ、コミュニティ間のコミュニティの密接なリンク内の人々が比較的まばらです。密接な関係は、ここでいう2つの意味があり、最初の大規模なコミュニティの類似内の人々の間で関心があり、第二は、できないコミュニティ内の2人のユーザーを必要とすると、コミュニティ内の人々の間の関係が密接であることです以上の2度、友人協会の友人である2度の関連性。
関心の類似性は、上記で説明されている、あなたは、ユーザーの注意を計算することとの間の類似関係を利用する必要があります。一方向チェーンへのユーザの注意、すべてのマイクロブログの利用者との間の関係は、巨大な有向グラフとして表すことができます。ユーザの類似度との関係は、単にそのようなユーザーとの間の最短経路の逆を使用するものとして、考えることができます。しかし、この方法では、不正確な尺度であり、我々は現実の世界では、6度の理論、マイクロブログネットワークや他のソーシャルネットワークがあることを知って、多くの場合、関係はより密接になります。したがって、この単純な関係は、6つの離散的な類似度値に明らかに正確ではない十分を持つことができます。
より良い結果を達成するために、どこ明示的な対策としてだけではなく、最短経路でなく、暗黙的措置のいくつかを検討します。ここで最初の2つの仮定は、それぞれ、所定の、および5~6仮定を仮定しています。
  • 2人の共通の友人のより多くのユーザー、二人の友人の間で高い類似性の関係。
  • より一般的なファンが二人のユーザ、二人の友人の間で高い類似性の関係。
ここでは、ジャカード類似度を計算学ぶことができ、これら二つの仮説量子化機能は、ビジネスの規模が交差点や労働組合の大きさであることを示します。2人のユーザが二人のユーザのすべての友人数で割った共通の友人の数を定量化する際にも定量的指標として知られている、例えば、5を想定することは、方向類似でした。量子化インデックスは、6つの指向性の合計であると仮定される類似度、類似度の算出と同様共指向方法と呼ばれています。感覚からは、両者の類似性の尺度は、ある程度だけの関係、ユーザーの興味、ビューの直感的なポイント、より多くの共通の関心事のユーザ2人の友人、自分たちの利益の間の類似度の尺度ではないも類似度大きいです。プロの名前があり、両方の類似性は、構造シナリオの類似性に基づいて計算されます。
最短経路は、同方向、共指向後の類似度、類似度を類似度重み関数は、それらを一緒に融合することは、最終的な類似性を与えるために採用されてもよい得られました。その後、クラスタリングアルゴリズムの数は、最終的なコミュニティクラスタを与えるために、そのようなK-means法、DBSCANクラスタリング操作等を用いることができます。また、地域社会と同じラベルを持つ人々を加重類似ラベル伝播アルゴリズムを採用することができます。
 

計算に影響を与えます

コミュニティで発見、ネットワークは、類似度計算の精度を向上させることができるマイクロブログを使用しています。しかし、ネットワークは多くのことを行うことができ、計算がより重要なアプリケーションの一つである影響を与えます。
それはここで影響力のあるコンピューティングに来るとき、私たちは、ページランク付けアルゴリズムに描きます。ページランクアルゴリズムは間違いなく良くPageRankの中で知られていた、このアルゴリズムは、Googleの商業的な成功と名声とともに、Googleの創業者ラリー・ペイジとセルゲイ・ブリンによって発明しました。ページ間のリンクに基づいてランク付けするページを決定するアルゴリズムは、コアは、ウェブページの品質の高品質の仮定はまた、尖った高くなければならないです。
ページランクの考え方によると、我々は仮説七と呼ばれる、マイクロブログの仮説上の影響力になります
また、高いものでなければならないユーザーのインパクトのあるユーザーの注意に影響を与えます。
WebページのPageRankのようなユーザは、リンク関係のページとして見るの関係に焦点を当てます。したがって、我々は、ネットワークフローアルゴリズムのPageRankに基づくマイクロブロギング懸念計算アルゴリズムに影響力のあることができます。
1)すべてのユーザーの影響の重量に対して同じ重みを与えられます。
2)各ユーザの体重相当の量の影響が懸念の数に応じて割り当てられました。
3)彼と右に割り当てられたファンの重量に対するその影響に等しい各ユーザのために、
重量がもはや大きな変化するまで発生するまで4)反復ステップの2及び3ステップありません。
アルゴリズムだけでなく、HITS、丘の上のアルゴリズムのランキングページでは、ネットワークの関係上などに基づいて、これらのアルゴリズムは、過去に計算に影響を与えることを学ぶことができます。
上記のアルゴリズムの欠点は何ですか?
関係だけネットワーク上の場合、ファンと多くの人々の数は影響高にバインドされ、簡単に作成できます。これは非常に高い影響力を達成することができますいくつかのゾンビパウダーを購入する一部のユーザーを導きました。使用されていない、あまりにも多くの情報があるので、このアルゴリズムは、明らかに実際の状況に対処することができません。
彼のマイクロブログの関係に加えて、ユーザーに影響を与える、だけでなく、ユーザの活動、マイクロテキストの質としての彼の個人属性との素晴らしい関係を持っています。測定するために、マイクロブログの公表周波数を使用することができ、ユーザの活動は、転送されたマイクロ品質のテキストの数を使用することができ、回答数が得られました。これらの値の測定によって、一緒に上記のアルゴリズムの結果と、私たちは、より正確なインパクトの結果を得ることができます。
もちろん、それは考えることができる関係をネットワークで構成することができ、@、ユーザー間の関係は、関係を転送、返信、彼らはまた、適切な仮定を持って、仮定は、仮定の1008のまたは9仮定しました:
マイクロブログの影響に高い影響のユーザーの返信、マイクロブログのオーナーの影響が高くなりそうという。
原作者のマイクロブログの影響力が高くなるように、マイクロブログの影響を転送するユーザーの影響力が高いです。
そのユーザーに高い影響力は高い衝撃ユーザー@マイクロブログに傾向があります。
これは、ネットワーク3のネットワーク@、のPageRankアルゴリズムを学ぶ、私たちは別の3つの影響結果を得ることができ、転送ネットワーク、ネットワークの応答となっています。彼らはそれが最終的な結果に影響を与えることができ、関係ネットワークの影響の結果と融合しました。ここで融合は、単純にこの記事の範囲外の複雑な融合法の結果の加重和として考えることができます。
 

トピックス要因と要因のエリア

影響の計算方法を取得した後、何を行うことができますか?
これは、マイクロブログのオピニオンリーダーのホットな話題となって、現在のホットな話題影響分析であってもよいです。これは、この方法で行われ、そして現在のホットな話題に関係するユーザーを見つけるために、マイクロテキストに関連する現在のホットな話題を見つけること。見つけるとマイクロウェンそれに関連する現在のホットな話題にする方法?そこハッシュタグマイクロ温家宝言うまでもなくために、マイクロテキストはラベルの話題ではないため、それはLDAアルゴリズムを使用することができますが、それはユーザーのすべてのマイクロテキスト内のユーザーのトピック分布で見つけることができ、先に紹介し、あなたはマイクロ温でも見つけることができます140のマイクロテキスト・ワードの制限のために、一般的なトピックの分布は、比較的短く、トピックの数はあまりないマイクロテキストはテキストにそのテーマとして、マイクロ服用の最も高い確率テーマトピック分布を含んでいて。
マイクロテキストやユーザー、実行影響計算アルゴリズムに対応するトピックを見つけた後、私たちは、インパクトで話題の大規模なユーザーを取得することができます。また、これは意見の監視、社会的なホットスポット監視しています。
ラベル伝搬アルゴリズムについて得られた結果は、同じラベルの影響ユーザーを実行する計算アルゴリズムは、タグランキングの影響下で、すなわちフィールド影響ランキングを得ることができます。たとえば、すべての分野でカイフーリー影響が最も高くないかもしれませんが、IT分野で、その影響力は間違いなく最高の1つです。
 

ごみユーザ識別

影響力の計算では、干渉算出ユーザゾンビへの影響を避けるために記します。アルゴリズムでは、そのようなユーザは、効果を向上させることができるだけでなく、放電外部影響の計算において、同定することができれば、さらに計算量を減らすことができます。
そして、計算に影響を与えると同時に、ユーザー属性とリンク関係の二つの要因を考慮することは、ユーザの識別をゴミ箱に似ています。
ごみのユーザーのために、さまざまな統計情報と、通常のユーザーにいくつかの機能があります。たとえば、次のよう:
一定時間の規則性を有するマイクロ一般ごみユーザパケットがこのエントロピーを測定するために使用することができ、エントロピーの尺度は、ランダム性の尺度であり、より大きな、より小さなエントロピーをランダム。特定プラクティス各タイムスライスで得られた特定の時間粒度DSI、ボーエン確率は、次いで確率はエントロピに基づいて算出されます。より多くの通常のユーザーの時間の代わりにエントロピーマイクロテキストが大きいほど、より多くの可能性が高いそれはスパムのユーザーです。
一部のユーザーは、ごみを好む@他の人を悪質なマイクロテキストで、マイクロいくつかのゴミテキスト@使用のユーザーの割合は平均的なユーザーよりも高くなるようにします。
マイクロテキスト広告を促進するためにゴミのユーザーの一部は、URLを多数追加。URLは、マイクロテキストの割合で測定することができます。また、一部のユーザーがURLのクリックをごまかすために、URLインタフェースに対応するマイクロテキストコンテンツの内容が矛盾している場合、必要一貫性の程度は、マイクロテキストとURLのコンテンツを決定するために、単純なアプローチは、URLインタフェース表現に単語の方法マイクロテキスト相当の使用袋とすることができます単語ベクトルの中に、マイクロ内の単語の頻度は、URLに対応するウェブページに表示されるテキストを表示します。
販売広告にそれらのユーザーのために、あなたはまた、ユーザのマイクロテキスト広告のかなりの部分は、ユーザーがスパムのユーザーである可能性がある場合、それはマイクロテキスト広告であるかどうかを決定し、そのマイクロテキストファイルを分類することができます。
ごみのユーザーは、一般的にユーザの注意に自由である、それは、そのファンの数や友人の数と相違があるでしょう、通常のユーザーの割合です。ユーザーは一般的に正常であり、その注意が三角形を形成するように、彼らの友人A B Cの注目を見られるように、バディ関係を通じて友人を追加し、それはまた、懸念される関心のA C、関心のAの形成にB、C、B、Cの場合三角形。ごみのユーザーの注意、異なる通常のユーザとの懸念の割合の三角形のランダムに一般的には、原因。
もちろん、それよりも通常のユーザーおよびユーザーのジャンクとは異なり、この記事では、にこだわることはありません。などロジスティック回帰(LR)、決定木、ナイーブベイズ、として、後で、あなたが分類モデルを学習マシンにその情報を入力することができ、これらのプロパティへのアクセス、ごみのユーザーの性質を識別するためのバイナリ分類問題です、それは分類することができます。
もちろん、全く使用リンク情報はありません。一般的には、ユーザーが通常のユーザーに注意を払うことを拒否し、ユーザーは通常のごみのユーザーには関係しません。この仮定のXIこと:
通常のユーザーは、ごみのユーザーに集中する傾向がありません。
だから我々は再び、ユーザーがユーザーのジャンクであるかどうかの確率を計算するためのPageRankアルゴリズムを使用することができます。分類子アルゴリズムの使用は、上記の結果は、スパムユーザーの確率を1に設定すると、通常のユーザーの確率が0に設定されて初期化されることに留意すべきです。PageRankの算出処理ではなく、単純な加算式で、もしそのようなごみは、確率が合計より大きくすることができる複数のユーザであるユーザ関心ための確率関数または指数ファミリーを正規のいくつかの方法の使用を必要としますアップデート。
 
 

エピローグ

アルゴリズムの実用的なアプリケーションがに提示よりもより複雑であるに本論文では、一般的な問題をマイクロブログ、対応するアルゴリズムは、簡単でした。もちろん、ないこの記事の対象となるすべてのトピックは、友人が推奨されるよう、関係するトラッキングなしのホットスポットはありません。しかし、言って古いこの導入は、あなたがより良い、このようなマイクロブログ、ソーシャルネットワーキングアプリケーションを理解するのに役立つことを願っての「全体像を見る反映見ます」。
テキストでは、我々は我々の直感的な感覚と一致見える大胆な仮定で見ることができます。これらによると、私たちは、効率的なアルゴリズムの多くから出てくることができます。だから、時々、限り、あなたは側のアルゴリズムを見つけるために喜んでいるよう。
 
 
著者: 張ゆう石

=>より多くの記事を参照してください「中国のインターネットビジネスの展開アーキテクチャガイド」

https://blog.csdn.net/Ture010Love/article/details/104381​​157

権限の例=>その他の産業構造は、規格や技術動向の分野は、マイクロチャネル公共数のソフトウェア真実と光」に注意を払うしてください。

公共いいえ:もっとリアルタイムの動的な心配
もっと権威のコンテンツ国民の関心番号:ソフトウェアの真実と光
 

 

彼は192元の記事を発表 ウォンの賞賛467 ビュー220 000 +

おすすめ

転載: blog.csdn.net/Ture010Love/article/details/104445160