相関ルールのデータマイニング分析入門

相関分析は興味深い関連性を発見し、大規模なデータセットからアイテム間のリンクを関連しています。典型的な例は、マーケットバスケット分析の関連解析です。ビッグデータの時代、相関分析は、最も一般的なデータマイニング作業の一つです。

アウトライン

相関分析は、シンプルで実用的な分析技術である特定のもの一方チュウ現在のルールとパターンの特性を記述するために集中関連または相関に見られる大量のデータを指します。

アソシエーション分析を見つけることができ、物事の間の相互依存性との関係は、しばしば大量のデータから、機能やデータを発生します。これらの団体は、常に事前に、しかし、得られたデータのデータセットの分析を相関させることにより、知りません。

販売を強化、相互に関連性を達成するために、一般的には、店舗またはクロスカテゴリ推薦カート共同マーケティングの電力供給に使用するビジネス上の意思決定、などの棚のレイアウト表示、共同プロモーション、マーケティング、に大きな価値のアソシエーション分析、ユーザーエクスペリエンスを向上させ、高い潜在的なユーザの目的を見つけるために、ユーザの入力と監査人の時間を短縮します。

データセットの相関分析によって規則等「何らかの他のイベントの発生に起因する特定のイベントの発生に」フォームを導出することができます。

たとえば、「同時に、顧客の67%は、おむつを買っても、ビールを買って、」とても合理的なビールとおむつ棚ディスプレイまたはバンドルは、スーパーマーケットのサービス品質と効率を向上させることができます。「88%の可能性の利益のためのデータ構造を「学習における「C#言語コース開講優秀な学生は」、そして効果は、「C#言語を」学習指導を強化することにより向上させることができます。

典型的な例は、マーケットバスケット分析の関連解析です。別の商品の買い物かごの中にその顧客との間のリンクを発見することで、顧客の購買習慣を分析することができます。顧客は小売業者がマーケティング戦略を開発するのに役立つことができますが、頻繁に購入されているアイテムを知ることによって。他のアプリケーションは、関税のデザイン、マーチャンダイジング、商品や顧客の購買パターンの描写に基づいて排出量を含んでいます。例えば、シャンプーやヘアコンディショナースーツ、牛乳とパンの一時的な表示の間に、彼らはそれらの他の商品を買った製品を購入するユーザー。

医学では、上記の商品の存在に関連した現象の一部に加えて、研究者たちは、より良い探してから、医療記録の数万の既存の疾患を患っている患者の共通の特徴を見つけることを願っています予防措置。また、ユーザーの銀行のクレジットカードの請求書の分析は、それぞれの製品の販売を促進する、ユーザーの消費パターンを得ることができます。データマイニング関連解析は、人々の生活の多くの側面に関与してきた、生産、マーケティング、人々の生活のための大きな助けを提供します。

基本コンセプト

頻出アイテムによって設定された採掘は、大きな取引や関係データセット物事と物事の間の興味深い相関関係を見つけ、その後、企業が意思決定だけでなく、顧客の購買習慣の設計と解析を行うことができます。例えば、表1は、TIDは、取引番号、取引商品の代わりにアイテムを表し、スーパーマーケットのトランザクション情報のいくつかの顧客を示しています。

表1の相関分析のサンプルデータセット
TIME アイテム
001 コーラ、卵、ハム
002 コーラ、おむつ、ビール
003 コーラ、おむつ、ビール、ハム
004 おむつ、ビール

このセットの相関分析によって、我々は、アソシエーションルールを識別することができる、すなわち、{おむつ}→{ビール}。それが表す意味することは、顧客が購入おむつビールを購入するということです。この関係は避けられませんが、非常に大きな可能性が、これは同様の位置、またはバンドルプロモーションに配置することにより、売上を上げるために、例えば、おむつとビールの配置を調整するために、ビジネスを支援するのに十分です。

相関分析、いくつかの共通の基本的な概念。

名前 説明
業務 各トランザクションは、トランザクション・データと呼ばれ、例えば、表1は、4つのトランザクションを含んでいます。
アイテム 各項目のトランザクションは、そのようなので、上のおむつ、ビールとして、アイテムと呼ばれます。
項目セット そのような{ビール、おむつ}、{ビール、コーラ、ハム}として、ゼロまたはそれ以上のアイテムのセット既知アイテムのコレクションを含みます。
K-項目セット K-アイテムセットアイテムセットと呼ばれるk個のエントリは、例えば、{コーラ、ビール、ハムは} -3-項目セットと呼ばれる含みます。
サポート数 複数のトランザクションに登場したアイテムのセットは、それが数を数えるのサポートです。例えば、トランザクション002、003及び004に存在{おむつ、ビール}、ように支持カウントは3です。
サポート トランザクションの合計数のサポート数に加えて。例えば、実施例では、トランザクションの総数は4、カウントが3である支持体{おむつ、ビール}、である支持体の{おむつ、ビール}程度が同じで人々の75%がおむつを購入することを示し、75%であったので、及びビール。
頻繁なアイテムセット サポートと呼ばれる頻出アイテム集合である閾値設定項目以上です。支持体の{おむつ、ビール}は75%であったので、それは頻出集合であるため、例えば、場合閾値は、50%に設定されています。
フロントとリアパーツ ルールの{A}は前側部材と呼ばれる、{E}はピースバックと呼ばれます。
信頼 ルールの{A}→{B}、その信頼は、支持カウントの{A}によって支持カウントの{A、B}です。例えば、ルール{おむつ}→{ビール} 3/3信頼レベルは、すなわち、100%、100%、おむつがビールを購入した購入者を示します。
強い相関ルール しきい値最小サポートと最小信頼閾値は強い相関ルールと呼ばれる以上ルール。これは、相関ルールの一般的な意味が強い相関ルールを参照してくださいと述べました。関連解析の究極の目標は、強い相関ルールを見つけることです。

アソシエーション分析ステップ

一般に、与えられた取引データの収集のために、相関分析は、ユーザ指定の最小サポートと強い相関ルールを求める最小信頼プロセスを指します。相関分析は、一般的に2つの大きなステップに分かれています:高頻度項目セットおよび相関ルール発見を見つけます。

1.発見頻度の高い項目セット

、頻出アイテム集合が最小サポートを介してユーザによって与えられる検索項目のサブセットは、ユーザによって設定された最小支持未満でない識別全て頻出アイテム集合を見つけます。

実際には、これらの頻出アイテムセットが包含関係を有することができます。例えば、用語セット{おむつ、ビール、コブは}項目{おむつ、ビール}のセットを含みます。一般的には、唯一の頻出アイテムセットのいわゆる最大のコレクションを気にすることは、他の頻出アイテムセットが含まれていません。すべての頻出アイテムは、相関ルールの形成のための基盤を設定して下さい。

データセットのものによって生成された頻出アイテムセットの数は、項目の少ない、代表的なセットは非常に有用であろう、あなたは他の頻出アイテムセットを導き出すことができるすべてを見つけるために、したがって、非常に大きくなることがあります。

名前 説明
クローズ項目セット Xが閉じたアイテムセットですが、その直接およびそのスーパーセットは、同じサポート・カウントを持っていない場合は、Xは、アイテムセットを閉じています。
頻繁に閉じられた項目セット Xが閉じアイテムセットであり、それは最小のサポートサポート閾値以上である場合、Xは頻繁にある項目セットを閉じました。
最大頻度の高い項目セット アイテムがX頻出アイテムセットを設定して、それが頻繁に直接スーパーセットでない場合は、その後、Xは、最大の頻出アイテムセットです。

いずれかの最大の頻出アイテムセットがその直接のスーパーセットでは不可能であるため、最大頻出アイテムセットは、閉鎖されている同じサポート・カウントを持っています。極大頻出集合を効果的に高頻度項目セットのコンパクトな表現を提供します。換言すれば、最大頻出アイテム集合を頻出アイテム集合の集合のすべての項目の最小セットを形成導出することができます。

2.発見相関ルール

各最大頻出アイテム集合アソシエーションルールで、最小の信頼度によってユーザによって与えられた発見相関ルールは、ユーザの信頼により設定された最小値以上の信頼度を検索します。

それだけに同定されている頻出アイテム集合に基づいて、可能なすべてのアソシエーションルールをリストする必要があるため、タスクの第二段階に相対的な用語の最初のステップでは、比較的簡単です。すべてのアソシエーションルールが既にサポート閾値の要件を満たす頻出アイテム集合に基づいて生成されるので、これだけ第2のステップは、ユーザ指定の最小確信度よりだけ大きい、信頼閾値を必要と考慮する必要がルールは取り残されます。

57 協会は、データマイニング解析ルール
58 アプリオリアルゴリズムとFP-ツリー・アルゴリズム
59 の大規模なデータ精度のマーケティングに基づいて、
60 ベースのパーソナライズされた推薦システムビッグデータ
61 ビッグデータ予測
62. 他のビッグデータアプリケーション
63を。ビッグデータとは、産業界で使用可能な
64の金融業界では、大規模なアプリケーションデータ
65 インターネット業界におけるビッグデータアプリケーション
66 物流業界におけるビッグデータの応用

おすすめ

転載: blog.csdn.net/yuyuy0145/article/details/92430124