インターネットデータマイニングと分析の説明

1. 定義

データマイニング(英語: Data mining )、データ探索、データマイニングとも訳される。これは、データベースにおける知識発見 (KDD) のステップです。データマイニングとは一般に、アルゴリズムを使用して大量のデータに隠された情報を検索するプロセスを指します。データ マイニングはコンピューター サイエンスと関連付けられることが多く、統計、オンライン分析処理、インテリジェンス検索、機械学習、エキスパート システム (過去の経験則に基づく)、パターン認識などの多くの方法を通じて上記の目標を達成します。

データマイニングは現在、人工知能とデータベース研究の分野で注目されている問題であり、主に人工知能、機械学習、パターン認識、統計、データベース、視覚化技術などに基づいて、高度に自動化された方法で企業データを分析します。潜在的なパターンを明らかにして、意思決定者が市場戦略を調整し、リスクを軽減できるようにします。応用分野には、インテリジェンス検索、インテリジェンス分析、パターン認識などが含まれます。
 

2. データマイニングオブジェクト

データのタイプは、構造化、半構造化、さらには異種の場合もあります。知識を発見する方法には、数学的、非数学的、または帰納的があります。最終的に発見された知識は、情報管理、クエリの最適化、意思決定支援、データ自体の保守に使用できます。

データ マイニングの対象となるのは、あらゆる種類のデータ ソースです。構造化データを含むデータ ソースであるリレーショナル データベースの場合もあれば、データ ウェアハウス、テキスト、マルチメディア データ、空間データ、時系列データ、および半構造データを含むデータ ソースである Web データの場合もあります。構造化データ、さらには異種データ。

知識を発見する方法には、数値的、非数値的、または帰納的があります。最終的に発見された知識は、情報管理、クエリの最適化、意思決定支援、データ自体の保守に使用できます。

3. データマイニングの手順


データ マイニング プロセス モデルのステップには主に、問題の定義、データ マイニング ライブラリの確立、データの分析、データの準備、モデルの構築、モデルの評価、および実装が含まれます。各ステップの具体的な内容を詳しく見てみましょう。

(1) 問題を定義する: 知識の発見を開始する前の最初の最も重要な要件は、データとビジネスの問題を理解することです。自分の目標、つまり何をしたいのかを明確に定義する必要があります。例えば、メールの利用率を向上させたい場合、「ユーザーの利用率を高める」か、「1ユーザーの利用価値を高める」か、この2つの課題を解決するために確立されたモデルはほぼ次のとおりです。全く違うので、決断が必要です。

(2) データ マイニング ライブラリの確立: データ マイニング ライブラリの確立には、データ収集、データ記述、選択、データ品質評価とデータ クリーニング、マージと統合、メタデータの構築、データ マイニング ライブラリのロード、およびデータマイニングライブラリ。

(3) データの分析: 分析の目的は、予測出力に最も大きな影響を与えるデータ フィールドを見つけて、エクスポート フィールドを定義するかどうかを決定することです。データ セットに数百または数千のフィールドが含まれている場合、データの参照と分析は非常に時間がかかり、面倒な作業になります。この場合、優れたインターフェイスと強力な機能を備えたツール ソフトウェアを選択する必要があります。これらのタスクを完了します。

(4) データの準備: これは、モデルを構築する前のデータ準備の最後のステップです。このステップは、変数の選択、レコードの選択、新しい変数の作成、変数の変換の 4 つの部分に分けることができます。

(5) モデルの構築: モデルの構築は反復的なプロセスです。直面しているビジネス上の問題に対してどのモデルが最も役立つかを判断するには、さまざまなモデルを慎重に検討する必要があります。まずデータの一部を使用してモデルを構築し、次に残りのデータを使用して結果のモデルをテストおよび検証します。テスト セットはモデルの特性の影響を受ける可能性があり、モデルの精度を検証するには独立したデータ セットが必要になるため、検証セットと呼ばれる 3 番目のデータ セットが存在する場合があります。データ マイニング モデルのトレーニングとテストでは、データを少なくとも 2 つの部分 (1 つはモデルのトレーニング用、もう 1 つはモデルのテスト用) に分割する必要があります。

(6) モデルの評価:モデルを構築した後は、得られた結果を評価し、モデルの価値を説明する必要があります。テスト セットから得られる精度は、モデルの構築に使用されるデータに対してのみ意味を持ちます。実際のアプリケーションでは、エラーの種類とそれに起因する関連コストをさらに理解する必要があります。経験上、有効なモデルが必ずしも正しいモデルであるとは限らないことが証明されています。この直接の理由は、モデル構築に暗黙的に含まれるさまざまな仮定にあるため、現実世界でモデルを直接テストすることが重要です。最初は小さな領域に塗布し、テストデータを取得し、満足してから広い領域に拡張します。

(7) 実装: モデルが確立され検証された後、それを使用する主な方法は 2 つあります。1 つ目はアナリストにリファレンスを提供すること、もう 1 つはこのモデルをさまざまなデータセットに適用することです。

4. データマイニングの分析手法

4.1 コンセプト

データマイニングは、ガイド付きデータマイニングとガイドなしデータマイニングに分けられます。ガイド付きデータ マイニングは、利用可能なデータを使用して、特定の属性を記述するモデルを構築します。無誘導データマイニングは、すべての属性間の何らかの関係を見つけることです。具体的には、分類、評価、予測はガイド付きデータマイニングに属し、相関ルールとクラスタリングはガイドなしデータマイニングに属します。

1. 分類: まず、データから分類されたトレーニング セットを選択し、トレーニング セットに対してデータ マイニング テクノロジを使用して分類モデルを構築し、次にそのモデルを使用して未分類のデータを分類します。

2. 評価: 評価は分類に似ていますが、評価の最終出力結果は連続値であり、評価額は事前に決まっていません。評価は分類の準備として使用できます。

3.予測: 分類または評価を通じて実行されます。モデルは、分類または評価トレーニングを通じて取得されます。モデルがテスト サンプル グループに対して高い精度を備えている場合、そのモデルは新しいサンプルの予測に使用できます。予測には未知の変数が使用されます。

4. 相関グループ化または関連付けルール: 目的は、常に同時に発生するものを発見することです。

5. クラスタリング: サンプル間の類似性を判断して、類似したサンプルをクラスターに分割する、グループ化ルールを自動的に見つけて設定する手法です。

4.2 分析方法

1) 決定木法

決定木は、分類や予測の問題を解決する強力な能力を持ち、ルールの形で表現され、そのルールは一連の質問として表現され、常に質問を続けることで、最終的に必要な結果を導き出すことができます。一般的なデシジョン ツリーには、上部にルートがあり、下部に多くの葉があり、レコードがさまざまなサブセットに分割され、各サブセットのフィールドには単純なルールが含まれる場合があります。さらに、決定木は、二分木、三分木、または混合決定木の種類など、さまざまな形状を持つ場合があります。

2) ニューラルネットワーク方式

ニューラルネットワーク法は、生体神経系の構造と機能をシミュレートします. 学習によって学習された非線形予測モデルです. 各接続を処理単位としてみなし、人間の脳ニューロンの機能をシミュレートしようとします. 完全な分類が可能です, さまざまなクラスタリングや特徴マイニングなどのデータ マイニング タスク。ニューラルネットワークの学習方法は主に重みの変更に反映されます。利点は、耐干渉、非線形学習、連想記憶機能を備え、複雑な状況に対して正確な予測結果が得られることですが、欠点は、高次元の変数の処理には適しておらず、中間学習を観察できないことです。処理がブラックボックスであり、出力結果も説明が難しい、第二に学習時間が長い。ニューラルネットワーク手法は主にデータマイニングのクラスタリング技術に利用されます。

3) アソシエーションルール方式

アソシエーション ルールは、データベース内のデータ項目間の関係を記述するルールです。つまり、トランザクション内で特定の項目が発生すると、同じトランザクション内で他の項目が発生する可能性があります。つまり、データ間の隠れた関連性または相互関係が発生する可能性があります。 。顧客関係管理では、企業の顧客データベース内の大量のデータをマイニングすることにより、多数のレコードから興味深い関係を発見し、マーケティング効果に影響を与える重要な要素を発見し、製品のポジショニング、価格設定、カスタマイズされた顧客グループを特定できます。 、顧客の探索、セグメント化と維持、マーケティングとプロモーション、マーケティング リスク評価、不正行為の予測などの意思決定サポートのための参照ベースを提供します。

4) 遺伝的アルゴリズム

遺伝的アルゴリズムとは、自然選択・継承の際に生じる生殖、交配、遺伝子変異などの現象をシミュレートし、遺伝子の組み合わせ、遺伝子の交叉変異、自然選択などの操作を利用して実装を生成する進化理論に基づく機械学習手法です。ルール。その基本的な観点は「適者生存」の原則であり、暗黙の並列性や他のモデルとの組み合わせが容易などの特性を備えています。主な利点は、多くのデータ型を処理でき、さまざまなデータを並列処理できることですが、欠点は、必要なパラメーターが多すぎること、コーディングが難しく、一般に大量の計算が必要なことです。遺伝的アルゴリズムはニューロン ネットワークの最適化によく使用され、他の手法では解決が難しい問題を解決できます。

5) クラスター分析手法

クラスター分析とは、類似点と相違点に基づいて一連のデータをいくつかのカテゴリに分類することで、同じカテゴリに属する​​データ間の類似性をできるだけ大きくし、異なるカテゴリに属する​​データ間の類似性をできるだけ小さくすることを目的としています。定義によれば、階層ベースのクラスタリング手法、パーティション クラスタリング アルゴリズム、密度ベースのクラスタリング アルゴリズム、グリッドベースのクラスタリング アルゴリズムの 4 つのカテゴリに分類できます。一般的に使用される古典的なクラスタリング手法には、K-mean、K-medoids、ISODATA などが含まれます。

6) ファジィ集合法

ファジー集合法は、ファジー集合理論を使用して、問題に対するファジー評価、ファジー意思決定、ファジーパターン認識、およびファジークラスタリング分析を実行します。ファジィ集合理論では、メンバーシップ次数を使用してファジィなものの属性を記述します。システムの複雑さが増すほど、曖昧さは強くなります。

7) Webページマイニング

Webをマイニングすることで、Webの膨大なデータを分析に利用し、政治、経済、政策、技術、金融、各種市場、競合他社、需給情報、顧客などに関する情報を収集し、分析に注力することができます。外部環境情報や社内経営情報など、重大な影響を与える、または重大な影響を与える可能性のある情報を分析し、その分析結果に基づいて、企業の経営プロセスにおいて発生する可能性のあるさまざまな問題やその前兆を特定します。危機を特定、分析、評価、管理するために、この情報を分析および処理します。

8) ロジスティック回帰分析

トランザクション データベースの属性値の時間的特性を反映し、データ項目を実数値の予測変数にマッピングする関数を生成し、変数または属性間の依存関係を発見します。その主な研究課題には、データ シーケンスの傾向特性、データ シーケンスが含まれます。データ間の予測や相関関係など

9) ラフセット法

これは、曖昧で不正確、不完全な問題を処理するための新しい数学ツールであり、データの削減、データの相関関係の発見、データの重要性の評価などの問題を処理できます。利点は、アルゴリズムが単純で、処理中にデータに関する事前知識を必要とせず、問題に内在する法則を自動的に見つけることができることですが、欠点は、連続属性を直接処理することが難しいことです。最初に属性を離散化する必要があります。したがって、連続属性の離散化問題は、ラフ集合理論の実用化を制限する困難な問題となります。

10) 接続解析

関係性を主体とし、人と人、物と物、人と物の関係をベースにした応用が数多く開発されてきました。たとえば、電気通信サービス業界では、リンク分析を使用して顧客の通話時間と頻度を収集し、顧客の使用方法の好みを推測して、企業にとって有益なソリューションを提案できます。通信業界に加えて、企業に有益な調査を行うためにリンク分析を使用するマーケティング担当者も増えています。

おすすめ

転載: blog.csdn.net/m0_68949064/article/details/129494996