データマイニング (1) -- 基礎知識の学習

目次

序文

文章

1. データマイニングの歴史と発展

a.基本的な説明

b. 典型的な知識発見プロセス 

 c. 典型的なデータマイニングシステムの構造

d. データマイニングには、さらに研究すべき多くの問題がまだある

3. データマイニングの研究内容と機能 

a. 研究内容 

b. データマイニングの主な機能

4. データマイニングの一般的な手法とツール

a. データマイニングの一般的に使用される手法

b. データマイニング用の 10 の古典的なアルゴリズム

c. データマイニング用のツール

d. 従来のデータ分析手法とデータマイニング

5. データ マイニング アプリケーションのホットスポット

6. データマイニングが直面する主な問題

a. マイニング手法が直面する問題

b. ユーザーの対話性の問題

c. 応用と社会的影響

まとめ

参考文献


序文

1990年代以降、データベース技術応用の普及に伴い、将来的には大規模なデータの真の価値が発揮されるデータマイニング(Data Mining)技術が産学から大きな注目を集めています。データ分析および管理作業のアプリケーションのニーズにより、これらのデータは、従来のデータ統計からデータマイニングおよび分析へと、有用な情報および知識に変換される必要があります。また、データマイニング技術を通じて得られる情報や知識は、市場開発・分析、経営管理、生産管理、工学設計、科学探査など、さまざまな業界で幅広く活用できます。(徐華「データマイニング: 方法と応用」からの抜粋)

文章

1. データマイニングの歴史と発展

a.基本的な説明

データ マイニング (DM) は、データベースにおける知識発見 (KDD) とも呼ばれ、機械学習、人工知能、データベース理論、統計を含む学際的な研究分野です。
データマイニングとは、データベース内の大量のデータから有用な情報を掘り出すこと、つまり、多数の不完全、ノイズ、ファジー、ランダムな実用化データから隠された、規則的な、未知の情報を発見することです。潜在的に有用で最終的には理解可能な情報と知識を生成するプロセス。

データベースに関連するすべての操作と分析がデータ マイニング研究の範囲に属するわけではありません。

データ マイニング (DM) は、知識発見 (KDD) の中核部分です。
データ マイニング数学の理論的基礎の発展は、統計の発展と切り離すことができません。

b. 典型的な知識発見プロセス 

6999fcb264904299b55babc71aef7397.png

 c. 典型的なデータマイニングシステムの構造

 7660dc241c7b4a0c938100ef8ed2bbe3.png

d. データマイニングには、さらに研究すべき多くの問題がまだある

データマイニングには、以下の研究方向性を含め、さらに研究すべき課題がまだ多くあります。
① アルゴリズムの効率性とスケーラビリティ
② さまざまなタイプのデータとデータソースの処理
③ データマイニングシステムの対話性
④ データマイニングにおける情報保護とデータマイニング セキュリティ
⑤ 探索新しい応用分野
⑥データマイニング結果の可用性、確実性、表現可能性
⑦ビジュアルデータマイニング

3. データマイニングの研究内容と機能 

a. 研究内容 

データマイニングによって発見される最も一般的な知識の種類は次の 5 種類です:
① 一般化.
一般化された知識とは、類似したものの共通の性質を反映したカテゴリの特性の一般的な説明知識を指し、
データの一般化、洗練、抽象化です。
②関連知識 (Association) 関連
知識は、依存関係
(Dependency) 関係とも呼ばれる、イベントと他のイベントの間の依存または関連付けの知識を反映します
。 ③分類とクラスタリング:
分類知識は、類似したものの共通の性質を反映するために使用されます 特徴型知識④予測

知識(Prediction)
予測型知識
は、時系列データに基づいて過去と現在のデータから将来のデータを、時間をキー属性とした連想知識とも考えられます。
⑤逸脱知識(Deviation)
逸脱知識とは、差異や極端な特殊事例を記述したもので、
標準クラス外の特殊事例、データクラスタリング値外の外れ値など、物事が日常から逸脱する異常な現象を明らかにするものである。 

b. データマイニングの主な機能

1. クラス/概念の記述: 特徴付けと区別
大量のデータを含むデータセットを記述的に要約し、簡潔で正確な記述を得るために、この記述をクラス/概念記述 (クラス/概念記述) と呼びます。
この記述は、次の方法で取得できます。
(1) データの特徴付け
(2) データの微分
(3) データの特徴付けと比較

2. 関連分析
関連分析 (関連分析) は、指定されたデータ セットから頻繁に発生するアイテムセット パターンの知識を見つけることです。関連ルールとしても知られています。 age(X,"20..29")^income(X,"20. .29K ") >buys(X,"PC")[サポート = 2%、信頼 = 60%]

3. 分類と予測

データマイニングに関連する研究作業では、将来の潜在的な予測要件を実現するために、さまざまなタイプや概念を記述または区別するためのモデルまたは記述関数を構築しようとすることがよくあります。例えば、実際の業務では、気候の種類によって関係国を分類することが多く、熱帯諸国、温帯諸国、極寒諸国に分かれます。実際の車は排気量に応じて分類されます。小排気量車、大排気量車、その他に分けられます。データ マイニング テクノロジを実際に適用して関連する問題を解決するプロセスでは、未知の結果や未知の定量的特徴の予測を解決するために、分類技術や手法がよく使用されます。

4. クラスター分析
クラスター分析によって分析および処理されたデータ (学習でも分類予測でも) には、(事前に決定された) カテゴリ割り当てがありません。
クラスタリングの原理:

クラス内の類似性を最大化する

クラス間の類似性を最小限に抑える 

5. 外れ値分析
ほとんどのデータ マイニング手法では、外れ値はノイズまたは異常として無視されますが、外れ値は統計検定を使用して検出できます。 

6. 進化分析
データ進化分析(進化分析)とは、時間の経過とともに変化するデータオブジェクトの変化規則や傾向をモデル化して記述することです。 

4. データマイニングの一般的な手法とツール

a. データマイニングの一般的に使用される手法

予測技術、クラスター分析、進化的コンピューティング、ファジィ論理、ゲームツリー、統計解析、意思決定と制御理論、並列コンピューティング海通ストレージ、相関ルール技術、ラフセット技術、グレイシステム、人工知能、知識推論、可視化技術

b. データマイニング用の 10 の古典的なアルゴリズム

1. 決定木分類器 C4.5 (分類アルゴリズム)

2. K-meansアルゴリズム(クラスタリングアルゴリズム)

3. サポートベクターマシン(分類アルゴリズム)

4. アプリオリアルゴリズム(頻度パターン解析アルゴリズム)

5. 最大期待値推定アルゴリズム(統合弱判別器)

6. PageRankアルゴリズム(ソートアルゴリズム)

7. AdaBoost アルゴリズム (統合弱分類器)

8. K 最近傍分類アルゴリズム (分類アルゴリズム)

9. 単純ベイジアンアルゴリズム (分類アルゴリズム)

10. 分類・回帰木アルゴリズム(クラスタリングアルゴリズム)


C4.5 (61 票)
K-Means (60 票)
SVM (58 票)
Apriori (52 票)
EM (48 票)
PageRank (46 票)
AdaBoost (45 票)
kNN (45 票)
Naive Bayes (45 票)
カート (34 票)

c. データマイニング用のツール

1. ニューラル ネットワーク ベースのツール
ニューラル ネットワークは、分類、特徴マイニング、予測、パターン認識に使用されます。
2. ルールとデシジョン ツリーに基づくツール
主な利点は、ルールとデシジョン ツリーの両方が読みやすいことです。
3. ファジーロジックに基づくツール
この方法では、データのクエリや並べ替えなどにファジーロジックを使用します。
4. 包括的なマルチメソッド ツール
これらのツールは一般に規模が大きく、大規模データベース (並列データベースを含む) に適しています。

d. 従来のデータ分析手法とデータマイニング

(1) 大量のデータ

(2) 高次元データ

(3) 複雑性の高いデータ。以下は、日常業務における典型的なタイプの複雑さデータの一部です。

① データの流れと感覚データ。

②時系列データ、時間とともに変化するデータ系列。

③ 構造化データ、グラフ、ソーシャルネットワーク、マルチリンクリレーショナルデータ。

④ 異種データベース、法律データ。

⑤ 空間データ、時空間記述データ、マルチメディアデータ、Webデータ。

⑥ソフトウェアプログラム、科学シミュレーションデータ等
 

5. データ マイニング アプリケーションのホットスポット

データマイニング技術はビジネスの直接的なニーズから生まれ、さまざまな分野で幅広い利用価値を持っています。
1. 金融分野でのアプリケーション
2. ネットワーク金融取引
3. 小売ビジネス アプリケーション
4. 医療通信アプリケーション

6. データマイニングが直面する主な問題

a. マイニング手法が直面する問題

(1) 実際にデータマイニング手法を用いて知識を発見する場合、通常、採用されるマイニング手法が異なる種類のデータから異なる種類のナレッジマイニングを実現できることが期待されます。

(2) データマイニングの対象となるのは大規模な膨大なデータであることが多く、マイニングアルゴリズムの性能もデータマイニングの過程でしばしば注目される重要な問題の一つである。

(3) 記述的データマイニングタスクでは、分析された頻出パターンまたは規則性に対して、対応するパターン評価を実行する必要があります。

(4) データマイニング作業の対象となるのは、さまざまな職業的背景を持つユーザーであることがよくあります。マイニング作業をより的を絞ったものにするために、関連する背景知識をマイニング方法にどのように統合するかも、マイニング方法の研究における重要な問題です。

(5) マイニング手法の使用中、マイニングされるオブジェクトはノイズが多く不完全なデータであることがよくあります。

(6) 近年、並列コンピューティング技術の成熟とクラウドコンピューティング技術プラットフォームの構築に伴い、将来の大規模データのマイニング方法には並列、分散、増分が求められることが多くなりました。

(7) マイニングアルゴリズムは、発見された知識を積極的に統合する、つまり知識の融合を実現できること。

b. ユーザーの対話性の問題

(1) ユーザーの対話性の問題では、リアルタイムのデータマイニングを実現するためにデータマイニング指向のクエリ言語を提案する必要があります。(2)マイニング結果をユーザーに直感的に提示するためのデータマイニング結果表現・可視化技術が必要である。それは、データマイニング技術の計算による可視化手法の研究を行うことです。

(3) ユーザーは多くの場合、複数の抽象化レベルで対話型マイニングを実装する必要があります。つまり、データ マイニング プロセス全体が対話型である必要があります。

c. 応用と社会的影響

(1) 申請に関して。ドメイン指向のデータマイニングを実施し、一般の人には認識できない、見えないデータマイニングの実現が急務となっています。(2) データマイニングの適用プロセスでは、データのセキュリティ、完全性、プライバシーの保護を強化する必要があります。

まとめ

この章では、データ マイニングのいくつかの基本概念を詳細に分析し、データ マイニング テクノロジーの歴史と発展を説明し、
データ

データベース技術の発展の必然的な結果として、データマイニング技術が広範囲に研究され、応用されてきました。データマイニングとは、膨大なデータから貴重な知識を発見することです。一般的な知識発見プロセスには、データ クリーニング、データ統合、データ選択、データ変換、データ マイニング、スキーマ評価、知識表現が含まれます。データ マイニング作業は、さまざまなデータ ウェアハウスで実行できます。データマイニングは、データ特徴抽出、特徴認識、関連性分析、分類、クラスタリング、外れ値点分析、傾向分析などを行うことができます。(徐華「データマイニング: 方法と応用」からの抜粋)

参考文献

「データ マイニング: 方法とアプリケーション」Xu Hua 著

おすすめ

転載: blog.csdn.net/weixin_53197693/article/details/129247208