目次
- 第 1 章 はじめに
- 第 2 章 データ処理の基礎
- 第 3 章 分類と回帰
- 第 4 章 クラスター分析
- 第 5 章 相関分析
- 第 6 章 外れ値マイニング
第 1 章 はじめに
1. 空白を埋める
(1) 技術的な観点から見ると、データマイニングは ( ) です。ビジネスの観点から見ると、データ マイニングは ( ) です。
回答: これは、大量の不完全で、ノイズが多く、あいまいで、ランダムな実際のアプリケーション データから、隠された未知の、しかし潜在的に有用な情報を抽出するプロセスです。
ビジネス情報処理技術の 1 つであり、大量のビジネス データを抽出、変換、分析、モデル化し、ビジネスの意思決定を支援する重要なデータを抽出することが主な特徴です。
(2) データマイニングによって得られる情報には、( )、効果的、実用的という 3 つの特徴があります。
回答: 以前は不明でした。
2. 日常生活におけるデータマイニングの応用
3. データマイニングとクエリを区別する
データ マイニングと従来のデータ分析方法 (クエリ、レポート、オンライン アプリケーション分析など) の間には本質的な違いがあります。データマイニングとは、明確な前提なしに情報をマイニングし、知識を発見することです。
例:
文内で人名を検索することはデータマイニングであり、テーブル内で人名を検索することはクエリです。
第 2 章 データ処理の基礎
1. 空白を埋める
(1) データは ( ) で、属性は ( ) に分かれています。
A: データ オブジェクトとその属性 (名目属性と順序属性、間隔属性と比率属性) のコレクション。
2. 計算問題
(1) 類似度の計算
教師が指定した範囲:
距離測定 (マンハッタン、ヨーロッパ):
類似度係数(コサイン類似度):
バイナリ属性の類似度(単純マッチング類似関係係数 d, s)
Jaccard 係数:
例 1:
答え:
例 2:
答え:
(2) データの統計的特徴の計算
記録式:
算術平均、
加重算術平均
、切り捨て平均: 上限と下限 (p/2)% のデータを破棄し、平均を計算します。
中央値、
四分位数、
中央列: (最大+最小)/2
モード
答え:
3. クイズ
(1) なぜデータ前処理を行うのか? よく使用される前処理手法を 3 つ挙げてください。
回答: データ前処理の目的: クリーンで簡潔かつ正確なデータを提供し、マイニングの効率と精度を向上させることです。
前処理テクノロジー: データ クリーニング、データ統合、データ変換、データ削減、データの離散化。
①データクリーニング:データが不完全、ノイズが多く、矛盾している(欠損値を埋め、ノイズを除去し、離散点を特定し、データ内の矛盾した値を修正する) ②データ統合(集計):データを集約し、2つまたは複数のデータソースを結合し
、一貫したデータストレージデバイスに保存されます。
③データ変換:データをマイニングに適した形式に変換します。(平滑化、集計、データ一般化、正規化、データ離散化)
④データ削減:サンプリングと特徴選択を含む。
4. ノイズのあるデータの平滑化方法
(1) ビニング:
ステップ 1: データが n 個の等しい深さのビンに分割されます。
ステップ 2:平均または境界平滑化を使用します。
ビンが深くて広いほど、スムージング効果は高くなります。
(2) クラスタリング: 外れ値を削除
(3) 回帰: 適切な関数を見つける
5. データ変換
A. 標準化
正規化とは、元のメトリック値を無次元の値に変換することです。(新しい値の範囲にスケーリングおよびマッピング)
(1) 最小-最大の正規化 ([0,1] 範囲に変換)
(2) Z スコアの正規化 (確率論の標準化)
(3) 10 進数の定義 標準化 ( 「0の10のn乗×10」の形式)
B. 特徴構造
元の機能から出荷される新しい機能セット。
C. データの離散化
連続属性の数値をカテゴリ値タグに置き換えます。教師あり離散化と教師なし離散化に分けられます。
教師なし離散法: (1) 等しい幅 (2) 等しい周波数 (3) クラスター分析に基づく。
教師付き離散手法: (1) エントロピーベース: トップダウン
6. データ削減
A. サンプリング
圧縮された行
サンプリング方法は 3 つあります。置換あり、置換なし、階層化(p36)
B. 特徴の選択
圧縮された列の数
理想的な特徴サブセット: すべての貴重な非ターゲット特徴はターゲット特徴と強く相関する必要があり、非ターゲット特徴は無相関または弱い相関がある必要があります。
第 3 章 分類と回帰
1. 空白を埋める
(1) 分類モデルの精度を評価する方法には、( )、( )、ランダム サブサンプリング法などがあります。
回答: ホールド法、k 分割交差検証。
2. 正誤
(1) 回帰予測出力は連続値( )
答え: √
分類予測出力: 離散クラス値 (1 つのクラスを予測)。回帰予測の出力は連続値です。
(2) KNN 分類法では事前のモデリングが必要です。( )
回答: ×
KNN は、事前のモデリングを必要としない受動的な学習方法です。基本的な手順:
1 距離を計算します。テスト オブジェクトが与えられた場合、そのオブジェクトとトレーニング セット内の各オブジェクトの間の距離を計算します。2
近傍を見つけます。最も近い k 個のトレーニング オブジェクトをテスト オブジェクトの近傍として丸で囲みます。
3 分類を行います。k 近傍が属する主カテゴリに従ってテスト オブジェクトを分類します。
(3) AdaBoost アルゴリズムは、複数の分類器を組み合わせて分類精度を向上させるアルゴリズムです。( )
答え: √
3. コンピュータに関する質問
式:
情報エントロピー:
情報利得:
分割情報:
情報利得率:
ジニ係数:
ジニ係数利得:
(1) ID3 アルゴリズムを使用してデシジョン ツリーを構築するプロセスを記述する
(2) 特定の気象データセットが与えられた場合、情報利得、情報利得率、ジニ係数利得を求めます。
(1) ステップ:データセットのエントロピーE(S) を
計算する温度によって分割されたサブセットのエントロピーE(Si)を計算するEの加算を計算する温度(S) = (|Si|/|S|) * E(Si)そして情報利得を計算します利得(S, 温度)=E(S)-E 温度(S)
(3) KNN書籍例題
4. クイズ
(1) ベイズの公式を書き出してください。ナイーブ ベイズ法の手順を教えてください。
答え: 式: P(A|B) = P(B|A)*P(A) / P(B)
手順:
(正式な答えは次のとおりです。単語はすべて知っていますが、理解できません。一緒に…)
- まず、未知のクラス ラベルを持つ指定されたサンプルに従って、各クラス ラベルの事後確率が計算されます。
- ベイズの公式によれば、事後確率の計算は、サンプルの各属性の条件付き確率と事前確率との確率積の計算に変換され、与えられた条件から簡単に計算できます。
- さまざまなカテゴリの計算結果の中で最も確率の高いカテゴリを選択し、サンプルをこのカテゴリに分類します。
(簡易版)
- まず各カテゴリの確率を計算します。
- 次に、各分類次元で予測データの各特徴の確率を計算します。
- 分類次元に従って計算します:分類確率 * 各特徴の確率。
- ステップ 3 で最大の結果を目的の結果として選択します。
(2) ナイーブベイズの「ナイーブ」とはどういう意味ですか? Naive Bayes の主なアイデアを簡単に説明します。
第 4 章 クラスター分析
1. 空白を埋める
(1) クラスタリングアルゴリズムは分割法、階層法、密度ベース法、グラフベース法、モデルベース法に分けられ、k-means は ( ) 法に属し、DBSCAN は ( ) 法に属する。 。
A: 分割、密度ベース。
2. 正誤
(1) ワンパス クラスタリング アルゴリズムは、任意の形状からクラスタを識別できます。( )
回答: ×
ワンパス アルゴリズムは、データをほぼ同じサイズの超球体に分割するため、非凸形状のクラスターを見つけるために使用することはできません。
(2) DBSCAN は比較的ノイズに強く、任意の形状とサイズのクラスターを識別できます。( )
答え: √
DBSCAN アルゴリズムは密度に基づいています
(3) クラスター分析では、クラスター内の類似性が高いほど、クラスター間の差異が大きくなり、クラスター効果は悪化します。( )
回答: ×
優れたクラスタリング手法では、高品質のクラスター (クラスター内類似性が高く、クラスター間類似性が低い) が生成されます。
3. 計算問題
(1) K-means アルゴリズム
アルゴリズム:
トピック:
答え:
4. 代表的なクラスタリング手法
(1) 分割法: k-means、ワンパスアルゴリズム
(2) 階層法: アグロメレーション (ボトムアップ)、分割階層クラスタリング法 (トップダウン)、CURE、BIRCH
(3) 密度ベースの法: DBSCAN
( 4) グラフベースのクラスタリングアルゴリズム: Chameleon、SNN
(5) モデルベースの手法
K 平均法の不十分さ
(1) クラスターの数は事前に与えられます
(2) 初期値の選択は非常に依存しており、アルゴリズムは局所的な最適解に陥ることがよくあります
(3) アルゴリズムはサンプルを継続的に分類および調整する必要があります
(4)ノイズ ポイントと距離はクラスターに依存し
ます (5) 非凸形状のクラスター、またはさまざまなサイズや密度のクラスターを見つけることができません
(6) 数値属性を持つデータ セットにのみ使用できます
階層的クラスタリングアルゴリズム
トップダウン型とボトムアップ型。
3 つの改良された凝集型階層クラスタリング(ボトムアップ) 手法: BIRCH、ROCK、CURE。
密度ベースのクラスタリング アルゴリズム DBSCAN
点の密度に応じて、点には次の 3 種類があります。
(1) コア点:密集領域内の点
(2) 境界点:密集領域の端にある点
(3) ノイズまたは背景点:密集領域内の点まばらな領域
直接到達可能な密度: p は q の Eps 近傍内にあります。
到達可能な密度: Eps 範囲内に接続があります。方向性に注意してください。
密度接続: p と q は両方とも、Eps と MinPts に関して O から密度に到達可能です。
DBSCAN 教科書のサンプル問題:
アルゴリズム:
トピック:
グラフベースのクラスタリング アルゴリズム Chameleon
相互接続の絶対度 EC (EC が大きいほど、相関度が高く、より多くマージする必要があります) 相互
接続の相対度 RI (RI が大きいほど、2 つのクラス間の接続は、 2 つのクラス内の接続度、より良いアース接続が可能です)
絶対気密性 S
相対気密性 RC
5. クラスタリングアルゴリズムの評価
(1) 社内品質評価基準
内部品質評価基準では、クラスタ内の平均類似度、クラスタ間の平均類似度、全体の類似度を計算することでクラスタリング効果を評価します。
例:
CH インジケーター:
CHが大きいほど(つまり、traceBの増加とtraceWの減少)、各クラスターの平均値の差が大きくなり、クラスタリング効果が高くなります。
TraceW min = 0、クラス内の各点は一致し、効果は良好です。
(2) 外部品質評価基準
外部品質評価基準は、既存の手動分類データセットに基づいて評価されます (各オブジェクトのカテゴリはすでにわかっています)。
第 5 章 相関分析
1. 空白を埋める
(1) アソシエーションルールマイニングのアルゴリズムは、① ( )、② ( ) の 2 段階に分けられます。
回答: ① 頻繁なアイテムセットを生成します。最小サポートしきい値を満たすすべてのアイテムセット、つまり頻繁なアイテムセットを検索します。
②ルールの生成:前ステップで見つかった頻出項目セットから信頼度閾値を超えるルール、つまり強いルールを抽出します。
2. 正誤
(1) アイテムセット X が頻繁に使用されるアイテムセットである場合、X のサブセットは頻繁に使用されるアイテムセットである必要があります ( )
答え: √
(2) サポートが高い項目セットは信頼性も高くなければなりません ( )
答え:×
3. 計算問題
以前のアルゴリズム:
(1) 既知の買い物かごデータは右下の表に示されています。次のタスクを完了してください。
回答: (確認した結果、2 つのアイテムセットに {パン、卵}: 1、{ビール、卵}: 1、{おむつ、卵}: 1 が含まれていないことが判明しましたが、最終結果にはほとんど影響しません。) (
2 )
支持 ({パン}->{おむつ}) = 3/5
信頼性 ({パン}->{おむつ}) = 3/4 <80%
したがって、これは強い相関規則ではありません。
4. アソシエーション分析の応用シナリオ
(1)ショッピングモールの売上データをマイニングし、商品間の関連性を発見し、ショッピングモールのプロモーションや棚配置を支援します。
(2)医療診断データのマイニング: 特定の症状と特定の病気の関係を見つけ、医師のために病気を診断することができます。
(3) Web ページ マイニング: 閲覧したさまざまな Web ページ間の興味深いリンクを明らかにします。
5. アソシエーション分析の概念
(1) アイテムセット: k 個のデータ項目を含むアイテムセットを k アイテムセットと呼びます。
(2) 頻繁に使用されるアイテムセット: アイテムセットのサポートが特定のしきい値以上である場合、そのアイテムセットは頻繁に使用されるアイテムセットと呼ばれます。(3) サポート数: 項目セットの出現数、つまり、トランザクション データ セット全体にその項目セットが含まれるトランザクションの数。(4) アソシエーション ルール: X->Y形式の意味(5) サポート:
(6) 信頼度:
(7) 強い相関ルール: 最小サポートしきい値および最小信頼しきい値より大きい相関ルール。
6、Apriori算法
アプリオリ プロパティ: 頻繁に使用される項目セットのサブセットも、頻繁に使用される項目セットである必要があります。
当然の結果: 項目セットの頻度が低い場合、そのスーパーセットも頻度が低くなります。
このアルゴリズムには、接続と枝刈りの2 つのステップが含まれます。
7. 相関分析
(1)リフト(持ち上げる)。その値が 1 より大きい場合は 2 つの間に正の相関があることを示し、1 未満の場合は負の相関があることを示し、1 に等しい場合は相関がないことを示します。
(2) 関心度係数
(3) 相関係数
(4) コサイン尺度
8. アイテムセット数の計算
1. k 個のアイテムがある場合、合計 2k-1 個のアイテムセットがあります。
2. 頻繁に出現する k 項目セットには 2k-2 個の候補相関規則があります (L->ᴓ および ᴓ->L を除く)
第 6 章 外れ値マイニング
1. 正誤
(1) オブジェクトがどのクラスターにも強く属していない場合、そのオブジェクトはクラスタリング ( ) に基づく外れ値です。
答え: √
2. 計算問題
(1) 2 次元データセットが与えられた場合、点の座標は次のとおりです。k=3 とし、k-means アルゴリズムを使用して点 p14 と p16 の外れ値係数 OF1 を見つけます。どの点が最も可能性が高いか異常点?
答え:
3. クイズ
(1) 外れ値とは何ですか? 外れ値マイニング アルゴリズムによって検出された外れ値は、実際の異常な動作に必ず対応しますか? 「はい」の場合は説明し、「いいえ」の場合は反例を挙げてください。
回答: 外れ値は、データセット内のほとんどのデータから逸脱したデータであり、人々はこれらのデータの逸脱がランダムな要因によって生成されたのではなく、別のメカニズムによって生成されたのではないかと疑うようになります。
一般に、外れ値は実際の異常な動作に対応している可能性があります。外れ値の生成メカニズムは不確実であるため、外れ値マイニングアルゴリズムによって検出された「外れ値」が実際の異常な動作に対応するかどうかは、外れ値マイニングアルゴリズムによって説明および説明されるものではなく、説明するドメインの専門家によってのみ説明できます。。
外れ値は、測定、入力エラー、システム操作エラーによって発生する場合もあれば、データの固有の特性によって決定される場合や、オブジェクトの異常な動作によって発生する場合もあります。
たとえば、-999 という年齢は、プログラムがデフォルト データを処理し、デフォルト値を設定していることが原因である可能性があります。企業のトップマネージャーの給与は一般の従業員の給与よりも大幅に高く、外れ値のデータになる可能性がありますが、妥当なデータです。住宅用電話の価格は月額 200 元未満から数千元に上昇しましたが、これは盗聴やその他の特別な理由が原因である可能性があります。どうやらクレジットカードに高額な請求が発生しているのは、カードが盗まれたことが原因である可能性があります。
4. 外れ値の原因
(1) 測定、入力ミス、システム操作ミスによるもの
(2) データの固有特性によるもの
(3) 対象物の異常な動作によるもの
5. 外れ値マイニングで取り組むべき3つの課題
6. 統計的手法
モデルと一致しないデータは外れ値として識別されます。データに関する確率分布モデルの確率値が低い場合、オブジェクトは外れ値とみなされます。
確率分布モデルは、ユーザー指定の分布パラメーターを推定することによってデータから作成されます。
品質管理図
7. 距離ベースの方法
(1) 点 x の外れ値係数: OF1 が大きいほど、点 x の外れ値が大きくなります。
教科書例:OF1の計算
8. 相対密度に基づく方法
(1) 地域の近隣密度:
(2) 相対密度: オブジェクトの密度をその近傍のオブジェクトの平均密度と比較することによって外れ値が検出されます。
教科書の例: OF3 を計算する
9. クラスタリングベースの手法
動的データ外れ値と静的データ外れ値の検出方法:
10. 外れ値マイニング手法の評価
混合マトリックス:
外れ値マイニング方法の精度を示す 2 つの指標:
(1) 検出率
(2) 誤警報率
それだけです。
終わり