HHU ビジネス データ マイニングの最終試験のレビュー

記事ディレクトリ

河海大学ビジネスインテリジェンスコース試験のポイント

マインドマップを提供してくれた Liu j と、修正と補足をしてくれた Lin yt に感謝します。

  • マインドマッピング

第1章 概要

  • 情報と知識

    • 情報
      • 特定のテクノロジーと方法を通じて、データが統合および分析され、その潜在的な法則と含意が掘り出され、得られる結果が情報となります。
      • 情報はビジネス上重要なデータです
    • 知識
      • 情報は経営上の意思決定に利用され、その意思決定に基づいて対応する事業活動が実行されると、情報は知識に変換されますが、情報を知識に変換するプロセスには、情報が必要であるだけでなく、経験を組み合わせる必要があります。そして実際的な問題を解決する意思決定者の能力。
  • ビジネスインテリジェンスのシステム構成(6つの主要コンポーネント)

    • 情報元
      • 企業内の業務システム、すなわち各事業部門の日々の業務を支える情報システム
      • 人口統計情報、競合他社の情報など、ビジネスの外部。
    • データベース
      • データを管理するには、さまざまなデータソースからのデータを抽出、変換した後、分析環境に配置する必要があります。
    • オンライン分析処理
    • データプロファイリング
    • データマイニング
    • 業績管理

第 2 章 ビジネス インテリジェンス プロセス

2.1 4 つの部分

  • 4 つのセクションにそれぞれ質問が含まれています

  • 計画

    • 計画段階の主な目標は、企業のビジネス上の重要な意思決定問題を解決するために、ビジネス インテリジェンスを実装する事業部門または事業領域を選択し、ビジネス インテリジェンス システムを使用する担当者と対応する情報を特定することです。のニーズを把握し、プロジェクトの時間、コスト、リソースを計画します。
      • 各事業部や事業領域のニーズを把握し、現時点での緊急ニーズを収集する
      • 質問 企業内のどのビジネス リンクにコストがかかりすぎていますか? どのプロセスに時間がかかりすぎていますか? 意思決定の質が高くないリンクはどれですか
  • 需要分析

    • 重要性と実装の容易さを考慮して要件を特定する
    • 重要性は 3 つの側面から測定できます
      • BI によって提供される情報の実用性の測定
      • BI の導入がビジネスにもたらす利益の測定
      • BI の導入がビジネスにどのように役立つかを測定する
    • 短期的な目標を達成しやすい
      • ビジネス インテリジェンスの実装範囲を含める必要がある
      • データの可用性の測定
  • デザイン

    • データ ウェアハウスを作成する場合は、データ ウェアハウスのモデル設計を実行します。通常、多次元データ モデルが使用されます。データマートはデータウェアハウスからデータを抽出して構築できます
    • データ ウェアハウスを構築せずに、ビジネス部門向けに直接データ マートを設計および実装することも可能です。
    • 問題を解決するために OLAP を実装する場合は、多次元分析の集計演算タイプを設計する必要があります
    • データマイニングテクノロジーを使用したい場合は、特定のアルゴリズムを選択する必要があります
  • 成し遂げる

    • 実装段階では、ソース データを抽出し、データ ウェアハウスおよび (または) データ マートを構築するためのETLツールを選択します。
    • データ ウェアハウスまたはデータ マート内のデータについては、拡張クエリ、レポート ツール、オンライン分析および処理ツール、データ マイニング システム、エンタープライズ パフォーマンス管理ツールなどを含む、対応するクエリまたは分析ツールを選択して適用します。
    • システムを具体的に適用する前に、システムのデータ読み込みとアプリケーションのテストを完了し、システムのアクセス制御とセキュリティ管理方法を設計する必要があります。

2.2 データウェアハウスとデータベース

  • リレーションシップは 2 つの領域のデータ ウェアハウスの大部分を表します

    • データはビジネス システムのデータベースから取得されます
    • 現在、ほとんどのデータ ウェアハウスはデータベース システムによって管理されています。
  • 相違点:構築の目的、管理するデータ、管理方法が全て異なる

    • データベースは主に企業の日々の業務運営を実現し、業務運営の効率を向上させるために使用され、データウェアハウスの構築は主に複数のデータソースからのデータを統合し、これらのデータは最終的に分析に使用されます。
    • 通常、データベースには現在のデータのみが含まれ、データ ストレージには可能な限り冗長性が回避され、データ編成はアプリケーションによって駆動されるビジネス プロセスに関与するデータに従って実装されます。データウェアハウス内のデータはテーマごとに整理されており、あるテーマのデータはすべて統合されており、データには冗長性が存在します
  • 相違点:構築の目的、管理するデータ、管理方法が全て異なる

    • データベース内のデータは、挿入、削除、変更など、頻繁に更新する必要があり、トランザクション操作の分離を保証するために複雑な同時実行制御メカニズムが必要です。
    • データ ウェアハウス内のデータは、最初のインポートとバッチ データ クリーンアップ操作を除き、主に分析処理に使用され、データの更新操作が必要になることはほとんどありません。
    • データベース内のデータ更新操作の適時性は非常に高く、トランザクションのスループット レートは非常に重要な指標です。ただし、データ ウェアハウスのデータ量は非常に大きく、分析には通常、大量のデータが含まれるため、適時性は最も重要ではありません。データ ウェアハウスのデータ品質は非常に重要であり、データが正しくないと、誤った分析結果が得られます。

2.3 オンライン分析処理とオンライントランザクション処理

オンライン トランザクション処理 (OLTP) は OLTP と呼ばれ、データベース管理システムの主要機能であり、企業内のさまざまな部門の日常業務を完了するために使用されます。

オンライン分析処理 (OLAP) はデータ ウェアハウス システムの主なアプリケーションであり、データの多次元分析を提供して意思決定プロセスをサポートします。

第 3 章 相関分析

3.1 頻出パターンと相関ルール

1. 頻出パターンの概念

データセットによく現れるパターン(部分列、部分構造、サブセットなど)(出現頻度がminsup以上、minsupは50%など人為的に設定されている)を売上分析に適用できます。 、ウェブログ分析、DNA 配列分析。

2. 相関ルールの概念

X が表示されると、Y も表示されます。X->Y には通常 2 つのデータがあり、1 つは XY が同時に発生する頻度、もう 1 つは X が発生したときに Y が発生する条件付き確率です。

リンク 1:データ マイニング エッセイ (1) 頻繁に使用されるパターン マイニングと相関ルール マイニングとアプリオリ アルゴリズム (Python 実装)

リンク 2:よくあるパターンと相関ルール

時間 取引
T1 卵、歯磨き粉、ステーキ、牛乳、パン
T2 卵、亜麻仁、オリーブオイル、牛乳、パン
T3 卵、パフ、クリーム、牛乳、パン
T4 卵、薄力粉、粉砂糖、バター、牛乳

たとえば、卵乳 $A={egg,milk} , ,,パン B={パン} $。

それで

サポート ( A ⇒ B ) = P ( A ∪ B ) = 3 4 = 0.75 サポート(A⇒B)=P(A∪B)=\frac{3}{4}=0.75サポート( A _ _ _ _B =P ( AB =43=0.75

DDD のトランザクションには{卵、牛乳、パン} \{卵、牛乳、パン\} が{ 卵、牛乳、パン}のエントリはT1、T2、T3 T1、T2、T3T 1 T 2 T 3は合計 3 つなので、分子は 3 になります。

信頼度 ( A ⇒ B ) = P ( A ∪ B ) P ( A ) = 3 4 = 0.75 信頼度(A⇒B)=\frac{P(A∪B)}{P(A)}=\frac{3 {4}=0.75自信持っA _ _ _ _B =P ( A )P ( A B )=43=0.75

AはT1~T4に出現するので分母は4、分子は上記と同じ

明らかに、計算された値に対して、A と B が相関ルールであるかどうかを判断するために人為的なしきい値を設定する必要があります。2 つのしきい値ssを設定するとします。scc次に、支持 ( A ⇒ B ) ≥ s ∧ 信頼 ( A ⇒ B ) ≥ c の場合、支持 (A ⇒ B) ≥ s ∧ 信頼 (A ⇒ B) ≥ cサポート( A _ _ _ _B s自信持っA _ _ _ _B c 、 A ⇒ BA ⇒ Bと言いますBは相関ルールです。その本当の意味は、卵、牛乳{卵、牛乳}ミルクはパン {bread}を買う可能性がありますパン

これは相関ルール マイニングの最も単純な方法であるため、相関ルール マイニングの手順は 2 つのステップに要約できます。

  1. 考えられるすべての頻繁な項目セットを検索します。頻繁な項目セットは、トランザクション セット内のサポートの出現頻度が設定されたしきい値 min_sup より大きい項目セットとして定義されます。
  2. 見つかった頻繁なアイテムセットに強い関連ルールを生成します。強い関連性ルールに準拠する頻繁に使用される項目セットのペアは、そのサポートと信頼度が両方とも事前に設定されたしきい値よりも大きいという要件を満たす必要があります。
  • 例えば

  • ここに小さな間違いがあります。con(A->C) は ac/a=1/3 である必要があります。

3.2 相関測定

一般に、相関ルールを測定するために 3 つの指標を使用します。これらの 3 つの指標とは、サポート、信頼、促進です。

Support(サポート):AとBの両方を含むトランザクションが全トランザクションに占める割合を示します。A トランザクションの使用割合を表すために P(A) が使用される場合、Support=P(A&B)

コンフィデンス(信頼度):Aを含む取引とBを含む取引の割合、つまり、Aを含む取引に対するAとBの両方を含む取引の割合を示します。計算式: 信頼度=P(A&B)/P(A)

リフト(リフト):「Aを含むトランザクションのうち、トランザクションBも含む割合」と「Bを含むトランザクションの割合」の比率を示します。計算式:リフト=(P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)。

リフトは相関ルールにおける A と B の間の相関関係を反映します。リフト > 1 以上は正の相関が高いことを示し、リフト < 1 以下は負の相関が高いことを示し、リフト = 1 は相関の性別がないことを示します。

例えば:

スーパーマーケットの注文 10,000 件 (トランザクション 10,000 件)、そのうち 6,000 件は Sanyuan 牛乳の購入 (トランザクション A)、7,500 件は Yili 牛乳の購入 (トランザクション B) で、4,000 件には両方が含まれます。

次に、上記のサポートの計算方法により、次のように計算できます。

**三元乳業(A取引)と伊利乳業(B取引)のサポート度は、**P(A&B)=4000/10000=0.4です。

**三元乳業(A取引)と伊利乳業(B取引)の信頼度は次のとおりです。 **Bも含まれる取引のうち、Aを含む取引の割合は、Aを含む取引の勘定科目となります。4000/6000=0.67 ということは、三元牛乳を購入した後、0.67 人のユーザーが伊利牛乳を購入することになります。

**三元乳 (トランザクション A) に対する伊利牛乳 (トランザクション B) の信頼度は次のとおりです。 **B を含むトランザクションのうち、A も含むトランザクションの割合が、B を含むトランザクションの割合を占めます。4000/7500=0.53 ということは、三元牛乳を購入した後、0.53 人のユーザーが伊利牛乳を購入することになります。

上では、トランザクション A のトランザクション B に対する信頼水準が 0.67 であることがわかり、これは非常に高いように見えますが、実際には誤解を招きます。

条件を何も設定しない場合、トランザクション B の発生率は 0.75 ですが、トランザクション A とトランザクション B の同時発生率は 0.67 であるため、トランザクション A の条件が設定されている場合、トランザクション B の発生率は 0.67 になります。代わりに減少します。これは、A トランザクションと B トランザクションが排他的であることを示しています。

リフトの概念は次のとおりです。

0.67/0.75の比率を昇格度、つまりP(B|A)/P(B)とし、これをA条件からBトランザクションへの昇格度、つまりAを前提とします。 B が出現する確率はいくらですか促進度 = 1 の場合、A と B には何の関連性もないことを意味します。 < 1 の場合、A トランザクションと B トランザクションは排他的であることを意味します。> 1 では、A と B は排他的であると考えます。 B は関連していますが、特定のアプリケーションでは、リフト度 > 3 は認識に値する関連性と見なすことができると考えられます。

リフト

実際、sup が特定のアイテムの出現頻度を表すために使用される場合 (これは頻度ではないことに注意してください。上の図の sup は頻度です)、n はアイテムの総数を表します。たとえば、ここでは n です。 lift ( A ⇒ B ) = sup ( AB ) ∗ nsup ( A ) sup ( B )lift(A⇒B)=\frac{sup(AB)*n}{sup(A)sup(B)}リフト( A _ _ _B =サップ( A )サップ( B ) _ _ _ _s up ( A B ) n _

余弦

ルート記号は以下で開かれているため、n を計算する必要はありません。直接sup ( AB ) sup ( A ) sup ( B ) \frac{sup(AB)}{\sqrt{sup(A)sup(B)}}サップ( A )サップ( B ) _ _ _ _ スープ( A B ) _ _、ここでの sup は出現回数であることをもう一度思い出してください。

第 4 章 分類

  • 分類: 既存のカテゴリのオブジェクトの特徴を要約し、未知のカテゴリのオブジェクトのカテゴリを予測するプロセス
  • 分類子
  • トレーニングデータセット
    • クラス ラベル属性。各値はクラス (クラス ラベル) と呼ばれ、ラベル y になります。
    • オブジェクトの特定の特性またはプロパティを記述するために使用される属性は、特徴 x です。
  • データセットのテスト

4.1 デシジョンツリー

  • ビルドプロセス

  • 分割属性と分割条件の選択
    • 分割属性の選択では、通常、クラスの純度の尺度を基準として利用します。
    • 2種類の情報エントロピーとジニ指数

4.1.1 情報エントロピーの概念

  • 情報エントロピーの大きさは、物事を理解し続けるために必要な情報の大きさと考えることができます。

4.1.2 対象変数の情報エントロピーの計算

  • 全文はこの例で表されます

天気はバスケットボールをするかどうかを予測します。次のデータがあるとします。

天気 バスケットボールをする
晴れ はい
曇り はい
雨の はい
晴れ はい
晴れ いいえ
曇り はい
雨の いいえ
雨の いいえ
晴れ はい

ここで、「天気」は特徴、「バスケットボールをする」はターゲット変数です。「天気」をノードとしてデータを分割したときの情報エントロピーを計算したいと考えています。

まず、ターゲット変数「Play Basketball」のエントロピーを次の式で計算します。

H ( X ) = − ∑ P ( x ) log ⁡ 2 P ( x ) H(X) = - \sum P(x) \log_2 P(x)H ( X )=P ( × )ログ_2P ( × )

この例では、「はい」が 6 つ、「いいえ」が 3 つあるため、Play Basketball のエントロピーは次のようになります。

H (バスケットボールをする) = − [ ( 6 / 9 ) ∗ log 2 ( 6 / 9 ) + ( 3 / 9 ) ∗ log 2 ( 3 / 9 ) ] H(バスケットボールをする) = - [(6/9) )*log2(6/9) + (3/9)*log2(3/9)]H (バスケットボール遊ぶ) _ _ _ _ _ _ _ _=[( 6/9 )ログ2 ( 6/9 ) _ _+( 3/9 )l o g 2 ( 3/9 )]

$ H(バスケットボールをプレイ) ≈ 0.918$ と計算できます。

補足: 情報エントロピーは、データセットのカオスまたは不確実性の程度の尺度です。データセット内のすべてのデータが同じカテゴリに属する​​場合、不確実性は最も小さくなり、このときの情報エントロピーは 0 になります。

  • すべての行が同じカテゴリに属している場合、たとえばすべてが「はい」の場合、情報エントロピーの式に従って次の情報を取得できます。

エントロピー = − ∑ P ( x ) log ⁡ 2 P ( x ) = − [ 1 ∗ log 2 ( 1 ) + 0 ] = 0 エントロピー = - \sum P(x) \log_2 P(x) = - [1 *log2(1) + 0] = 0エントロピー_ _ _ _ _=P ( × )ログ_2P ( × )=[ 1l o g 2 ( 1 )+0 ]=0

ここでP ( x ) P(x)P ( x )は、特定のクラスの確率です。

  • 2つのカテゴリが均等に分布している場合、たとえば「はい」と「いいえ」がそれぞれ半分を占める場合、つまり確率が0.5の場合、不確実性が最も大きくなり、このときの情報エントロピーは1となります。

2 つのカテゴリが均等に分布している場合、情報エントロピーの公式に従って次の情報を得ることができます。

エントロピー = − ∑ P ( x ) log ⁡ 2 P ( x ) = − [ 0.5 ∗ log 2 ( 0.5 ) + 0.5 ∗ log 2 ( 0.5 ) ] = 1 エントロピー = - \sum P(x) \log_2 P( x) = - [0.5*log2(0.5) + 0.5*log2(0.5)] = 1エントロピー_ _ _ _ _=P ( × )ログ_2P ( × )=[ 0.5l o g 2 ( 0.5 )+0.5l o g 2 ( 0.5 )]=1

  • したがって、決定木を構築するときの目標は、データをできるだけ純粋な (つまり、エントロピーが低い) サブセットに分割する方法を見つけることです。

4.1.3 条件付きエントロピーの計算

上記のターゲット変数の情報エントロピーを計算した後、各特徴の条件付きエントロピーを計算する必要があります。条件付きエントロピーの式は次のとおりです。

H ( Y ∣ X ) = ∑ P ( x ) H ( Y ∣ x ) H(Y|X) = \sum P(x) H(Y|x)H ( Y X )=P ( x ) H ( Y x )

ここでP ( x ) P(x)P ( x )は特徴 X の確率分布です、H ( Y ∣ x ) H(Y|x)H ( Y x )は、X が与えられた場合の Y のエントロピーです。

例のデータをカウントする

天気 バスケットボールをする = はい バスケットボールをする = いいえ
晴れ 3 1
曇り 2 0
雨の 1 2

たとえば、「天気」をノードとしてデータを分割すると、

  • 「Sunny」の条件付きエントロピーは次のとおりです。

H ( バスケットボールをする ∣ 天気 = 晴れ ) = − [ ( 2 / 3 ) ∗ log 2 ( 2 / 3 ) + ( 1 / 3 ) ∗ log 2 ( 1 / 3 ) ] ≈ 0.811 H(バスケットボールをする| 天気=晴れ) = - [(2/3)*log2(2/3) + (1/3)*log2(1/3)]≈ 0.811H (バスケットボールボールプレーする天気_ _ _ _ _ _ _ _ _ _=サニー) _ _ _=[( 2/3 )l o g 2 ( 2/3 )+( 1/3 )l o g 2 ( 1/3 )]0.811

  • 「曇り」の天気の場合:

H ( バスケットボールをする ∣ 天気 = 曇り ) = − [ 1 ∗ log 2 ( 1 ) + 0 ] = 0 H(バスケットボールをする | 天気 = 曇り) = - [1*log2(1) + 0] = 0H (バスケットボールボールプレーする天気_ _ _ _ _ _ _ _ _ _=超過) _ _ _ _ _=[ 1l o g 2 ( 1 )+0 ]=0

  • 「雨天」の場合:

H ( バスケットボールをする ∣ 天気 = 雨 ) = − [ ( 1 / 3 ) ∗ log 2 ( 1 / 3 ) + ( 2 / 3 ) ∗ log 2 ( 2 / 3 ) ] ≈ 0.918 H(バスケットボールをする| 天気=雨) = - [(1/3)*log2(1/3) + (2/3)*log2(2/3)] ≈ 0.918H (バスケットボールボールプレーする天気_ _ _ _ _ _ _ _ _ _=_=[( 1/3 )l o g 2 ( 1/3 )+( 2/3 )l o g 2 ( 2/3 )]0.918

  • 次に、「天気」をノードとしてデータを分割するときの条件付きエントロピーを計算する必要があります。これには、各天気の条件付きエントロピーを天気の確率と組み合わせて合計する必要があります (この場合、天気 = 晴れ、曇り、雨の確率)。

H (バスケットボールのプレー ∣ 天気 ) = P (晴れ ) ∗ H (バスケットボールのプレー ∣ 天気 = 晴れ ) + P (曇り ) ∗ H (バスケットボールのプレー ∣ 天気 = 晴れ ) + P ( 雨 ) ∗ H ( バスケットボールをする ∣ 天気 = 雨 ) = ( 4 / 9 ) ∗ 0.811 + ( 2 / 9 ) ∗ 0 + ( 3 / 9 ) ∗ 0.918 ≈ 0.764 H(バスケットボールをする| 天気) = P(晴れ) * H(バスケットボールをする | 天気=晴れ) + P(曇り) * H(バスケットボールをする | 天気=曇り) + P(雨) * H(バスケットボールをする | 天気=雨) = ( 4/9)*0.811 + (2/9)*0 + (3/9)*0.918 ≈ 0.764H (バスケットボールボールプレーする天候) _ _ _ _ _ _ _ _ _ _=P (サニー) _ _ _H (バスケットボールボールプレーする天気_ _ _ _ _ _ _ _ _ _=サニー) _ _ _+P (オーバーキャスト) _ _ _ _H (バスケットボールボールプレーする天気_ _ _ _ _ _ _ _ _ _=超過) _ _ _ _ _+P (y ) _H (バスケットボールボールプレーする天気_ _ _ _ _ _ _ _ _ _=_=( 4/9 )0.811+( 2/9 )0+( 3/9 )0.9180.764

4.1.4 情報の取得

最後に、ターゲット変数のエントロピーから条件付きエントロピーを減算して、「天気」をノードとしてデータを分割したときの情報ゲインを取得できます。情報ゲインが大きいほど、この特徴をノードとして使用したデータ分割が適切であることになります。

ゲイン (天候) = H (バスケットボールのプレイ) − H (バスケットボールのプレイ ∣ 天候) = 0.918 − 0.764 = 0.154 ゲイン(天候) = H(バスケットボールのプレイ) - H(バスケットボールのプレイ | 天候) = 0.918 - 0.764 = 0.154ゲイン(天候) _ _ _ _ _ _=H (バスケットボール遊ぶ) _ _ _ _ _ _ _ _H (バスケットボールボールプレーする天候) _ _ _ _ _ _ _ _ _ _=0.9180.764=0.154

この結果は、「Weather」を分割ノードとして使用すると 0.154 の情報利得が得られることを示しており、これは分割ノードとして「Weather」を選択するかどうかを決定するのに役立ちます。

4.1.5 補足

  • 疑問を知ることから、まず情報エントロピーとは何かを理解する必要があります。

まず、2 種類の情報を区別します。つまり、物事を理解するために必要な情報量と、既知の情報によって提供される情報量です。情報エントロピーは、物事を解明し続けるために必要な情報量と同じ方向に変化し、情報エントロピーは、既知の情報によって提供される情報量とは逆方向に変化します。

情報エントロピーが大きければ大きいほど、物事の不確実性は大きくなります。そのため、物事を解明し続けるために必要な情報量はより多くなります。これは、以前に知られていた情報や以前に知られていたデータが提供する情報が少なくなることを意味します。

情報エントロピーが小さいほど、物事の不確実性が小さくなるため、物事を解明し続けるために必要な情報量が少なくなり、既知の情報や既知のデータによって提供される情報量が多くなります。

  • 確率変数の情報エントロピーが大きいほど、その値 (内容) が提供できる情報量は大きくなり、その値を知る前に得られる情報量は少なくなります。

4.1.6 属性の種類と分割条件

バスケットボール (警戒) をプレイする簡単な例を上に示しました。おそらく私もそう感じています。上の例には 2 つの列しかなく、1 つの列は y (ラベル)、もう 1 つの列は x (特徴) であるため、次のようになります。決定木の選択プロセスが理解できないため、次の例を使用してさらに詳しく説明します。

  • この例では
    • データセット全体の情報エントロピーは高級車によって計算されます
    • 定性データの計算とは、分類属性x(ここでは結婚、性別、年齢など)、つまり分類前の情報エントロピーに応じた計算を指します。
    • 定量的データの計算とは、数値的な属性x(ここでは年収など)などを計算し、xを異なる分類条件に分けてみることです。
    • 情報利得 = 分割前の情報エントロピー - 分割後の情報エントロピー
    • サイズを比較して、情報利得が大きいほど(情報エントロピーが減少するほど)、それが選択する分割条件になります。

定性的(試験の焦点)

  • ヒント: たとえば、ここでは結婚によって計算されます。つまり、まず独身、既婚、離婚の 3 つの状況に分けられ、その後、それぞれの状況が y (高級車かどうか) に応じて計算されます。

定量的

4.2 ナイーブベイズ分類

P41

スムージングは​​カテゴリごとに +1 です

4.3 K 最近傍分類

  • 積極的な手法

    • 決定木、ベイジアン
  • 遅延メソッド

    • K最近傍法
  • 予測サンプルの場合、トレーニング データ セットから最も類似した K 個のサンプルを見つけ、これらの K サンプルのカテゴリを使用してこのサンプルのカテゴリを決定します。

  • Kはユーザーが指定します。類似サンプルの選択方法は、サンプル間の類似性を測定する方法によって異なります。各種の類似性測定方法の紹介については、第 6 章を参照してください。

  • テスト サンプルまでの距離が最小の K 個のサンプルを選択した後、投票方法 (投票) を使用して各カテゴリのサンプル数を数え、K 個のカテゴリの大部分をテスト サンプルに割り当てることができます。

4.4 分類パフォーマンスの測定

4.4.1 データセットの分割

  • 差し出す

    • トレーニング データ セットとテスト データ セットの比率を人為的に決定します。一般的に使用される比率は 2:1 と 1:1 です。
  • 相互検証方法(相互検証)

    • 各サンプルはトレーニング セットまたはテスト セットに交互に使用されます。

    • n 分割交差検証 n 分割交差検証

    • 一般的に使用される: 10 分割相互検証

      • データセットは 10 の部分に分割され、毎回 9 点をトレーニング セットとして、1 つの部分をテスト セットとして使用します。

      • まず、データセットを 10 個の等しい部分 (それぞれ 10 個のサンプル) に分割します。次に、10 ラウンドのトレーニングとテストを実行します。各ラウンドでは、9 つ​​のデータ (90 サンプル) を使用してモデルをトレーニングし、残りの 1 つのデータ (10 サンプル) を使用してモデルのパフォーマンスをテストします。このようにして、各データはテスト セットとして使用される機会が 1 回あり、残りの時間はトレーニング セットとして使用されます。

        最終的には 10 個のテストスコアが得られ、通常はそれらの平均を最終的なパフォーマンス指標として計算します。このアプローチの利点は、すべてのデータをトレーニングとテストに使用し、各サンプルがテストに 1 回だけ使用されることです。

    • リーブワンアウト N 分割交差検証

      • Leave-one-out は、n 分割交差検証の特殊なケースです。ここで、n はサンプルの総数に等しいですつまり、100 個のサンプルがある場合は、100 回のトレーニングとテストを実行します。各ラウンドでは、トレーニングに 99 個のサンプルを使用し、残りの 1 個をテストに使用します。

        このアプローチでは偏りの少ない推定値が得られますが、特にサンプル サイズが非常に大きい場合、計算コストが高くなります。ただし、サンプル サイズが比較的小さい場合は、すべてのデータを有効に活用できるため、このアプローチが良い選択となる可能性があります。

  • ブートストラップ

    • ブートストラップでは、置換を伴うサンプリングを使用してトレーニング データセットを構築します。

4.4.2 メトリクス

4.4.3 異なる分類モデルの比較

  • ゲインチャート (ゲインチャート)

    • ゲイン プロットは、モデル予測の累積効果を示す視覚化ツールです。ゲイン グラフでは、X 軸は (すべて陽性と予測されるサンプルからの) サンプルの割合を表し、Y 軸は陽性サンプルの割合を表します。
    • ゲイン グラフの開始点は (0,0) で、終了点は (1,1) です。モデルの予測が完全に正確であれば、グラフは右上がりのステップのグラフになり、すべての真の例が肯定的であると予測された後にステップが発生します。モデルの予測が有益でない場合 (つまり、ランダムな推測など)、グラフは (0,0) から (1,1) までの対角線になります。
    • ゲイン プロットは、特に予測の精度よりも陽性サンプルのランキングの予測に関心がある場合に、モデルがランキングをどの程度正確に予測するかを評価する良い方法です。
  • ROC曲線

    • Y軸:陽性サンプル総数に占めるサンプルに含まれる陽性サンプル数の割合、つまり真率TP
    • X 軸: 検査サンプル内の陰性サンプルの合計に対する、選択されたサンプル内の陰性サンプルの割合、つまり偽陽性率 FP
    • ROC 曲線の開始点は (0,0) で、終了点は (1,1) です。モデルの予測が完全に正確である場合、ROC 曲線はまず (0,1) まで上昇し、次に右方向に (1,1) まで上昇します。モデルの予測が有益でない場合、ROC 曲線は (0,0) から (1,1) までの対角線になります。
    • ROC 曲線下の面積 (ROC 曲線下の面積、AUC) は、モデルのパフォーマンスを測定する指標として使用できます。AUC 値の範囲は 0.5 (予測力なし) から 1 (完全な予測) です。

第5章 数値予測

5.1 モデルのチェック

5.2 非線形回帰

非線形回帰を線形回帰に変換する方法

  1. モデルy = axby=ax^bの場合y=× _bは、対数をとると次のようになります。log ⁡ y = log ⁡ a + b log ⁡ x \log y = \log a + b \log xログ_y=ログ_ある+bログ_×

  2. モデルy = aebxy=ae^{bx}の場合y=、えb xを対数化すると、次のようになります:ln ⁡ y = ln ⁡ a + bx \ln y = \ln a + bxlny=lnある+b x

  3. モデルy = a + b log ⁡ xy=a+b \log xの場合y=ある+bログ_x 、 X = log ⁡ x X=\log xとするとバツ=ログ_xの場合、モデルは次のようになります:y = a + b X y = a + bXy=ある+b X

これらは、対数変換または変数置換によって線形モデルに変換できる一般的な非線形モデルです。この利点は、理論的にも実際的にも線形モデルの方が扱いやすいことです。

5.3 回帰木とモデルツリー

SDR (Standard Deviation Reduction)、情報エントロピー、および情報ゲイン (Information Gain) はすべて、デシジョン ツリーで分割属性を選択するために使用される基準ですが、適用される問題と具体的な計算方法が異なります。

  1. SDR(標準偏差低減)

    SDR は、回帰問題のデシジョン ツリーで使用されます。つまり、ターゲット変数は連続値です。ターゲット属性値の標準偏差に基づいて分割属性を選択します分割によってサブデータセットの標準偏差が大幅に低下する可能性がある場合、その分割はおそらく適切です。標準偏差はデータセット内の値の分散度を測定する指標であり、標準偏差が小さいほどデータが集中していることを示します。

    SDR の計算式は通常次のとおりです。SDR = sd ( D ) − ( ∣ D 1 ∣ / ∣ D ∣ ) ∗ sd ( D 1 ) − ( ∣ D 2 ∣ / ∣ D ∣ ) ∗ sd ( D 2 ) SDR = sd (D) - (|D1|/|D|)*sd(D1) - (|D2|/|D|)*sd(D2)SDR _ _=s d ( D )( D 1∣/∣ D )s d ( D 1 )( D 2∣/∣ D )s d ( D 2 )ここで、sd ( D ) sd(D)s d ( D )は、データセット D 内のターゲット属性値の標準偏差を表します。∣ D ∣ |D|D ∣ は、データセット D に含まれるサンプルの数を表します。

  2. 情報エントロピーと情報利得 (Information Gain) :

    情報エントロピーと情報ゲインは、分類問題の決定木で使用されます。つまり、ターゲット変数は離散的です。情報エントロピーはデータの不確実性の尺度であり、情報エントロピーが大きいほど、データの不確実性も大きくなります。情報利得とは、分類問題における属性の重要性を判断する指標であり、情報利得が大きいほど、その属性の分類への寄与が大きくなる。

    情報ゲインの計算式は次のとおりです。ゲイン = エントロピー ( D ) − ∑ ( ∣ D i ∣ / ∣ D ∣ ) ∗ エントロピー ( D i ) ゲイン = エントロピー(D) - ∑(|Di|/|D| )*エントロピー(Di)ゲイン_=エントロピー( D ) _ _ _ _ _( D i ∣/∣ D )エントロピー( D i )一方エントロピー ( D )エントロピー( D )En tro p y ( D )データセット D の情報エントロピーです。 D i ∣ / ∣ D ∣ |Di|/|D|D i ∣/∣ D ∣ は、 D におけるサブデータセット Di の割合です。

一般に、SDR と情報ゲインはどちらも属性分割の有効性を評価する指標ですが、SDR は主に回帰問題に使用され、情報ゲインは主に分類問題に使用されます彼らはすべて、分割属性としての不確実性を最小限に抑えることができる属性を見つけようとします。

第6章 クラスタリング

6.1 クラスタリング手法の分類

  • パーティショニングのアプローチ:
    • K-means、k-medoids、その他の方法。
  • 階層的アプローチ:
    • 凝集型階層クラスタリングと分割型階層クラスタリング
    • Diana、Agnes、BIRCH、ROCK、CAMELEONなど。
  • 密度ベースのアプローチ
    • DBSCAN、OPTICS、DenClueなど
  • モデルベースのアプローチ (モデルベース)
    • EM、SOM、COBWEBなど

6.2 類似性の測定方法

距離に基づく類似性の測定

コサイン類似度

相関関係に基づく類似性の測定

ジャカード係数

異種属性の類似性の包括的な尺度

  • Nominal は「名前に関する」という意味で、nominal 属性の値は何らかの記号や物の名前です。

6.3 K-平均法クラスタリング

  • 重心の計算

6 つの点 (1,1)、(1,2)、(2,1)、(5,4)、(5,5)、および (6,5) を含む 2D データセットがあるとします。これらの点を 2 つのカテゴリにクラスタリングする場合、K 平均法クラスタリングの基本プロセスは次のとおりです。

  1. 初期化: まず、K (ここでは K=2) の初期中心 (重心と呼ばれます) を選択する必要があります。初期重心を選択するにはさまざまな方法がありますが、簡単な方法の 1 つは、データセットから K 個のサンプルをランダムに選択することです。最初の 2 つの重心として (1,1) と (5,4) を選択するとします。

  2. 最も近い重心に割り当てる: 次に、各データ ポイントを最も近い重心に割り当てます。この「最も近い」は、何らかの距離測定基準 (通常はユークリッド距離) に従って決定されます。この例では、(1,1)、(1,2)、および (2,1) が最初の重心に割り当てられ、(5,4)、(5,5)、および (6,5) が割り当てられます。 2 番目の重心に割り当てられます。

  3. 重心を再計算する: 次に、クラスごとに重心を再計算する必要があります。重心は、それに含まれるすべての点の平均です。この例では、最初のクラスの新しい重心は ((1+1+2)/3, (1+2+1)/3) = (1.33, 1.33) で、2 番目のクラスの新しい重心は ( ( 5+5+6)/3、(4+5+5)/3) = (5.33, 4.67)。

  4. ステップ 2 と 3 を繰り返す: 重心が大幅に変化しなくなるまで、または事前に設定された最大反復回数に達するまで、ステップ 2 と 3 を繰り返します。この場合、重心はもう変化していないため、アルゴリズムはここで停止します。

最終的な結果は、(1,1)、(1,2)、および (2,1) が 1 つのカテゴリにクラスター化され、(5,4)、(5,5)、および (6,5) が別のカテゴリーにクラスター化されます。親切。K 平均法クラスタリングの結果は、初期重心の選択の影響を受ける可能性があり、局所最適に陥る可能性があるため、実際には最良の結果を選択するためにアルゴリズムを複数回実行する必要がある場合があります。

6.4 各種クラスタリング手法の特徴の比較

1. K 平均法 (K 平均法):

アドバンテージ:

  • 計算速度が速く、大規模なデータセットの効率が高くなります。
  • 出力がわかりやすく、クラスタリング効果も適度です。

欠点:

  • クラスターの数 K は事前に設定する必要がありますが、多くの場合これが困難です。
  • 初期重心の選択に敏感であり、局所最適に陥る可能性があります。
  • 非球形 (非凸型) データ構造や、サイズの差が大きいクラスターの場合はうまく機能しません。
  • ノイズや異常値に敏感です。

該当するシーン:

  • 連続数値データには適していますが、カテゴリデータには適していません (拡張には k モードまたは k プロトタイプを使用します)。
  • データの量が多く、データの次元が比較的低い場合にパフォーマンスが向上します。

2. 階層的クラスタリング:

アドバンテージ:

  • クラスターの数を事前に設定する必要はありません。
  • 結果として得られる階層構造は、階層データに適したさまざまなレベルで分析できます。
  • データ量が特に多くない場合、K 平均法よりも効果が優れていることがよくあります。

欠点:

  • 計算の複雑さが高く、大規模なデータセットを扱うのは困難です。
  • サンプルが特定のクラスに分類されると、それを変更することはできないため、クラスタリング効果が限定される可能性があります。
  • ノイズや異常値に敏感です。

該当するシーン:

  • データの階層構造を取得する必要がある場合。
  • データセットが比較的小さく、重要な階層がある場合。

補足: 計算クラスタ間の類似性の尺度

  1. 最小距離 (minimum distance)、つまりシングルリンク シングルリンク: 2 つのクラスターからのノード間の最小距離に基づいて、2 つのクラスターの類似性を測定し、
  2. 最大距離 (最大距離)、つまりフルリンク完全リンク: 2 つのクラスターからのノード間の最大距離に基づいて、2 つのクラスターの類似性を測定します。
  3. 平均距離 (平均距離)、つまりリンク シングルリンク: 2 つのクラスターからのノード間の平均距離に基づいて、2 つのクラスターの類似性を測定します。
  4. 平均距離 (平均距離)、つまりリンク シングルリンク: 2 つのクラスターの重心間の距離を計算し、2 つのクラスターの類似性を測定します。

3. DBSCAN (ノイズを含むアプリケーションの密度ベースの空間クラスタリング):

アドバンテージ:

  • クラスターの数を事前に設定する必要はありません。
  • 任意の形状のクラスター構造を発見できます。
  • ノイズポイントを特定する機能があります。

欠点:

  • 密度が均一でないデータセットの場合、適切なパラメータ (密度しきい値など) を見つけるのが難しい場合があります。
  • 高次元データに対するクラスタリング効果は、通常、良好ではありません。

該当するシーン:

  • データセット内のクラスターが複雑な形状をとる場合。

  • データセット内にノイズポイントまたは外れ値がある場合。

  • データセットのサイズと密度が比較的中程度で、データの次元が特に高くない場合。

  • クラスタリング効果の測定方法

    • Cohesion (結合力): クラスター内の各オブジェクトの親密さを測定します。

    • Separation (分離): クラスター間のオブジェクトの非類似度を測定します。

第 8 章 データの前処理

8.1 データの正規化

  • データの正規化は標準化とも呼ばれます
    • 最小値と最大値の正規化
    • Zスコア
      • Z = ( X − μ ) / σ Z = (X - μ) / σZ=( Xm ) / p

8.2 データの離散化

  • 等距離ビニング、等周波数ビニング
  • エントロピーベースの離散化
    • ビニング離散化は教師なし離散化手法です
    • エントロピーベースの離散化手法は、一般的に使用される教師あり離散化手法です。
    • 情報エントロピーの値が小さいほど、クラス分布はより純粋になり、その逆も同様です。
  • 離散化手法 ChiMerge
    • エントロピーベースのメソッドがトップダウンの分割メソッドである場合、ChiMerge はボトムアップのマージメソッドです。
    • ChiMerge は、各値が小さな区間であることから始まり、隣接する区間を連続的にマージして大きな区間を形成する統計的カイ二乗検定に基づいて実現されています。

ChiMerge は、連続変数を離散変数に変換するためのカイ二乗統計量に基づく教師あり離散化手法です。ChiMerge 法の基本原理は、連続変数の範囲を一連の互いに素な区間に分割し、同じ区間内の値に対応するターゲット変数の分布が可能な限り一貫性を保つようにすることです。異なる間隔に対応する変数は可能な限り異なります。

ChiMerge メソッドの基本的な手順は次のとおりです。

  1. 初期化: 連続属性の各値を個別の間隔として扱います。

  2. 隣接する区間の各ペアのカイ二乗値を計算します。

  3. 隣接する区間を最小のカイ二乗値でマージします。これら 2 つの区間をマージしても、ターゲット変数の分布は大きく変わりません。

  4. 隣接するすべての間隔のカイ二乗値が事前に設定されたしきい値より大きくなるか、事前に設定された間隔数に達するまで、ステップ 2 と 3 を繰り返します。

以下に簡単な例を示します。次のデータがあるとします。

クラス
23 +
45 -
56 +
60 -
33 +
48 -
50 -
38 +

ChiMerge メソッドを使用して Age を離散化したいと考えており、Class がターゲット変数です。

カイ二乗値を計算する手順は次のとおりです。

  1. 隣接する間隔のペアごとに、各間隔内のターゲット カテゴリ「+」および「-」の出現をそれぞれカウントします。たとえば、最初の間隔では「+」が 1 回発生し、「-」が 0 回発生します [23]。2 番目の間隔では、「+」が 0 回発生し、「-」が 1 回発生します [45]。

  2. 2x2 の観測頻度テーブルを作成します。行は間隔を表し、列はカテゴリを表し、セルの値は対応する出現数を表します。

    「+」 「-」
    23 1 0
    45 0 1
  3. 観測された頻度テーブルから、各セルの予想頻度を計算します。期待頻度は、対応する行の合計数に対応する列の合計数を乗算し、観測された合計頻度で割ったものです。この例では、すべてのセルの期待頻度は 0.5 です。

  4. 各セルのカイ二乗値、つまり (観測周波数 - 期待周波数)^2 / 期待周波数を計算し、すべてのセルのカイ二乗値を合計して、このペアのカイ二乗値を取得します。間隔。この例では、カイ二乗値は (1-0.5)^2/0.5 + (0-0.5)^2/0.5 + (0-0.5)^2/0.5 + (1-0.5)^2/0.5 = 2.

  5. この計算をすべての隣接する区間に対して実行し、最小のカイ二乗値を持つ区間のペアを見つけて、その区間のペアをマージします。

一般に、ChiMerge は効果的な離散化手法であり、連続変数とターゲット変数の間の関係が複雑な場合に特に適しています。

8.3 データのクリーニング

  • 欠損データの処理、ノイズの多いデータの処理、データの不整合の特定と処理

  • 欠損データへの対処

    • データセットにカテゴリ属性が含まれている場合、欠損値を埋める簡単な方法は、同じクラスに属するオブジェクトの属性値の平均を欠損値に割り当てることです。離散属性または定性属性の場合は、平均を次の値に置き換えます。モード

    • より複雑なアプローチ。分類問題または数値予測問題に変換できます。

第 10 章 データウェアハウス

10.1 データウェアハウスの関連概念

  • データ ウェアハウスとは何ですか?
    • データ ウェアハウスは、組織の意思決定をサポートするために使用される、主題指向で統合され、時間とともに変化する安定したデータのコレクションです。
  • なぜデータウェアハウスを構築するのでしょうか?
    • 異なるシステム間ではデータの冗長性や不整合が存在し、各システムは情報の一部を反映するだけで互いに関連性がなく、情報の島が形成されます。
    • 分析用データを取得するために業務システムに直接アクセスすると、必然的に業務システム内の物事の効率的な運用が妨げられ、業務の効率化に影響を及ぼします。
  • データウェアハウスとデータマートの違い
    • データベース:
      • 1. 通常、データ マートの前に作成されます。
      • 2. さまざまなデータソース。
      • 3. すべての詳細なデータ情報を含めます。
      • 4. データの内容は企業レベルであり、特定のトピックやフィールドはありません。
      • 5. 第 3 正規形に準拠します。
      • 6. 通常、大量のデータの処理方法を最適化する必要があります。
    • データ市場:
      • 1. 通常、データ ウェアハウスの作成後。
      • 2. データ ウェアハウスはデータ ソースです。
      • 3. 適度に集約されたデータと一部の詳細データが含まれています。
      • 4. データの内容は部門レベルであり、特定のフィールドが含まれます。
      • 5.星型と雪の結晶型。
      • 6. 通常は、迅速にアクセスして分析する方法にもっと注意を払います。

10.2 データウェアハウスのアーキテクチャ

  • データウェアハウスシステムのアーキテクチャ
    • メタデータは、データ ウェアハウス内のデータの説明情報です。ここでは主に、データ ソース データ情報、データ抽出と変換情報、データ ウェアハウス内のデータ情報という情報の 3 つの側面について説明します。

10.3 多次元データモデル

  • 多次元データモデルとは何ですか?
    • 多次元データ モデルは次元データ モデルとも呼ばれ、ディメンション テーブルとファクト テーブルで構成されます。
  • ファクトシート
    • メトリクスは通常、定量的な属性であり、ファクト テーブルに保存されます。メトリクスは加算的なものであることが好ましい。
  • 寸法表

おすすめ

転載: blog.csdn.net/weixin_57345774/article/details/131413471