【データ分析研究ノート】データ探索分析(EDA)に必要な統計の基礎

探索的データ分析(EDA)

探索的データ分析(EDA)とは、既存のデータを可能な限り少ない事前の仮定の下で描画、表化、方程式のフィッティング、特徴量の計算などによってデータの構造と法則を探索するデータ分析の方法を指します。この方法は、1970年代にアメリカの統計学者JKチューキーによって提案されました。

従来の統計分析方法では、多くの場合、データが統計モデルに準拠していると想定し、データサンプルに基づいてモデルのいくつかのパラメーターと統計を推定してデータの特性を理解していますが、実際には、想定された統計モデルに適合しないデータが数多くあります。分布。これは不十分なデータ分析結果につながります。EDAは、より実態に即した分析手法であり、データそのものを「語らせる」ことに重点を置いており、EDAを通じてデータの構造や特徴を最も真実かつ直接的に観察することができます。

EDAの出現後、データ分析のプロセスは、調査段階と検証段階の 2つのステップに分かれています探索フェーズでは、データに含まれるパターンまたはモデルの発見に重点を置き、検証フェーズでは、発見されたパターンまたはモデルの評価に重点を置きます。多くの機械学習アルゴリズム(トレーニングとテストのステップに分かれています)は、この考え方に従っています。

データ分析作業では、統計を使用して、データがより詳細かつ詳細な方法で正確に整理される方法を観察し、この組織構造に基づいてデータ分析の方法を決定して、より多くの情報を取得できます。


データ分析の統計的根拠


機能統計

偏差、分散、算術平均、中央値、最頻値、範囲、パーセンテージなどデータセットを研究するときによく使用される統計的手法

集中傾向測定でよく使用される統計は、平均、中央値、最頻値などです。

オフセンター傾向測定でよく使用される統計は、範囲、標準偏差、変動係数、四分位範囲などです。

機能の統計を理解し、コードに実装するのは非常に簡単です。以下のボックス図をご覧ください。

ボックスプロットのボックスには、上端(最大観測値または最大サンプル値)、上四分位(Q3)、中央値(Q2)、下四分位(Q1)、および下の5つの値が含まれます。エッジ(最小観測値またはサンプル最小値)。さらに、ボックスの外側で円形のドットを使用して外れ値を示すこともできます。以下は、ボックスダイアグラムのコンポーネントの概略図です。

上の図では、中央の太い黒い線がデータの中央値(Q2)を示しています。外れ値に対してより堅牢であるため、中央値は平均に使用されます。下部四分位数は基本的に25%です。つまり、データの25%はこの値よりも低くなります。上位四分位数は75%です。つまり、データの75%はこの値よりも低くなっています。上端と下端は、データ範囲の上端と下端を表します。

例:赤ワインの品質分析の事例

上の図の対応する数値結果を見てみましょう。

 

ボックスプロットは、基本的な統計的特徴の役割をよく示しています。

  • ボックスプロットが非常に短い場合、多くの値が狭い範囲に分布しているため、多くのデータポイントが類似していることを意味します。
  • 箱ひげ図が高い場合、これらの値は広く分布しているため、ほとんどのデータポイントは大きく異なります。
  • 中央値が下部に近い場合、ほとんどのデータの値が低くなります。中央値が上部に近い場合、ほとんどのデータの値が高くなります。基本的に、中央線がボックスの中央にない場合は、データが歪んでいることを示しています。
  • ボックスの上側と下側の線が長い場合、データの標準偏差と分散は高くなります。つまり、これらの値はばらばらになり、大きく変動します。ボックスの片側に長い線があり、反対側に長い線がない場合、データは一方向にのみ大きく変化する可能性があります。

確率分布

確率は、いくつかのイベントが発生する確率として定義され、パーセンテージで表されます。データサイエンスの分野では、これは通常0から1の範囲で定量化されます。0はイベント決定が発生しないことを示し、1はイベント決定が発生することを示します。次に、確率分布は、すべての可能な値の発生確率を表す関数です。

下の写真をご覧ください:

一般的な確率分布、均一分布(上)、正規分布(中央)、ポアソン分布(下):

一様分布は最も基本的な確率分布です。特定の範囲内にのみ出現する値があり、その範囲外の値はすべて0です。また、0または別の値という2つのカテゴリを持つ変数と考えることもできます。カテゴリー変数は0以外の複数の値を持つ場合がありますが、それでも複数の均一に分布した区分的関数としてそれらを視覚化できます。

正規分布は、通常ガウス分布とも呼ばれ、その平均と標準偏差によって定義されます。平均値は空間的に変化する位置に分布し、標準偏差はその広がりを制御します。他の分布方法との主な違いは、標準偏差がすべての方向で同じであることです。したがって、ガウス分布を通じて、データセットの平均値とデータの拡散分布がわかります。つまり、比較的広い範囲に広がるか、主にいくつかの値に集中しています。

ポアソン分布は正規分布に似ていますが、スキューレートがあります。正規分布と同様に、歪度値が低い場合、ポアソン分布は全方向に比較的均一な拡散を示します。ただし、歪度の値が非常に大きい場合、データのさまざまな方向への広がりは異なります。一方の方向では、データの拡散の程度は非常に高く、もう一方の方向では、拡散の程度は非常に低くなります。

ガウス分布に遭遇した場合、多くのアルゴリズムがあることがわかります。デフォルトでは、ガウス分布は非常にうまく実行されるため、これらのアルゴリズムを最初に見つける必要があります。ポアソン分布の場合、空間拡張の変化に対して非常にロバストなアルゴリズムを選択するように特に注意する必要があります。


次元削減

次元削減という用語は直感的に理解できます。これは、データセットの次元を削減すること意味します。データサイエンスでは、これは特性変数の数です。下の写真をご覧ください:

上の図の立方体は、3次元で合計1000ポイントのデータセットを表しています。現在の計算能力では、1000ポイントを計算するのは簡単ですが、規模が大きいと問題が発生します。ただし、キューブの側面など、2次元の視点からのみデータを見ると、すべての色を分割するのが簡単であることがわかります。

次元削減により、2D平面に3Dデータを表示します。これにより、計算する必要のあるポイントの数を100に効果的に減らし、計算量を大幅に節約します。

もう1つの方法は、機能の剪定によって次元を削減できることです。この方法を使用して、分析に重要ではないと思われる機能を削除します。

たとえば、データセットを調査した後、10個のフィーチャのうち、7個のフィーチャは出力との相関が高く、他の3個は非常に低い相関があることがわかります。さて、これら3つの低相関機能は計算する価値がないかもしれませんが、出力に影響を与えずに分析からそれらを削除できるだけかもしれません。

次元削減に使用される最も一般的な統計手法はPCAです。PCAは、本質的に特徴のベクトル表現を作成し、出力に対する重要性、つまり相関を示します。PCAを使用して、上記の2次元削減方法を実行できます。


オーバーフィッティングとアンダーフィッティング

過適合と過適合は分類問題に使用される手法です。たとえば、1つのカテゴリには2000個のサンプルがありますが、2番目のカテゴリには200個のサンプルしかありません。これにより、データのモデル化と予測を行うために私たちが試して使用した多くの機械学習技術が取り除かれます。次に、過剰適合と過小適合がこの状況に対処できます。

下の写真をご覧ください:

上の図の左側と右側では、青色の分類はオレンジの分類よりも多くのサンプルを持っています。この場合、機械学習モデルのトレーニングに役立つ2つの前処理オプションがあります。

アンダーフィッティングとは、多数のサンプルの分類から一部のデータのみを選択し、できるだけ多くの分類サンプルを使用することを意味します。この選択は、分類の確率分布を維持することです。データセットのバランスをとるために、サンプリングを減らすだけです。

過剰適合とは、多数派分類と同じサンプルサイズになるように少数派分類のコピーを作成することを意味します。コピーは、いくつかのカテゴリの分布を維持するために作成されます。データを増やすことなく、データセットのバランスを調整するだけです。


ベイジアン統計

理由を完全に理解するには、ベイジアン統計を使用する場合、まず頻度統計が失敗する場所を理解する必要があります。ほとんどの人が「確率」という言葉を聞くとき、頻度統計は最初に思い浮かぶ統計のタイプです。これには、いくつかの数学的理論を適用してイベントの確率を分析することが含まれます。明確にするために、計算するデータは以前のデータのみです。

私があなたにさいころをあげて、6ポイントを振るチャンスを尋ねたとすると、ほとんどの人は6分の1だと言います。

しかし、誰かが常に6ポイントを振ることができる特定のサイコロをあなたに与えたらどうなりますか?周波数分析は以前のデータのみを考慮し、不正行為のサイコロの要因は考慮されないためです。

ベイジアン統計ではこれが考慮されています。ベイズのルールを使用して、以下を説明できます。

方程式の確率P(H)は、イベントの確率に関する以前のデータを前提として、基本的には周波数分析です。方程式のP(E | H)は可能性と呼ばれ、周波数分析によって得られた情報によれば、本質的には現象が正しい確率です。

たとえば、サイコロを1万回振る場合、最初の1000回の振で6ポイントを獲得すると、サイコロがだまされたと確信できます。周波数分析が非常に優れている場合は、6つの点が正しいと確信できます。同時に、ダイスの不正行為が真実である場合、または独自の事前確率と頻度分析に基づいていない場合は、不正行為の要因も考慮します。

方程式からわかるように、ベイジアン統計ではすべての要素が考慮されます。以前のデータが将来のデータや結果を適切に表していないと思われる場合は、ベイズ統計手法を使用する必要があります。

 

元の記事646件を公開 賞賛された198件 690,000回

おすすめ

転載: blog.csdn.net/seagal890/article/details/105323424