記述統計: 集中傾向と分散

1. 説明

        この記事では、記述統計の分野を掘り下げ、統計の種類、母集団とサンプル、パラメータと統計、データの種類、中心傾向と分散の尺度など、そのさまざまな側面を探っていきます。

ユーモアを交えて統計についてご紹介します。

「統計はビキニのようなものです。統計が明らかにするものは暗示的ですが、何を隠すかが重要です。

この引用文は、統計は貴重な洞察や情報を提供することができるが、重要な要素が考慮されなかったり、データが徹底的に分析されていなかったりすると、誤解を招く可能性や不完全なものになる可能性があるという考えをユーモラスに強調しています。

2. 統計

        統計学は、次のことを扱う数学の一分野です。

  • データ収集
  • データ分析
  • データの解釈
  • データの提示

結論を導き出し、意思決定を行うために、大量のデータを理解するためのツールとテクニックを提供します。

統計には大きく分けて 2 種類あります。

  1. 記述統計
  2. 推論統計

        他にもありますが、ここではより広範な派生部分のみを検討します。

2.1 記述統計

        以下の情報を提供することで、データセットの主な特性を要約して説明することに重点を置いています。

  • 平均値はいくらですか、最も一般的な値はいくらですか、
  • それらがどの程度適切に分散されているか、また全体としてどの程度適切に分散されているか。

2.2記述統計に含まれるもの 

  1. 中心傾向の尺度
  2. 分散測定

本題に入る前に、推論統計の基本、サンプルと母集団の違い、およびいくつかの一般的なデータ型を理解しましょう。これは、記述統計を研究する理由を与えてくれます。

2.3 推論統計

        推論統計は通常、記述統計の後に実行されます。

推論統計には、データのサンプルに基づいて、より大きな母集団について結論を導き出すか、予測を行うことが含まれます。

記述統計、確率、その他の統計手法を使用してサンプルを分析し、母集団について推論します。

2.4 推論統計のいくつかのトピックは次のとおりです。

  • 関連尺度
  • 仮説テスト
  • 回帰分析

3. 母集団とサンプルの概念

        母集団とは、研究対象となる個人、物体、またはイベントの母集団全体です。

一方、サンプルは母集団の部分集合です。これは、母集団全体についての推論を行うために収集および分析される母集団のより小さな表現です。

3.1 なぜサンプルが必要なのでしょうか?

  • 時間、コスト、物流上の問題などの要因により、母集団全体からデータを収集することは実現可能または現実的ではありません。
  • したがって、代わりに母集団の代表的なサンプルを使用し、統計的手法を使用して母集団に関する結論を導き出します。

3.2 サンプルを選ぶときの注意点は何ですか?

母集団に関する推論の精度は、サンプルの代表性と使用される統計手法の品質に依存します。

したがって:

  1. サンプルは、母集団に存在する多様性と変動性を把握できるように、バイアスを避けるために母集団からランダムに選択する必要があります
  2. サンプルサイズが大きくなると誤差の範囲が減少するため、サンプルサイズは信頼性の高いデータ分析を提供するのに十分な大きさである必要があります。

4. パラメータと統計

        パラメトリックと統計は、母集団とサンプルに関連するさまざまな種類の数値を説明するために統計の分野で使用される 2 つの用語です。

4.1 パラメータ

  • パラメータとは、集団全体の特性を記述するために使用される数値を指します。
  • パラメーターは通常、ギリシャ文字で表されます (たとえば、μ は母平均、σ は母標準偏差)。

4.2 統計

  • 一方、統計とは、サンプルの特性を説明する数値を指します。これらは標本データから計算され、対応する母集団パラメータの推定または推測に使用されます。
  • 統計量はアルファベットの文字で表されます (たとえば、サンプル平均を表す x̄、サンプル標準偏差を表す s)。

5. データ型

与えられたイメージは一目瞭然です。

5.1 中心的傾向の尺度

        中心傾向の尺度は、次の情報を提供する統計的尺度です。

  1. 分布の平均。(平均)
  2. 分布の中心値(中央値)
  3. 分布における共通の値。(モデル)

統計学におけるモーメントは、確率分布の形状、中心、広がりに関する情報を提供する数学的計算です。最初のモーメントは平均、2 番目のモーメントは分散 (標準偏差の 2 乗)、3 番目のモーメントは歪度、4 番目のモーメントは尖度です。

現在、中心的な傾向に取り組んでおり、実際に最初の瞬間を理解しています。

5.2 平均タイプ

  1. 算術平均(単純平均、加重平均、トリミング平均)
  2. 幾何平均
  3. 調和平均

中心傾向の尺度には通常、算術平均が含まれます。トリム平均と加重平均は、算術平均の 2 つの変形です。

幾何平均と調和平均は中心傾向の代替尺度であり、特定の状況でのみ使用する必要があります。

5.3 算術平均:

        すべての値を加算し、値の合計数で割ることによって計算されます。

5.4 加重平均:

        加重平均では、平均を計算する前に各値に重みを割り当てることで、各値の重要性または有意性が考慮されます。各値にそれぞれの重みが乗算され、重み付けされた合計が重みの合計で除算されます。

        これは、特定の値がデータセット内で他の値よりも大きな影響力または重要性を持っている場合に役立ちます。

5.5 トリミングされた平均:

        トリミング平均は、データセットから最高値と最低値の一定の割合を除外し、残りの値の平均を取ることによって計算されます。

        これは、算術平均に過度に影響を与える可能性のある外れ値または極値がデータに存在する場合に役立ちます。

        トリミングされた平均は、極値を切り取ることにより、中心傾向のより信頼性の高い推定値を提供します。

5.6 幾何平均:

        幾何平均は中心傾向の尺度ですが、算術平均のようにデータ セットの正確な中間点または中心値を表していない場合があります。

        代わりに、値間の全体的な乗算関係によって影響を受ける変化の尺度または割合が提供されます。

        幾何平均は、比率、増加率、等比級数、指数データなど、値間の相対的な大きさや比率が絶対値よりも重要な状況で役立ちます。

        これは、n 個の値の積の n 乗根をとることによって計算されます。

  • 小さい値にはより多くの重みが与えられ、より大きな値にはより小さな重みが与えられるため、極端な値または異常値によって引き起こされる歪みが回避されます。

5.7 例を挙げてみましょう:

人口増加: 人口学と生物学では、人口増加率        を測定するために幾何平均が使用されます。時間の経過に伴う個体群サイズの相対的な変化が考慮されます。

5.8 (調和平均) 調和平均 

        GM とは異なり、変化率は計算しませんが、数量の割合、速度、速度、または逆数の平均を計算しようとします。

        これは、より小さい値の寄与を強調しながら、極値や外れ値の影響を考慮した平均を見つける必要がある場合に特に役立ちます。

        調和平均により、極端な値または外れ値の影響が軽減されます。

調和平均により平均を計算します

  • 値の逆数、
  • 逆数の算術平均を計算します。
  • 次に、その平均の逆数を計算します。

        調和平均は基本的に、平均計算の分母に表示される小さい値に大きな重みを与えます。

これは、小さな値を強調したり、平均に大きな影響を与える必要があるシナリオに適しています。

5.9 たとえば:

        移動の平均速度を計算するシナリオを考えてみましょう。

前半は 60 km/h、後半は 40 km/h で運転しているとします。

算術平均を使用すると、平均速度は (60 + 40) / 2 = 50 km/h となります。

ただし、低速でより多くの時間を費やすため、これでは全体の平均速度を正確に表すことはできません。

この場合、調和平均を使用して平均速度を計算できます。

調和平均を使用すると、平均速度は 2 / ((1/60) + (1/40)) = 48 km/h となります。調和平均では、より小さい値 (40 km/h) に大きな重みが与えられます。これは、旅行全体の平均速度を正確に反映しています。

6. 分散測定(セカンドモーメントスタディ)

        これは、データ ポイントがどの程度分散しているかに関する情報を提供する統計的尺度です。

        それらが重要である理由は次のとおりです。

  • これらは、データセットの多様性または均一性に関する情報を提供します。
  • 分散測定は、データの品質と信頼性を評価するのに役立ち、また、さまざまなデータセットの分布を比較するのにも役立ちます。
  • データ ポイントが高度に分散している場合、値の範囲が広くなり、基礎となる現象の変動が大きくなる可能性があることを示します。この情報は、外れ値、データ エラー、または不一致を特定するために使用できます。

        さまざまな種類の分散対策:

  1. 範囲
  2. 四分位範囲 (IQR)
  3. 分散
  4. 標準偏差
  5. 変動係数
  6. 平均絶対偏差 (MAD)

6.1 範囲:

  • これは分散の最も単純な尺度であり、データ セット内の最大値と最小値の差として計算されます。
  • データの全体的な分布を把握できますが、外れ値の影響を受ける可能性があります。

四分位範囲 (IQR)

四分位範囲 (IQR) は、 データセットの25 パーセンタイルから 75 パーセンタイルまでの範囲を表す統計的尺度です。

これは、通常、データセット内で最も意味のある値である中心データ ポイント内の変動を要約するために行われます。したがって、外れ値に対して堅牢になります。

IQR は、中心のデータ ポイントに焦点を当てることにより、特にデータセットのサイズが異なる場合や外れ値が含まれている場合に、データセット間のより信頼性の高い比較を提供します。

IQR は箱ひげ図の作成によく使用され、極値を理解するのに役立ちます。箱ひげ図内のボックスは IQR を表し、中央値はボックス内の線で表されます。Q1–1.5 * IQR を下回る値、および Q3 + 1.5 * IQR を超える値は外れ値とみなされます。

6.2 分散

        分散は、データ ポイントが平均の周囲にどの程度分散しているかを示す統計的尺度です。

        平均からのデータポイントの平均二乗偏差を測定します。

        分散は平均からの正と負の両方の偏差を考慮できるため、二乗で表現され、データ全体の分布を効果的に把握できます。

        また、差を二乗すると、平均からの大きな偏差の影響が増幅されます。通常、偏差が大きいほど、データセット内のより大きな変動または外れ値を示すため、これは重要です

        データの中間 50% のみを考慮する範囲または四分位範囲 (IQR) とは異なり、分散はデータセット全体を考慮し、分布の包括的な尺度を提供します。

        分散はデータの広がりの観点から直接説明することはできません。分散スプレッドの正確なサイズを知ることはできませんでした

        データの分布を定量化するには、範囲、四分位範囲 (IQR)、標準偏差などの他の尺度がより一般的に使用されます。

        分散が大きいほど分散が大きいことを示し、データ ポイントが平均の周囲にさらに分散していることを示します。逆に、分散が小さいほど、データ ポイントが平均に近く、分散が少ないことを示します。

6.3 標本分散の分母に n ではなく n-1 があるのはなぜですか?

        標本分散の式の分母に n-1 を使用することは、自由度の概念に基づいており、標本データの母集団分散を推定することによって導入される不確実性を考慮する必要があります。

        標本分散を計算する場合、標本平均が既知で制約として使用されるため、自由度が 1 つ少なくなります。したがって、n ではなく n-1 で割ることにより、この制約を調整し、母集団分散の不偏推定値を提供します。

6.4 標準偏差

        標準偏差は分散の平方根であり、広がりの尺度として一般的に使用されます。

元のデータと同じ単位で表現されるため、解釈が容易になります。

分散とは異なり、標準偏差は、データ ポイントが平均から平均してどれだけ離れているかを示します。

標準偏差が小さいほど値が平均に近いことを示し、標準偏差が大きいほどばらつきが大きいことを示します。

6.5 平均絶対偏差

平均絶対偏差 (MAD) は、差の方向 (正または負) に関係なく、データセット内の値が平均からどの程度よく分布しているかを測定します。

大きな差を二乗する標準偏差などの他の尺度よりも外れ値の影響が少なくなります。

6.6 例:

        あなたが企業に勤める人事アナリストとして、従業員の給与を分析しているとします。給与データは次のとおりです(数字は千単位です)。

        給与 = {45, 50, 47, 55, 48, 46, 51, 300}

        このデータセットでは、値「300」は外れ値を表します。これは、役員の給与が高いか、または他の給与よりも大幅に高い 1 回限りのボーナスが原因である可能性があります。

        この場合、賃金の分散を測定するために標準偏差を使用することは、最も適切な選択ではない可能性があります。標準偏差は外れ値「300」によって大きく影響され、値が大きくなり、典型的な賃金差の誤解を招く可能性のある解釈につながります。

計算後の MAD は約 46.5 千ドルで、標準偏差 (91.238 千ドル) のほぼ半分です。

ただし、これらの例外を保持しておくよりも、処理する方が優れています。SD よりもパフォーマンスは良いかもしれませんが、給与をよく見ると、両者の間には 5,000 ドルの差がほとんどありません。

6.7 変動係数

        たとえば、データセットに給与と年齢の列があり、どの変数セットの変動がより大きいかを調べたいとします。

給与はルピー単位、年齢は年単位であるため、各変数の SD を比較することはできません。

        したがって、それらを比較するには、各変数の相対変動をパーセンテージで求め、それらの間の変動を比較します。

        ここで変動係数の役割が登場します。

        変動係数 (CV) は、異なる単位の異なるデータセットの変動性を比較するのに役立つ統計的尺度です。

        これは、平均値における標準偏差の割合を見つけることによって行われます。

        変動係数が低いことは、データ ポイントが変動がほとんどなく平均に比較的近いことを示し、変動係数が高いことは、変動の度合いが大きいことを示します。

6.8 推論統計用のソーキングストーンの構築

これまで、中心傾向と分散の尺度と呼ばれる 2 つの基本概念を紹介しました。これらにより、データの中心値とその中心値の周囲のデータの広がりを理解できるようになります。

        データの分布を視覚化することで、最も多くの情報が存在するデータの分布を直感的に理解し、特定のデータの外れ値を分析することもできます。思い出してください。IQR について学習したとき、箱ひげ図を描いてデータ点を直線で表し、それに基づいてデータの分布を理解しようとしました。

7. 結論

        現実の世界では、母集団全体のデータではなくサンプル データを扱うことが多いため、母集団データについて結論を導こうとします。ただし、サンプルデータに基づいて母集団について推論を行ったり結論を導き出す場合は、結論の確実性または信頼性を評価する必要があります。

確率は、結論に伴う不確実性を定量化する際に重要な役割を果たします。統計と確率を組み合わせるには、確率分布に依存し、これらの分布から母集団内でさまざまなイベントや結果が発生する可能性を推定します。

        したがって、推論統計を理解するには、まず確率理論とさまざまな種類の確率分布についてのしっかりとした基礎を身につける必要があります。次の投稿では、基礎を構築することから始めます。

おすすめ

転載: blog.csdn.net/gongdiwudu/article/details/132357112