【統計ノート】(8)分類データ分析

(8)分類データ分析

最初に問題について考えます:

1.なぜデータを分類する必要があるのですか?データを分類する方法は?

2.データが分類された後、分類されたデータをどのように分析しますか?

データ分類


カテゴリー変数の結果は、カテゴリーとして表示されます。例えば、性別(男性、女性)
カテゴリーは
分類またはオーダースケールを使用して、記号または数値コードで測定されます。

  • 喫煙しますか?1.はい; 2.いいえ
  • この改革案に同意しますか、同意しませんか?1.のため; 2.反対

データ分類は分割表一般用いて記述し、分析し
利用できる\カイ^ {2}テストを 

\カイ^ {2} 統計学

\カイ^ {2}2つのカテゴリ変数間の相関の度合いを決定するために使用できます。f_ {o}観測頻度(観測頻度)とf_ {e}予想頻度(予想頻度)を使用する場合\カイ^ {2}統計は次のように記述できます。

\カイ^ {2} 統計には次の特性があります  \カイ^ {2} \ geqslant 0。1つ目は2乗結果の要約であるため、2つ目\カイ^ {2}は、統計量の分布は自由度に関連し、最後に、\カイ^ {2} 統計値は観測値と期待値の近さを示します。2つが近いほど、つまりが\左|  f_ {0} -f_ {e} \ right | 小さいほど計算\カイ^ {2} 値小さくなり  、逆に\左|  f_ {0} -f_ {e} \ right | 大きいほど計算\カイ^ {2}は大きくなります。\カイ^ {2}テストは\カイ^ {2}、計算結果を\カイ^ {2}分布の臨界値比較することにより、帰無仮説を棄却するかどうかの統計的決定行うことです。

 \カイ^ {2} 分布と自由度の関係を上の図に示します。上の図は、自由度がそれぞれ\カイ^ {2} 1、5、10の場合の対応する分布を示しています 

自由度が小さいほど、分布は左に傾斜します。自由度が増加するにつれて、\カイ^ {2}分布の歪度は緩和され、徐々に対称性を示します。自由度が増加し続けると、\カイ^ {2}分布は正の対称に近づきます州の分布。

\カイ^ {2}統計を使用して、分類されたデータに対して適合度検定と独立性検定を実行できます。

適合度テスト

適合度検定は\カイ^ {2}、統計を使用した統計的有意性検定の重要な内容の1つです。全体的な分析状況に基づいて、カテゴリ変数の各カテゴリの予想頻度を計算し、分布の観測頻度と比較し、予想頻度と観測頻度の間に有意差があるかどうかを判断することで、分類変数を分析する目的を達成します。

不測の事態の分析:独立性テスト

2つのカテゴリ変数の分析は独立性検定と呼ばれ、分布プロセスは分割表の形式で提示できるため、この分析を分割分析と呼ぶ人もいます。

分割表:3つ以上の変数をクロス分類する頻度分布表です。分割表の各変数は2つ以上のカテゴリを持つことができるため、分割表には多くの形式があります。水平変数(行)のカテゴリーはRと見なされ、垂直変数(列)のカテゴリーはCと見なされるため、特定の分割表は分割表と呼ばれR \ times Cます。

以下は  2 \回2 分割表です 

 次の表は3 \回3 分割表と呼ばれ  ます。

表の行は起点変数であり、A、B、C領域の3つのカテゴリーに分かれています。表の列は製品グレードの変数であり、これも3つのカテゴリーに分類されます。1年生の製品、2年生の製品、3年生の製品です。したがって、上記の表は  3 \回3 分割表であり、表の各データは発生元と製品レベルの情報を反映しています。

独立性テストは、分割表の行変数と列変数が互いに独立しているかどうかを分析することです。

質問の例:

原材料は3つの異なる地域から来ており、原材料の品質は3つの異なるグレードに分かれています。この原材料のバッチからランダムに500個を選択して検査します。結果は上の表に示されています。各地域と原材料のグレード間に依存関係があるかどうかを確認する必要があります。\ alpha = 0.05

解決する:

H_ {0}:面積と原材料レベルは独立しています(依存関係はありません)

H_ {1}:地域と原材料レベルの独立性(依存性あり)

ここでの分析の鍵は、期待値を取得することです。

表の最初の行では、面積Aの合計は140であり、面積Aの原材料比率の推定値として140/500が使用されます。

表の最初の列では、主要な原材料の合計は162であり、主要な原材料比率の推定値として162/500が使用されています。

地域と原材料レベルが独立している場合は、次の式を使用して、最初の単位(地域A、レベル1)で予想される割合を推定できます。

注文:A = サンプルユニットはエリアAのインシデントからのもの

      B = サンプルユニットは一級原料のインシデントに属します

独立確率乗算式によれば、最初のセルは次のように記述されます。

 P \ left(cell_1 \ right)= P \ left(AB \ right)= P \ left(A \ right)P \ left(B \ right)= \ left(\ frac {140} {500} \ right)\左(\ frac {162} {500} \右)= 0.09072

0.09072は最初の単位での期待比率であり、対応する頻度期待値は次のとおりです。

0.09072 \回500 = 45.36

一般に、次の式を使用して、頻度の期待値を任意の単位で計算できます。

f_ {e} = \ frac {RT} {n} \ times \ frac {CT} {n} \ times n = \ frac {RT \ times CT} {n}

式でf_ {e} は、これは所定の単位での頻度の期待値です。RTは、所定の単位が配置されている行の合計です。CTは、所定の単位が配置されている列の合計です。nは、観測値の総数、つまりサンプルサイズです。

上記の表のデータに基づいて計算します。

いいよ コラム f_ {o} f_ {e} f_ {o}-f_ {e} \ left(f_ {o} -f_ {e} \ right)^ {2} \ left(f_ {o} -f_ {e} \ right)^ {2} / f_ {e}
1 1 52 45.36 6.64 44.09 0.97
1 2 64 52.64 11.36 129.05 2.45
1 24 42.00 -18.00 324.00 7.71
2 1 60 55.40 4.60 21.16 0.38
2 2 59 64.30 -5.30 28.09 0.44
2 52 51.30 0.70 0.49 0.01
1 50 61.24 -11.24 126.34 2.06
2 65 71.06 -6.06 36.72 0.52
74 56.70 17.30 299.29 5.28
            19.82

\カイ^ {2} 自由度は次のとおりです。\ left(R-1 \ right)\ left(C-1 \ right)= 4

順序:\ alpha = 0.05テーブルを調べて、次のことを確認します。\ chi _ {0.05} ^ {2} \ left(4 \ right)= 9.488

そのため  \ chi ^ {2}> \ chi _ {0.05} ^ {2} \ left(4 \ right)、拒否され  H_ {0}、受け入れられます   H_ {1}。つまり、地域と原材料のグレードとの間に依存関係があり、原材料の品質は地域によって影響を受けます。

注:自由度の計算手順:

計算式は次のとおりです。自由度=(行数-1)(列数-1)=(R-1)(C-1)

\カイ^ {2} 検査における自由度の計算の原則。自由度とは、自由に取れるデータの数であり、自由度=(行数-1)(列数-1)=(R-1)(C-1)の式で計算されます。この理由は、次の例で説明できます。

3 \ times 4 分割表があるとし  ます

  C1 C2 C3 C4 合計
R1 * RT {_ {1}}
R2 * RT {_ {2}}
R3 * * * 0 RT {_ {3}}
合計 CT {_ {1}} CT {_ {2}} CT {_ {3}} CT {_ {4}}  

説明:

  •  √自由に取れるデータ
  • ※0は自由に取り込めないデータ

最初にこの表の最初の行を確認します。行RT {_ {1}} の合計  が決定されている場合、この行には自由に評価できるデータが3つしかありません(最初の3つがここで想定されていると仮定)。√で示され、最後のデータは自由に評価できません。同様に、*で表されます。同様に、2番目の行では、行の合計  RT {_ {2}} が決定されると、この行で自由に評価できるデータは3つしかないため、自由に評価できない4番目のデータも*で表されます。3行目では、最初のデータ(R3、C1)を自由に評価できません。同様に、3行目の2番目と3番目のデータは自由に評価できないため、この行の最初の3つのデータが使用されます*言った。3行目の4番目のデータは自由に評価できません。0で表されます。これは、行または列からのデータは関係なく、その前のデータは自由に評価できない(つまり、値が決定されている)ためです。列の合計が決定されると、この値を自由に選択することはできません。上記の表は、  3 \ times 4 6つの自由度を持つ分割表です。

自由度=(R-1)(C-1)=(3-1)(4-1)= 6


分割表の関連測定

2つの変数間の相関関係の測定は、主に相関係数によって表されます。分割表の変数は通常、カテゴリ変数であり、調査対象のさまざまな品質カテゴリを表します。したがって、このような分類されたデータ間の相関は、品質相関と呼ぶことができます。頻繁に使用される品質相関係数は次のとおりです。

\ varphi 相関係数

タンデム相関係数

V相関係数

数値解析

不測の事態の分析で注意すべき問題

状態ダイヤルインジケーター

\カイ^ {2} 分布期待基準

(更新中)

 

 

元の記事646件を公開 賞賛された198件 690,000回

おすすめ

転載: blog.csdn.net/seagal890/article/details/105477623