要約する
- 数学的には、特別なサンプルで仮説を証明することはできませんが、それを使用して命題を反証 (棄却) することはできます。したがって、仮説検定は本質的に、帰無仮説H 0 H_0を棄却する方法を探っています。H0対立仮説H 1 H_1を受け入れるH1.
- p 値 (p 値、決定されたサンプル観測値の下で帰無仮説を棄却するために与えられる最小有意水準) に基づく仮説検定の基本的な手順:
- 対立仮説H 1 H_1を決定するH1、対立仮説の符号によって、使用する累積確率が決まります。
- 検定統計量の式を明確にします. さまざまな仮説検定には独自の検定統計量があります. データを調べて見つけてください!
- 累積確率を計算できるように、検定統計量が従う分布を指定します。
- 対立仮説H 1 H_1によるとH1テスト統計でp値を計算します。
- p 値を有意水準α \alphaに関連付けるアルファ比較、p > α p>\alphap>α、帰無仮説は棄却できません;p < α p<\alphap<α、帰無仮説は棄却できます。
- に従って、一般的な仮説をテストします。データ型、データ特性分類、実際のアプリケーションでは、分析するデータの特性と分析タスクに従って、対応する仮説検定を直接選択できます。
- いくつかのより一般的で重要な仮説検定 (さまざまな t 検定など) について、その原理を簡単に学びます。
- 珍しくて説明が難しい検定 (正規性検定など) には、それらを使用できます。
- 異なる検定統計には異なる形式と異なる分布がありますが、仮説検定の考え方には共通点があります。検定統計量の構築 - 対応する分布の分位数の出力 - 臨界値 (棄却領域) の計算 - 判断.
ゼロ、基礎知識復習
0.1 データの分類
- 統計: データを分析およびテストするために統計理論で使用される変数。サンプルから全体の性質を推測する場合、通常は球根100個の平均寿命を計算して工場で生産された球根の寿命を推測するなど、統計から推測します。一般的な統計は、サンプル平均、サンプル分散、サンプル モーメント、サンプル K 次中心距離、サンプル歪度、サンプル尖度などです。また、統計検定のzzなど、統計分析のニーズに合わせて構築された統計もあります。z統計量、ttt統計量、χ 2 \chi^{2}時間2統計、FFF統計量など
- 統計データの分類(慣行):
- カテゴリデータ: 各グループの頻度または頻度、最頻値および視差比を計算し、分割表分析を実行し、χ 2 \chi^{2}時間2検査等
- 順序データ: 中央値と四分位範囲の計算、順位相関係数の計算など。
- 数値データ(離散変数と連続変数に分けられ、前者は製品の数など、後者は温度など):さまざまな統計の計算、パラメータの推定とテストなど、分析のためのより多くの統計的方法があります。
0.2 データのグラフ表示
- データのグラフ表示:
- 品質データ: つまり、カテゴリ データ (度数分布図、分割表、クロス テーブルに分割; 円グラフ、ヒストグラム、パレート図、リング チャートなど) および時系列データ (累積度数を使用して折れ線グラフまたは度数図を描く) .
- 数値データ:
- グループ化の場合、例えば等間隔でグループ化した後、グループ内の頻度を計算し、ヒストグラムまたは棒グラフを使用します。
- 幹葉図や箱ひげ図など、グループ化されていない場合、箱ひげ図はあまりなじみがありません。データの最大値、最小値、中央値、2 四分位数の 5 つの特徴を 1 つにまとめた複数のデータ群の分布特性を比較することができます。
- 時系列データの場合は折れ線グラフ。
- 多変量データの場合:散布図、バブルチャート、レーダーチャートなど
[Box Plot Xiao Lizi] 11 人の学生の 8 つのコースを箱ひげ図にプロットします (Jia Junping - Statistics 6th Edition P59 の写真)。
0.3 データの一般化された尺度
仮説検定の基本
学習理由:確率論や統計解析、多変量統計解析などの科目を勉強していると、仮説検定のことをたくさん学んだと常々感じているが、体系的な一般化が苦手で何が何だかわからないデータの種類とデータの種類 対応する仮説検定を選択するための要件。
(1) 仮説検定のいくつかの特徴:
- 仮説検定は、統計分析のすべての側面を実行します。数学的モデリングでは、仮説検定を通じてデータの探索的情報マイニングを行うだけでなく、モデルを選択するための基礎を提供することもできます。
- モデリングが完了したら、特定の仮説検定を通じてモデルの有効性を検証できます。データの特性とタスクのニーズに応じて、対応する仮説検定を選択する必要があります。
- 回帰分析やその他の体系的で構造化された統計分析タスクとは異なり、各フィールドには使用できる独自の仮説検定があります。たとえば、回帰分析ではモデル係数の有意性検定、時系列分析では単位根検定、ホワイト ノイズ検定などがあります。
(2) 仮説検定の 2 つの主要なカテゴリ (統計モデルに基づく仮説検定と統計モデルに基づかない仮説検定):
- 前者は、既知の統計モデルに基づいており、そのモデルを利用するための「サービスを提供する」ものです. 前述の線形回帰モデルの係数有意性検定はその典型的な例です. この仮説検定では、対応する統計モデルを学習することができます.仮説検定の詳細をご覧ください。
- 後者 (この調査の焦点) は、「データから直接開始」し、正規性検定、2 サンプル t 検定、分散分析など、データのいくつかのプロパティを直接テストすることです。
1.1 仮説検定の原理
(1) 仮説検定の本質
[クリ] 既知: 一級の平均成績x ˉ = 108.2 \bar{x}=108.2バツˉ=108.2、サンプル標準偏差s = 4 s=4s=4、人数n=25 n=25n=25、過去の経験によれば、成績のテストの点数は正規分布を示します。それで、知事は少なくとも110の成績平均点を考慮できますか?
簡単な分析:
母集団: 学年全体の数学の点数
1 つのサンプル: クラスの数学の点数
既知: サンプルの平均x ˉ = 108.2 \bar{x}=108.2バツˉ=108.2 校長の必要性:クラスのサンプルを通じて、全体平均かどうか
を推測できます
- 全体の成績平均点が 110 未満ではないという命題に対して、「はい」または「いいえ」で答える必要があります。このような質問は、仮説検定の質問と呼ばれます。
- 仮説検定の質問を数学的に検定して回答するプロセスは、仮説検定と呼ばれます。
要約: この種の「はいまたはいいえ」のテストと、サンプル情報と既知の情報に基づいて全体的な性質を説明する命題への回答は、仮説検定の本質です。つまり、仮説検定はサンプル自体の性質を検証するのではなく、サンプルが存在する母集団の性質を検証します。
仮説検定は、パラメトリック仮説検定とノンパラメトリック仮説検定の 2 種類に大別できます。
- 仮説が母集団のパラメータまたはパラメータのセットに関するものである場合, 仮説検定はパラメトリック仮説検定です. Example.1の仮説は母集団の平均に関するものであり, 平均はパラメータであるため, これはパラメトリック仮説検定です. ;
- 仮説を一連のパラメーターで表すことができない場合、仮説検定はノンパラメトリック仮説検定であり、典型的な仮説検定は正規性検定です。
1.2 仮説検定の導出
(1) 仮説の立て方
クリ1:某学年○○の生徒の数学の点数Xは正規分布に従うX ∼ N ( μ , σ 2 ) X\sim N\left( \mu ,\sigma ^2 \right)バツ~N(メートル,p2 )、学生のクラスをサンプルとして取ります。既知のサンプル平均x ˉ = 108.2 \bar{x}=108.2バツˉ=108.2、サンプル標準偏差s = 4 s=4s=4、クラスの人数はn = 25 n = 25n=25では、母集団の平均μ > 110 \mu > 110と見なすことができますかメートル>110 ?
命題「母集団平均μ > 110 \mu > 110メートル>110 ” が正しいかどうかには、次の 2 つの仮定が含まれます:
H 0 : μ ⩽ 110 ↔ H 1 : μ > 110 H_0:\mu \leqslant 110\leftrightarrow H_1:\mu >110\H0:メートル⩽110↔H1:メートル>110
H 0 H_0H0は帰無仮説と呼ばれ、H 1 H_1H1対立仮説として知られるこの 2 つの仮説は相互に排他的でなければなりません。その場合にのみ、仮説H 0 H_0が棄却されるからです。H0仮説H 1 H_1を受け入れることに等しいH1.
- 命題成立の議論は、帰無仮説H 0 H_0を棄却することに変わります。H0対立仮説を受け入れることに焦点を当てるのではなく、数学的には特別なサンプルで仮説を証明することはできませんが、それを使用して命題を反証 (拒否) することができるためです。したがって、仮説検定は本質的に、帰無仮説H 0 H_0を棄却する方法を探ることです。H0対立仮説H 1 H_1を受け入れるH1.
- したがって、例 1 では、命題μ > 110 \mu > 110を直接証明することは困難です。メートル>110は真ですが、 μ ⩽ 110 \mu \leqslant 110と仮定することで証明できます。メートル⩽110エラーμ > 110 \mu > 110を間接的に検証メートル>110設立。実際の仮説検証では、私たちは通常、テストしたい命題を対立仮説H 1 H_1とします。H1、帰無仮説H 0 H_0を検定することによりH0H 1 H_1を受け入れるかどうかを判断するために拒否されるかどうかH1.
(2) 3種類のワンパラメータ検定と帰無仮説の注意点
通常、検定したい命題を対立仮説H 1 H_1としますが、H1、しかしこれは「基準」ではありません。サンプルが配置されている母集団が特定の分布に従うかどうかをテストする場合など、元の仮説/代替仮説の設定が固定されている仮説検定がいくつかあります (正規性検定など)。 )、通常、次のように 2 つの仮定を設定します
H 0 : サンプルが配置されている人口は特定の分布に従う ↔ H 1 : サンプルが配置されている人口は特定の分布に従わない特定の分布に従う}\leftrightarrow H_1:\,\text {サンプルが存在する人口は、特定の分布に従わない}H0:サンプルが配置されている母集団は、特定の分布に従います↔H1:サンプルが配置されている人口は、特定の分布に従わない
. 別の例,最も一般的な 1 パラメータ検定では、「=」は帰無仮説H 0 H_0にのみ表示されます。H0、しかし対立仮説H 1 H_1にはありませんH1真ん中、つまり、 H 0 : μ ≠ 110 ↔ H 1 : μ = 110 H_0:\mu \ne 110\leftrightarrow H_1:\mu =110\ のようなことはしません。
H0:メートル=110↔H1:メートル=110
仮定。
最も一般的な 3 つの 1 パラメーター テスト問題は、例として平均テストを取り上げます。
H 0 : μ ⩽ μ 0 ↔ H 1 : μ > μ 0 H 0 : μ ⩾ μ 0 ↔ H 1 : μ < μ 0 H 0 : μ = μ 0 ↔ H 1 : μ ≠ μ 0 H_0:\mu \leqslant \mu _0\leftrightarrow H_1:\mu >\mu _0 \\ H_0:\mu \geqslant \mu _0\leftrightarrow H_1:\mu < \mu _0 \\ H_0:\mu =\mu _0\leftrightarrow H_1:\mu \ne \mu _0\,H0:メートル⩽メートル0↔H1:メートル>メートル0H0:メートル⩾メートル0↔H1:メートル<メートル0H0:メートル=メートル0↔H1:メートル=メートル0
その中で、最初の 2 つのテストは片側テストと呼ばれ、3 つ目のテストは両側テストと呼ばれます。上記の 3 つの問題の帰無仮説を表現する別のより一般的な方法があります。
H 0 : μ = μ 0 ↔ H 1 : μ > μ 0 H 0 : μ = μ 0 ↔ H 1 : μ < μ 0 H 0 : μ = μ 0 ↔ H 1 : μ ≠ μ 0 H_0:\mu = \mu _0\leftrightarrow H_1:\mu >\mu _0 \\ H_0:\mu = \mu _0\leftrightarrow H_1:\mu <\mu _0 \\ H_0:\mu =\mu _0\leftrightarrow H_1:\mu \ne \mu _0\,H0:メートル=メートル0↔H1:メートル>メートル0H0:メートル=メートル0↔H1:メートル<メートル0H0:メートル=メートル0↔H1:メートル=メートル0
Q:帰無仮説がすべて「=」記号に設定されているのはなぜですか?
答え: 最初のテスト問題を例に取りましょう: H 1 H_1を受け入れる場合H1、つまりμ \muμはμ 0 \mu_0よりかなり大きいメートル0一方、拒否はμ 0 \mu_0に等しいメートル0μ 0 \mu_0に等しい場合メートル0μ 0 \mu_0未満の仮定は受け入れられませんメートル0言うまでもなく。したがって、この表記法は相互に排他的ではありませんが、その結果は前の表記法と同等です.
その後のパラメトリック検定では、帰無仮説の記号は一律に「=」に設定され、異なる検定問題を区別するために必要なのは対立仮説H 1 H_1だけです。H1それでおしまい。
(3) 臨界値、棄却領域、有意水準
Example.1 では、サンプル平均x ˉ \bar{x}バツˉは母平均μ \muμの偏りのない推定、帰無仮説が棄却される場合、つまりμ > 110 \mu > 110メートル>110、次にx ˉ \bar{x}バツˉは 110 を超える可能性が高いため実際のサンプルx ˉ \bar{x}を計算バツˉが 110 よりはるかに大きい場合、帰無仮説は失敗する可能性が非常に高くなります。帰無仮説を棄却する基準を与えるために、臨界値CCC、実際のサンプルがx ˉ \bar{x}バツˉ x ˉ− 110 > C \bar{x}-110>C を満たすバツˉ−110>Cの場合、帰無仮説を棄却します。ここで、x ˉ − 110 > C \bar{x}-110>Cバツˉ−110>Cは拒否フィールドとも呼ばれます。
{ x ˉ : x ˉ > 110 + C } \left\{ \bar{x}\,\,: \bar{x}>110+C \right\}{
バツˉ:バツˉ>110+C }
サンプル計算の結果が棄却領域に入ると、帰無仮説を棄却します; それ以外の場合、帰無仮説は棄却できません。異なる仮説検定の棄却ドメインは異なりますが、コア ロジックはまったく同じです。
1) 臨界値 C を確率で決定する
次の問題は、臨界値CCをどのように決定するかです。Cはどうですか?確率で決める。
サンプリングのランダム性により、サンプルの情報に基づいて母集団の性質を判断する際に間違いを犯す可能性が常にあります。つまり、帰無仮説H 0 H_0を棄却するかどうかです。H0、私たちは皆、次の2種類のエラーのいずれかを犯す可能性があります。
- タイプ 1 エラー: 帰無仮説H 0 H_0H0は true ですが、データは拒否ドメインに分類されます (したがって、拒否H 0 H_0H0判定)。タイプ 1 の誤りを犯す確率は、棄却確率α \alphaと呼ばれます。a
- タイプ II エラー: 帰無仮説H 0 H_0H0は偽ですが、データは拒否フィールドに分類されません (したがって、受け入れH 0 H_0H0判定)。タイプ II の誤りを犯す確率は、疑似確率β \betaと呼ばれます。b
2 つのエラー確率は互いに対立し、互いに「矛盾」します。サンプルサイズを考えると、仮説検定ルールを調整して特定のタイプのエラーの確率を下げたい場合、必然的に別のタイプのエラーの確率が増加します。これは、それらを制御すると同時に低レベルに保つことができないことを意味します。これに基づいて、妥協することしかできません-一般的な方法は、タイプ 1 のエラーα \alphaが発生する確率のみを制限することです。a.
2) 臨界値決定の問題
タイプ 1 エラー: 帰無仮説は真ですが、帰無仮説は棄却されます。
タイプ II エラー: 帰無仮説は偽ですが、帰無仮説は棄却されません。
臨界値を決定する問題に戻ります。しきい値を決定するときは、次のことを確認したいと考えています。タイプ 1 エラーの確率α \alphaαは、特定の小さなレベルにある必要があります (通常、α = 0.05 / 0.1 \alpha=0.05/0.1a=0.05/0.1 )、このときα \alphaαは有意水準とも呼ばれます。
臨界値CCを決定するCの基準は次のとおりです。帰無仮説H 0 H_0H0は真ですが、データが棄却領域に入る確率は、正確に指定されたα \alphaである必要があります。。 _ 例1 では、この確率は次のように書くことができます:
PH 0 が真 ( x ˉ − μ 0 > C ) = P ( x ˉ − 110 > C ) = α }\left( \bar{x}-\mu _0>C \right) =P\left( \bar{x}-110>C \right) =\alphaPH0私はトゥルーエ_ _ _(バツˉ−メートル0>ハ)=P(バツˉ−110>ハ)=a
(4) 分布による確率の処理 - 検定統計の構築
プロセスP ( x ˉ − 110 > C ) P\left( \bar{x}-110>C \right)P(バツˉ−110>C )、この形式は、一般的な学習で接触した分布の「分位点」に似ています。次のステップは、それを分布の分位点形式に構築して、臨界値CCC._ _
注: この例では、110 は実際にはμ \muです。μは帰無仮説H 0 H_0H0正しい値、およびE ( x ˉ ) = μ E\left( \bar{x} \right) =\muと(バツˉ )=μであるため、実際の確率は:
P ( x ˉ − E ( x ˉ ) > C ) , E ( x ˉ ) = μ 0 = 110 P\left( \bar{x}-E\left( \bar{x } \right) >C \right) \,\,, E\left( \bar{x} \right) =\mu _0=110P(バツˉ−と(バツˉ )>ハ)、と(バツˉ )=メートル0=110
以来x ˉ \bar{x}バツˉ正規分布に従い、sssが既知の場合、t 統計量を構築できます:
P ( x ˉ − E ( x ˉ ) > C ) = P ( x ˉ − E ( x ˉ ) s > C s ) = α , x ˉ − E ( x ˉ ) s ∼ tn − 1 \,\,P\left( \bar{x}-E\left( \bar{x} \right) >C \right) =P\left( \frac{\bar{ x }-E\left( \bar{x} \right)}{s}>\frac{C}{s} \right) =\alpha \,\,,\frac{\bar{x}-E\ left ( \bar{x} \right)}{s}\sim t_{n-1}P(バツˉ−と(バツˉ )>ハ)=P(sバツˉ−と(バツˉ )>sC)=a、sバツˉ−と(バツˉ )~tn − 1
つまり、C s \dfrac{C}{s}sC正確には tn − 1 ( 1 − α ) t_{n-1}\left( 1-\alpha \right)tn − 1( 1−α )特定の分布について知られている分位数なので、CCCを解く
C = s ⋅ tn − 1 ( 1 − α ) C=s\cdot t_{n-1}\left( 1-\alpha \right)C=s⋅tn − 1( 1−α )
これを上式に代入すると
P ( x ˉ − E ( x ˉ ) s > C s ) = P ( x ˉ − μ 0 s > s ⋅ tn − 1 ( 1 − α ) s ) = P ( x ˉ > μ 0 + s ⋅ tn − 1 ( 1 − α ) ) = α P\left( \frac{\bar{x}-E\left( \bar{x} \right)}{s }> \frac{C}{s} \right) =P\left( \frac{\bar{x}-\mu_0}{s}>\frac{s\cdot t_{n-1}\left( 1- \alpha \right)}{s} \right) =P\left( \bar{x}>\mu _0+s\cdot t_{n-1}\left( 1-\alpha \right) \right ) = \アルファP(sバツˉ−と(バツˉ )>sC)=P(sバツˉ−メートル0な>ss⋅tn − 1( 1−a )。)=P(バツˉ>メートル0+s⋅tn − 1( 1−a ) )=α
は:x ˉ > 110 + s ⋅ tn − 1 ( 1 − α ) \bar{x}>110+s\cdot t_{n-1}\left( 1-\alpha \right)バツˉ>110+s⋅tn − 1( 1−α )の場合、有意水準α \alphaことができ帰無仮説はαの下で棄却されます。
- 上記のプロセスでは、知られている統計は、確率を計算するのに役立つ特定の分布に従う統計を構築します。構築された統計は検定統計です。
- 異なる検定統計には異なる形式と異なる分布がありますが、仮説検定の考え方には共通点があります。検定統計量の構築 - 対応する分布の分位数の出力 - 臨界値 (棄却領域) の計算 - 判断.
上記の例では、検定統計量は
t = x ˉ − μ 0 st=\dfrac{\bar{x}-\mu _0}{s} です。t=sバツˉ−メートル0な
t 分布に対応する分位数は
tn − 1 ( 1 − α ) t_{n-1}\left( 1-\alpha \right)です。tn − 1( 1−α )
拒絶ドメインは
x ˉ > 110 + s ⋅ tn − 1 ( 1 − α ) \bar{x}>110+s\cdot t_{n-1}\left( 1-\alpha \right)バツˉ>110+s⋅tn − 1( 1−α )
python は、上記の仮説検定プロセスを手動で実装します。
## 加载包
import numpy as np
import pandas as pd
from scipy.stats import t
n=25
x_bar=108.2
s=4
mu=110
# 计算检验统计量
tvalue=(x_bar-mu)/s
print('t值为:{}'.format(tvalue))
# 输出分位点
'''
ppf:单侧左分位点
isf:单侧右分位点
interval:双侧分位点
'''
T_isf=t.isf(0.05,n-1) #由于备择假设是大于号,因此应当选用单侧右分位点,0.05为显著性水平a,n-1为自由度
# 如果备择假设是小于号,则应选用单侧左分位点ppf,里面的参数设置不变,依次为显著性水平a与分布自由度
print('分位点为:{}'.format(T_isf))
# 拒绝域
Deny_domain=110+s*T_isf
print('拒绝域的临界点为:{}'.format(Deny_domain))
# 判断
print('样本均值是否位于拒绝域:{}'.format(x_bar>Deny_domain))
print('因此,不能拒绝原假设,不能认为总体均值大于110.')
#t值为:-1.7999999999999972
#分位点为:1.7108820799094282
#拒绝域的临界点为:116.84352831963771
#样本均值是否位于拒绝域:False
#因此,不能拒绝原假设,不能认为总体均值大于110.
もちろん、棄却領域は、検定統計量と対応する分布分位点
t > tn − 1 ( 1 − α ) t>t_{n-1}\left( 1-\alpha \right)によって直接表すこともできます。t>tn − 1( 1−α )臨界値CC
の計算に時間がかからないため、これはより便利で一般的です。C._ _ 3 つの仮説検定 (正規分布を例として) の棄却領域を次の図に示します。
3 つの仮想分位点は、それぞれ右分位点、左分位点、および両側分位点に対応することがわかります。実際のアプリケーションでは、対立仮説H 1 H_1を使用できます。H1記号、対応する分位点を選択して、棄却ドメインを構築します。
# 直接用检验统计量与分布分位点判断
print('检验统计量是否位于拒绝域:{}'.format(tvalue>T_isf))
# 检验统计量是否位于拒绝域:False
Example.1 のデータを使用した両側検定を仮定すると、
H 0 : μ = 110 ↔ H 1 : μ ≠ 110 H_0:\mu =110\leftrightarrow H_1:\mu \ne 110\,H0:メートル=110↔H1:メートル=110
このとき、棄却領域は
∣ t ∣ > ∣ tn − 1 ( 1 − α 2 ) ∣ \left| t \right|>\left| t_{n-1}\left( 1-\frac{\alpha}{2 } \右) \右|∣t∣ _ _>∣
∣tn − 1( 1−2a)∣
∣
# 进行双边检验
## 计算双侧分位点
T_int=t.interval(1-0.05,n-1) # 对于双侧检验(双侧分位点),分位点参数应该输入1-a,这里是1-0.05=0.95
print('检验统计量t的绝对值:{}'.format(np.abs(tvalue)))
print('双侧分位点:{}'.format(T_int))
print('显然,检验统计量不在拒绝域内,因此无法拒绝原假设')
#检验统计量t的绝对值:1.7999999999999972
#双侧分位点:(-2.0638985616280205, 2.0638985616280205)
#显然,检验统计量不在拒绝域内,因此无法拒绝原假设
1.3 仮説検定の基本的な手順 - p 値に基づく
- 仮説検定に棄却領域法を使用することの欠点は、分位値と有意水準α \alphaαは該当します。異なる有意水準でテストしたい場合は、比較のために異なる分位点を計算する必要がありますが、これは非常に面倒です。
- p 値:サンプル情報と仮説が決定されている限り、帰無仮説を棄却するかどうかを判断する定数インジケーターに依存できます。p値は、決定されたサンプル観測値の下で帰無仮説を棄却できる最小有意水準であり、 p値はサンプル観測値と私たちが行う仮説検定にのみ関連しています。p 値が小さいほど、帰無仮説が棄却されます。
p値が小さいほど、帰無仮説を棄却することができます.例えば、p値が0.001と信頼水準0.01より小さければ、帰無仮説も信頼水準で棄却できると考えます. p 値が 0.025 の場合、信頼水準 0.01 の方が大きく、0.05 よりも小さい場合、信頼水準 0.05 で帰無仮説を棄却できると考えますが、信頼水準 0.01 では棄却できません。 .
p 値は、 H 1 H_1とする対立仮説の形式です。H1関連している:
- もしH 1 H_{1}H1表記は≠ \ne=,则:pvalue = P ( ∣ X ∣ > ∣ 検定統計量 ∣ ) pvalue=P\left( \left| X \right|>\left| Test\,\,statistics \right| \right)p値_ _ _ _=P( ∣ X ∣>∣テスト_ _統計∣ ) _ _ _ _ _ _ _ _
- もしH 1 H_{1}H1の記号は>,则:pvalue = P ( X > 検定統計量 ) pvalue=P\left( X>Test\,\,statistics \right)p値_ _ _ _=P( X>テスト_ _統計)_ _ _ _ _ _ _ _
- もしH 1 H_{1}H1の記号は<,则:pvalue = P ( X < 検定統計量 ) pvalue=P\left( X<Test\,\,statistics \right)p値_ _ _ _=P( X<テスト_ _統計)_ _ _ _ _ _ _ _
の:
- X は、特定の分布に従う変数です。
- テスト統計は、前述のテスト統計です。
- p 値は基本的に累積確率です.記号 > を持つ対立仮説の p 値は右側の累積確率です; 記号 < を持つ対立仮説の p 値は右側の累積確率です.検定統計量に関しては、両側検定の p 値は、特定のタイプの片側検定の 2 倍です。
# 利用example.1的数据进行三种假设检验
# 利用p值进行假设检验
'''
sf:右尾累积概率
cdf:左尾累积概率
'''
# 若备择假设为mu>110
pvalue=t.sf(tvalue,n-1)
print('备择假设为mu>110的p值为:{}'.format(pvalue))
# 若备择假设为mu<110
pvalue=t.cdf(tvalue,n-1)
print('备择假设为mu<110的p值为:{}'.format(pvalue))
# 若备择假设为mu不等于110
pvalue=t.cdf(tvalue,n-1)*2 # 之所以是左尾累积概率的两倍,是因为右尾累积概率大于0.5,而p值不可能大于1。
print('备择假设为mu不等于110的p值为:{}'.format(pvalue))
#备择假设为mu>110的p值为:0.9577775745385242
#备择假设为mu<110的p值为:0.042222425461475775
#备择假设为mu不等于110的p值为:0.08444485092295155
注: 仮説検定に p 値を使用することは、実際のアプリケーションではより一般的です. Python の仮説検定用のすべてのパッケージは、テスト統計と p 値を出力します. 以降の学習では、p 値は仮説検定に一様に使用されます.
pythonscipy.stats
モジュールには、そのまま使える仮説検定 API が多数含まれていますが、統計分析に特化した SPSS や R と比較すると、python は仮説検定機能が比較的少ないです。特定の仮説検定 Python に対応する API がない場合は、手動で p 値を計算する必要があります。たとえば、平均ベクトルに対する後続のホテリング T2 検定です。
[概要] p 値に基づく仮説検定の基本的な手順:
- 対立仮説H 1 H_1を決定するH1、対立仮説の符号によって、使用する累積確率が決まります。
- 検定統計量の式を明確にします. さまざまな仮説検定には独自の検定統計量があります. データを調べて見つけてください!
- 累積確率は、検定統計量が従う分布を指定することによってのみ計算できます。
- 対立仮説H 1 H_1によるとH1テスト統計でp値を計算します。
- p 値を有意水準α \alphaに関連付けるアルファ比較、p > α p>\alphap>α、帰無仮説は棄却できません;p < α p<\alphap<α、帰無仮説は棄却できます。
1.4 仮説検定の分類
一般的な仮説検定は、データの種類とデータの特性に従って分類されます. 実際のアプリケーションでは、分析するデータの特性と分析タスクに従って、対応する仮説検定を直接選択できます。
- より一般的で重要な仮説検定 (さまざまな t 検定など) のいくつかについて、原理を簡単に学びます。
- 正規性検定など、一般的ではなく説明が難しい検定の使用方法を学びます。
2. 単項数値データの仮説検定
単項数値データにおけるグループ間平均の仮説検定の内容、サンプル データが使用される母集団の平均のプロパティをテストする方法を学習し、Python で各テストを実装する方法を示します。コンテンツ:
- 正規性検定
- 一連のデータの母平均が固定値と等しいかどうかを比較する検定
- 2 セットのデータの母平均間の同等性を比較する検定
- 3 つ以上のデータ グループの母集団平均が等しいかどうかの検定
2~4のテストでは、2つのケースに分けることができます。データがほぼ正規分布している場合は、パラメトリック検定 - ノンパラメトリック検定より感度が高い t 検定を使用できますが、正規性の仮定を満たす必要があります。データが正規分布していない場合は、いくつかのノンパラメトリック検定を使用できます。 .
2.1 正規性検定
パラメトリック検定はノンパラメトリック検定よりも感度が高いため、データが正規分布している場合はパラメトリック検定を使用する必要があり、データの正規性を検定する必要があります。
ここでは、データの正規性を判断するのに役立つ 3 つの方法を提供します: 視覚的判断 - 正規分布の確率マップ、Shapiro-Wilk 検定、D'Agostino の K 2 乗検定
(1)確率マップ
統計では、分布を視覚的に評価するための多くのツールとともに、確率プロットがその 1 つです。
# 生成1000个服从正态分布的数据
data_norm = stats.norm.rvs(loc=10, scale=10, size=1000) # rvs(loc,scale,size):生成服从指定分布的随机数,loc:期望;scale:标准差;size:数据个数
# 生成1000个服从卡方分布的数据
data_chi=stats.chi2.rvs(2,3,size=1000)
# 画出两个概率图
fig=plt.figure(figsize=(12,6))
ax1=fig.add_subplot(1,2,1)
plot1=stats.probplot(data_norm,plot=ax1) # 正态数据
ax2=fig.add_subplot(1,2,2)
plot2=stats.probplot(data_chi,plot=ax2) # 卡方分布数据
特定のサンプル データセットの確率プロット:
- 最初にデータxxを入れますxを小さい順に並べ替え、並べ替えたデータxxxに対応する分布分位数
- 次に、分位数を横軸、サンプルの順序値を縦軸にして、データ ポイントを 2 次元グラフにプロットします。
- データがターゲット分布にほぼ従う場合、データ ポイントは線y = xy=xにほぼ従います。よ=x分布。データがターゲット分布に従わない場合、データ ポイントが直線y = xy=xよ=×。
(2) 2 つの正規性検定
確率プロットは、データが正規かどうかを大まかに判断することしかできませんが、正確ではありません。サンプルの母集団が正規分布しているかどうかをより正確に判断するには、厳密な正規性検定を実行する必要があります。
正規性検定の 2 つの仮定は次のとおりです。
H 0 : サンプルが存在する母集団は正規分布に従う ↔ H 1 : サンプルが存在する母集団は正規分布に従わない H_0:\text{サンプルは正規分布に従う}\leftrightarrow H_1:\ ,\text{サンプルが配置される母集団は正規分布に従わない}H0:サンプルが配置されている母集団は正規分布に従います↔H1:標本の母集団が正規分布に従わない
正規性検定には多くの種類があります. ここでは、最も一般的に使用され、最も強力な仮説検定の 2 つだけを示します - 小さな標本に対する Shapiro-Wilk 検定; 大きな標本に対する D'Agostino の K 検定サンプル - 二乗検定。
1) Shapiro-Wilk 検定 (小標本正規性検定)
Shapiro–Wilk 検定は正規性検定の最も効果的な方法の 1 つで、頻度統計における正規性を検定する方法であり、その理論原理は比較的複雑です。
この方法は、次の理由から、サンプルが小さい正規性検定の問題に適しています。このテストは、各サンプル値が一意である場合に最適に機能します、サンプルが多すぎると、いくつかのサンプル値が繰り返されることは避けられず、この方法の有効性が大幅に低下します。
サンプルサイズの適用範囲:サンプルサイズは8以上、50未満が最適、2000未満が最適、5000を超えると適用できなくなります。
2) D'Agostino の K 2 乗検定 (大標本正規性検定)
D'Agostino の K-squared 検定は、主にデータの分布曲線と標準正規分布曲線の違いと非対称性を、歪度 (Skewness) と尖度 (Kurtosis) を計算して定量化し、これらの値と期待値を計算します。正規分布間の差の程度。
この方法は、大きなサンプルに適した一般的で強力な正規性検定方法です。これは、分布曲線の歪度と尖度がデータ量の影響を受けやすく、データ量が多いほど歪度と尖度の計算が正確になるためです。
サンプルサイズの適用範囲: サンプルサイズは 4 未満であってはならず、それ以外の場合は大きいほど良い。
(3) 複数の方法で同時に正常性を判断する
実際のアプリケーションでは、データが複雑なため、1 つの方法だけを使用して正規性を判断すると、特定のエラーが発生する可能性があるため、通常は複数の方法を使用して同時に判断します。異なる方法で導き出された結論が異なる場合は、データの特性を注意深く観察し、一貫性のない結果の理由を見つける必要があります。たとえば、Shapiro-Wilk 検定が有意 (非正規) であり、D'Agostino の K 2 乗検定が有意でない (正規) 場合は、サンプル サイズが大きいか、値が重複していることが原因である可能性があります。この場合、Shapiro-Wilk 検定の結論ではなく、D'Agostino の K 2 乗検定の結論を採用する必要があります。
[コード プラクティス] Python で、確率マップ、Shapiro-Wilk 検定、および D'Agostino の K 2 乗検定を組み合わせた関数を定義します。
data_small = stats.norm.rvs(0, 1, size=30) # 小样本正态性数据集
data_large = stats.norm.rvs(0, 1, size=6000) # 大样本正态性数据集
# 定义一个正态性检验函数,它可以输出:
## 正态概率图
## 小样本Shapiro-Wilk检验的p值
## 大样本D'Agostino's K-squared检验的p值
from statsmodels.stats.diagnostic import lilliefors
from typing import List
def check_normality(data: np.ndarray, show_flag: bool=True) -> List[float]:
"""
输入参数
----------
data : numpy数组或者pandas.Series
show_flag : 是否显示概率图
Returns
-------
两种检验的p值;概率图
"""
if show_flag:
_ = stats.probplot(data, plot=plt)
plt.show()
pVals = pd.Series(dtype='float64')
# D'Agostino's K-squared test
_, pVals['Omnibus'] = stats.normaltest(data)
# Shapiro-Wilk test
_, pVals['Shapiro-Wilk'] = stats.shapiro(data)
print(f'数据量为{
len(data)}的数据集正态性假设检验的结果 : ----------------')
print(pVals)
check_normality(data_small,show_flag=True)
check_normality(data_large,show_flag=False) # 当样本量大于5000,会出现警告
2.2 平均検定
単変量数値サンプルの全体平均の検定を実行します。各平均検定には、対応するパラメトリック検定 (t 検定) とノンパラメトリック検定から選択できます。
(1) 単一グループの標本平均の仮説の検定
アプリケーション シナリオ:サンプルが配置されている母集団の平均が参照値と等しいかどうかをテストします。これは、サンプルの単一グループの平均の仮定のテストです。
Example.1 のテスト問題は、実際にはこの種のテストです (ただし、対立仮説は≠ \neに置き換える必要があります)。= )。
例 2 Bisheng中学校では、Mr. Chen のクラスが英語のテストを終了しました。クラスの生徒数が多いため、短期間で修正と統計を完了することは困難です.ワン氏はまた、このクラスの平均スコアと目標の間に有意差があるかどうかを知りたいと考えていました. 137 点中 137 点の成績上位 10 名の生徒の英語成績は次のとおりです。
136,136,134,136,131,133,142,145,137,140
Q: 王先生、この学級の平均点と、学級の目標である 137 点との間に有意差はないと思いますか?
これは、このサンプル (10 人の学生の英語のスコア) によって表される全体の平均 (クラスの英語のスコアの平均) が参照値の 137 と等しいかどうかを比較する、単一グループのサンプル平均の仮説の典型的な検定です。したがって、この種の問題では、1 標本 t 検定とウィルコクソン検定の 2 種類の検定を使用できます。
1) 1 サンプル t 検定 (One Sample t 検定)
t 検定では、母集団が正規分布に従う必要があります。つまり、
x ∼ N ( μ , σ 2 ) x\sim N\left( \mu ,\sigma ^2 \right)バツ~N(メートル,p2 )
では、これは、Mr. Wang のクラスのすべての生徒の英語の点数が正規分布に従う必要があることを意味します。t 検定では、母集団の標準偏差σ \sigma確率論や数理統計学における z 検定とは異なり、事前にσを知る必要がないため、実際には t 検定がより広く使用されています。
p値を使った仮説検定の基本的な流れ。(1.1.3 による)
1 サンプル t 検定の 2 つの仮定は次のとおりです。
H 0 : μ = μ 0 ↔ H 1 : μ ≠ μ 0 H_0:\mu =\mu_0\leftrightarrow H_1:\mu \ne \mu_0\,H0:メートル=メートル0↔H1:メートル=メートル0
対応する検定統計量は次のとおりです:
検定統計量 = x ˉ − μ 0 s Test\,\,statistics=\frac{\bar{x}-\mu _0}{s}テスト_ _統計_ _ _ _ _ _ _ _=sバツˉ−メートル0な
検定統計量の分布は次のとおりです。
検定統計量 ∼ tn − 1 Test\,\,statistics\sim t_{n-1}テスト_ _統計_ _ _ _ _ _ _ _~tn − 1
ここで、nnはサンプル サイズです。上記の情報に基づいて p 値を計算できます。
2) ウィルコクソンの符号付き順位和検定
サンプル データが正規でない場合は、wilcoxon の符号付き順位和検定を使用する必要があります。この検定は非常に古典的なノンパラメトリック検定であり、ノンパラメトリック検定の原理が導入されています。
(1) まず「ランク」とは。
x 1 , ⋯ , xn x_1,\cdots ,x_n とするバツ1、⋯、バツn連続分布からの単純な無作為標本の場合、小さいものから大きいものへと並べ替えて、順序付けられた標本を取得しますx ( 1 ) ⩽ ⋯ ⩽ x ( n ) x_{\left( 1 \right)}\leqslant \cdots \leqslant x_ {\左( n \右)}バツ( 1 )⩽⋯⩽バツ( n ). 観察xi x_iバツ私順序付きサンプルの順序rrrはxi x_iバツ私ランク。したがって、ランクは実際にはサンプル値xi x_iです。バツ私すべてのサンプルで「最小」の意味。
ランクサムテスト、「ランクの合計」が存在する必要があります。x 1 , ⋯ , xn x_1,\cdots ,x_n とするバツ1、⋯、バツnサンプルであり、絶対値変換を行い、R i R_iを記録します。R私为 ∣ x i ∣ |x_i| ∣ ×私∣在( ∣ x 1 ∣ , ⋯ , ∣ xn ∣ ) \left( |x_1|,\cdots ,|x_n| \right)( ∣ x1∣ 、⋯、∣ ×n记I ( xi > 0 )
= { 1 , xi > 0 0 , xi ≠ 0 I\left(x_{i}>0\right)=\left\{\begin{array}{ll} 1, & x_{i}>0 \\ 0, & x_{i} \neq 0 \end{array}\right.私( ×私>0 )={
1 、0 ,バツ私>0バツ私=0
则称
W + = ∑ i = 1 n R i I ( xi > 0 ) W^{+}=\sum_{i=1}^{n} R_{i} I\left(x_{i}>0\右)の+=私は= 1∑nR私私( ×私>0 )
は順位合計統計です。
(2) ウィルコクソンの符号付きランクサム テスト ステップ。
1 サンプル平均比較に対するウィルコクソンの符号付き順位和検定の 2 つの仮定は、依然として
H 0 : μ = μ 0 ↔ H 1 : μ ≠ μ 0 H_0:\mu =\mu_0\leftrightarrow H_1:\mu \ne \mu_0 です。 \,H0:メートル=メートル0↔H1:メートル=メートル0
分析するサンプルx 1 , ⋯ , xn x_1,\cdots ,x_nバツ1、⋯、バツn、すべてのサンプルでコントラスト値μ 0 \mu_0を減算しますメートル0,得:x 1 − μ 0 , ⋯ , xn − μ 0 x_1-\mu_0,\cdots ,x_n-\mu_0バツ1−メートル0、⋯、バツn−メートル0、順位合計統計W + W^{+}を計算しますの+ .
(3) 検定統計量は次のように計算できます。
検定統計量 = W + − n ( n + 1 ) 4 n ( n + 1 ) ( 2 n + 1 ) 24 Test\,\,statistics=\frac{W^{ +} -\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2 n+1)}{24}}}テスト_ _統計_ _ _ _ _ _ _ _=24n ( n + 1 ) ( 2 n + 1 )なの+−4n ( n + 1 )な
検定統計量はほぼ分布に従います
検定統計量 → N ( 0 , 1 ) Test\,\,statistics\rightarrow N\left( 0,1 \right)テスト_ _統計_ _ _ _ _ _ _ _→N( 0 ,1 )
ここで、nnnはサンプル サイズです。
(4) p値と対立仮説H 1 H_1の計算H1の符号に関連しており、これは t 検定と同じです。
この方法は、標本サイズが 25 を超える場合に最適です。これは、検定統計量がほぼ正規分布しているためです。Example.2 のサンプル サイズは 10 で、厳密には適切ではありません。
# 定义一个单组样本均值检验函数,使它可以同时输出t检验与wilcoxon符号秩和检验的p值
def check_mean(data,checkvalue,confidence=0.05,alternative='two-sided'):
'''
输入参数
----------
data : numpy数组或者pandas.Series
checkvalue : 想要比较的均值
confidence : 显著性水平
alternative : 检验类型,这取决于我们备择假设的符号:two-sided为双侧检验、greater为右侧检验、less为左侧检验
输出
-------
在两种检验下的p值
在显著性水平下是否拒绝原假设
'''
pVal=pd.Series(dtype='float64')
# 正态性数据检验-t检验
_, pVal['t-test'] = stats.ttest_1samp(data, checkvalue,alternative=alternative)
print('t-test------------------------')
if pVal['t-test'] < confidence:
print(('目标值{0:4.2f}在显著性水平{1:}下不等于样本均值(p={2:5.3f}).'.format(checkvalue,confidence,pVal['t-test'])))
else:
print(('目标值{0:4.2f}在显著性水平{1:}下无法拒绝等于样本均值的假设.(p={2:5.3f})'.format(checkvalue,confidence,pVal['t-test'])))
# 非正态性数据检验-wilcoxon检验
_, pVal['wilcoxon'] = stats.wilcoxon(data-checkvalue,alternative=alternative)
print('wilcoxon------------------------')
if pVal['wilcoxon'] < confidence:
print(('目标值{0:4.2f}在显著性水平{1:}下不等于样本均值(p={2:5.3f}).'.format(checkvalue,confidence,pVal['wilcoxon'])))
else:
print(('目标值{0:4.2f}在显著性水平{1:}下无法拒绝等于样本均值的假设.(p={2:5.3f})'.format(checkvalue,confidence,pVal['wilcoxon'])))
return pVal
t 検定でもウィルコクソン検定でも、p 値はかなり大きいです.明らかに、帰無仮説を棄却することはできません.Wang 先生は、クラスが 137 に分割されていると考えることができます.
(2) サンプルの 2 つのグループの平均同等性検定
1) グループ間の独立性
2 サンプル t 検定
Mannwhitneyu 順位和検定
2) ペアグループ
対応のある t 検定
対応のあるウィルコクソンの符号付き順位和検定
(3) 分散分析(複数のサンプル群の平均が等しいかどうかの検定)
以前に、サンプルの 1 つのグループとサンプルの 2 つのグループの平均検定を学習しました。次に、サンプルの複数のグループの母集団の平均を同時に検定することを学び始めます。
分散分析 (ANOVA): 複数の母集団の平均を比較するための統計的手法。以下は、学習に焦点を当てています: 一元配置分散分析の原則と考え方、および多因子分散を適用する方法。
1) ANOVAの紹介
【分散分析】 複数の母集団の平均値を比較する統計手法。1/多変量分散分析の要因? 3 つの ANOVA 質問の例:
- 4 つの異なる商標を持つ同じタイプの製品の品質指標が一貫しているかどうか。
- 同じ商品を 3 種類の異なる販売方法で販売すると、販売量に大きな違いが生じるでしょうか?
- 5 つの異なる住宅地で、居住者の購買力に有意差があるかどうか。
これらの例では、商標、販売方法、住宅地などが含まれています。グループを区別するための根拠通常、大文字の A 、 B 、 CA、B、Cを使用する因子 (因子とも呼ばれる) です。、_B 、Cなどはこれらの要因を表し、要因のさまざまな状態はレベルと呼ばれ、A 1 、 A 2 A_1、A_2あ1、あ2などと述べた。3 つの例はすべて、因子が 1 つしかないため、すべて一元配置 ANOVA です。因子が複数ある場合は、多元配置 ANOVA と呼ばれます。
一元配置分散分析では、比較するサンプル数は基本的に因子のレベル数です。たとえば、例 1. では、4 つの製品品質指標のサンプル平均を異なる商標 (それらが配置されている母集団の平均) と実際に比較しています。この例では、因子「ブランド」の因子レベルの数"は4です。
ANOVAで複数の母平均を比較する比較方法は何ですか? 両者の比較ではなく、同時に比較する、仮説検定の形式で記述:
H 0 : μ 1 = μ 2 = μ i = ⋯ μ k ↔ H 1 : μ i はすべて等しいわけではない H_0:\mu _1=\mu _2=\mu _i=\cdots \mu _k \leftrightarrow H_1: \mu _i\text{すべて同じではない}H0:メートル1=メートル2=メートル私=⋯メートルk↔H1:メートル私すべてが等しい
わけではありません、kkkはサンプル数 (因子水準) です。
母平均がすべて等しくない場合:
2) 一元配置分散分析
3) 二元配置分散分析
- 一元配置分散分析は複数の母平均を比較する機能を持っていますが、その本質は照会ファクターAAA は有意. 有意な場合、因子AAのためにこれらの母平均が等しくないことを意味します。Aが原因; 有意でない場合は、AAAはそれらを不等にすることはできません。
- 因子の数を 2 に増やすと、ANOVA は双方向の ANOVA になります。二元配置分散分析では、2 つの因子が有意であるかどうかだけでなく、2 つの因子の交互作用項が有意であるかどうかも調べることに注意してください (回帰分析と同様)。この種の多変量分散分析では、線形回帰モデルを借りて問題を解決すると、より少ないリソースで多くのことを実行できます。
3. 小さな演習
3 つの旋盤で同じボールを製造し、それぞれから 13、14、および 16 個の製品を抽出します。測定された直径は次のとおりです
。 , 14.5, 15.2;
B 旋盤: 15.2, 15.0, 14.8, 15.2, 15.0, 15.0, 14.8, 15.1, 14.8, 15.0, 13.7, 14.1, 15.5, 15.9;
C 旋盤: 14.6, 15.0 , 14.8, 13.5. ,15.5,16.2,16.1,15.3,15.4,15,9,15.2,16.0,14.8,14.9
有意水準がα = 0.01 \alpha=0.01であるとします。a=0.01、Q:
-
旋盤A/Bで作製したボールの直径は正規分布に従うか?
-
A/B旋盤のボール径のバラツキに大きな違いはありますか?
-
A/B 旋盤で製造されるボールの直径に大きな違いはありますか?
-
3 つの旋盤で生成されるボールの直径に大きな違いはありますか? 一元配置分散分析では、この質問の要因は何ですか?
添付:タイムスケジュール
仕事 | コンテンツ | 時間 |
---|---|---|
Task01 | 仮説検定 1: 方法論と単項数値検定 | 8-13 - 木曜日 8-18 |
Task02 | 仮説検定 2: 多変量数値ベクトル検定 | 8-29 - 土曜日 8-20 |
Task03 | 仮説検定 3: カテゴリデータ検定 | 8-21 - 8-22 月曜日 |
Task04 | 応用確率過程とシミュレーションシステム | 8-23 - 8-25 木曜日 |
Task05 | 財務定量分析と確率シミュレーション | 8-26 - 日曜日 9-28 |
参照
[1] https://github.com/Git-Model/Modeling-Uni verse/tree/main/Data
-Story [2] datawhale コース
[3]統計におけるデータの正規性テスト