仮説テスト(仮説検定)

仮説検定の定義

仮説検証:最初の全体的なインデックスの仮説を提唱して、仮説が真であるかどうかを判断するためのサンプルデータを使用しています。論理的に、仮説は背理法を使用してテストする、つまり、最初に提案仮説、再びこの仮定は、適切な基本的な統計的手法によってtrueにすることはできません証明しました。(統計的なランダムなサンプルからの結果は、結論は絶対にできませんので、我々は唯一の確率に基づいていくつかによると、裁判官に関連させることができるので、私は、「基本」と言います。)

 

仮説のテストはこれまでそう小さな確率事象が裁判で発生する小さな確率の考えに基づいています。特定さ未満の一定の標準仮定の可能性は、我々はこの仮説を棄却場合には、そうでない場合、我々は仮説を棄却する十分な証拠がないと言うだろうです。

 

サンプルデータは仮説を拒否した場合、我々は仮説検定の結果は統計学的に有意であると言います。テスト結果は、サンプルと母集団の違いを意味することは、サンプリングエラーが原因ではないか、誤って引き起こされ、統計学的に「重要」です。

 

長期的仮説検定

帰無仮説(帰無仮説)は:テストは仮説に対する証拠を収集することを望む、とも呼ばれる帰無仮説を通常Hと呼ばれる、0

たとえば、次の元のバージョンまたは平均屈折率の少ない平均屈折率の帰無仮説のテスト版。

 

対立仮説(対立仮説)は:テストは通常Hと呼ばれる、という仮説を支持する証拠を収集したいと考えている1またはH A

例えば:別の仮説検定は、平均の指標は、平均指数の元のバージョンのバージョンよりも大きいです。

 

両側検定(試験両側):いいえ特定の方向代替仮説の場合、記号を含む「≠」、そのような試験は両側検定と呼ばれます。

例えば:帰無仮説は、インデックスのバージョンをテストしている指標の元のバージョンの平均平均に等しい、別の仮説は、平均のテスト版の指標である元のバージョンの平均屈折率と等しくありません。

 

片側検定(試験一つはテール)対立仮説は、特定の指向性を有する、及びシンボルを含む場合、「>」または「<」、この試験は、片側検定と呼ばれます。片側試験は、左尾(下側尾)と右トレーリング(上部尾部)に分割されています。

例えば:帰無仮説テストバージョンインデックス少ない平均指数の元のバージョンを意味し、それはインデックスのテストバージョンの平均は、平均の元のバージョンよりも大きい対立仮説の指標です。

 

(インジケータオン)インジケーター:比較のための標準として使用します。

たとえば:インデックスは、1日に平均的なユーザーの滞在時間のページです。

 

検定統計量(検定統計):我々は、確率密度分布の分位にあります。実際の計算で分位数より多くの問題は、それがデータの分布密度関数の積分が得られるが必要です。

例えば:Z値、t値、F値、カイ二乗値。

 

有意水準(レベル意義):本人拒否しきい値の帰無仮説の確率、すなわち、第一のタイプは、αで示される、最大確率の誤差を作ります。

たとえば、5%の有意水準では、サンプルデータが帰無仮説を棄却します。

 

信頼(信頼水準):帰無仮説の正しい受け入れの確率、すなわち、1-α。

例えば:95%信頼水準は、測定試料が全体の期待に非常に近い意味することが95%確実です。

 

統計試験力(パワー):正常1-βという帰無仮説を棄却する確率。テスト結果は、帰無仮説を棄却する十分な証拠がない場合、人々は間違いを犯す可能性が低い統計的検定力、より大きな統計的検定力、詳細については懸念しています。

 

臨界値(臨界値):検定統計の特定の値と比較する値。

 

危険領域(クリティカル領域):範囲の帰無仮説の検定統計量を拒否、またその閾値によって設定された領域、拒絶領域(阻止領域)と呼ばれます。地域での検定統計量が拒否した場合、我々は、帰無仮説を棄却します。

8f3a9a0d33181a91974fe7a609978709_b

 

信頼区間(信頼区間ザ・は):母数ランダムな間隔が含まれています。我々は唯一の推定値は、それは点推定値と呼ばれている場合、全体的なサンプルを推定するために使用しました。しかし、点推定値は必ずしも正確ではありませんので、計算結果のランダムなサンプルは、同じではありませんたびに、範囲を持つこの時間は、全体の見積もりがより正確だろう。

例えば:95%信頼水準は、(母数を含む計算信頼区間でサンプルを100回、95回を想定)は、一般的に考えられたパラメータを含む95%信頼区間の確実性を示しています。

 

P値(P値):帰無仮説真サンプル得られた結果の観察またはより極端な確率を求めます。

テール左xのP値は、検定統計確率統計サンプルCよりも小さい、すなわち:P = P(X <C )
xの右尾P値は、検定統計確率統計サンプルC、すなわちより大きい.: P = P(X> C)
両側検定P値検定統計量の値C Xのサンプル統計は二倍端部領域のテール確率内に入るの、すなわち:P = 2P(X> C )( 場合C場合右端の分布曲線)、またはP = 2P(X <C) ( Cは、時間プロファイルの左端に位置する場合)。X tの分布および正規分布場合、分布曲線は、縦軸に対して対称であるので、Pの値がP = Pのように表すことができる{| X |> C}

 

2種類のエラーをテスト仮説

Iエラー(エラーが真の破棄)タイプ:帰無仮説が真の帰無仮説が棄却されるエラー。タイプIエラーが最大確率α(アルファ)と呼ばれます。

タイプIIエラー(誤警報を取る):帰無仮説が偽のエラーが帰無仮説を受け入れています。β(ベータ)として記録され、最大のタイプIIエラー確率。

4dd051bba151b3273fb1711c31abb9d7_b

 

仮説検定では、意思決定におけるエラーの2種類を作成することができます。起こり得ないエラーの二種類を回避しながら、一般的に、試料の場合にタイプIエラーを回避することは行われている間、IIエラーが発生型の確率を増加させる、または第二避けるだろう、すなわち、任意の意思決定を決定しますエラーの種類が発生している間、それは私のエラーが発生したタイプの確率が増加します。

 

エラーこれらの2つのタイプでは、人々は私にエラーを入力するためにもっと注意を払います。そのため、ほとんどの場合、人々は、タイプIエラーの確率を制御する発生し、αの値は、可能な限り小さくすべきです。仮説検定の間、それが設定されている第一のタイプに以前に有意水準αによる誤差値の確率を制御する、α値は、0.01,0.05,0.1使用されます。

 

ステップテスト仮説

1、全体を定義します
図2に示すように、帰無仮説が決定され、対立仮説
検定統計量を選択し(仮説テストの種類を決定するため)
4、有意のレベルを選択
図5は、全体として、特定のデータをサンプリングします
図6に示すように、検定統計量は、特定の値のサンプルデータに基づいて算出されます
サンプリング分布に従って構築7、検定統計量は、臨界値と棄却域を決定します
8は、地域の検定統計量の値が拒否した場合、検定統計量と臨界値の値を比較し、帰無仮説を棄却します

 

仮説検定の判断基準

試験方法は、ミスをする確率なので、2つの比較的類似した仮説検証のためのデータに与えられた制御の前に有意水準の使用であるので、我々はこれだけに基づいて、この方法により知ることができるという、間違いを犯す可能性が高いとする仮説を知ることができませんサブサンプリング第一およびエラーの最大の確率をコミットし、正確にどのように大きな確率レベルでのミスを知ることができません。P値は、実際にはこの問題に対する有効な解決策、検定統計量に基づいて算出されるサンプリング分布値に応じて計算された確率p値を算出しました。値と直接比較することによってP所与有意水準αの大きさではなく、検定統計量の閾値と明らかに特定のサイズの比較方法、仮説を拒否するかどうかを知ることができます。そして、このように、我々は、Pが数値がαよりも小さい場合である第一のカテゴリに誤りを犯すの正確な確率を知ることができます。P = 0.03場合<αが(0.05)、その後、この決定の確率は間違っている可能性が仮説を棄却0.03です。なお、P>α、それがないと仮定され、拒否された場合には、エラーの最初の種類が発生しない場合、ことに留意されたいです。

 

6,7,8テストを変更することができると仮定されるステップ:6、サンプルデータおよび対応するP値、特定の値に基づいて検定統計量を計算し、比較7、有意α及びP値の所定のレベル、結論:α> p値、帰無仮説は有意水準αで棄却された場合。

 

仮説検定の種類

含む:Z検定、t検定、カイ二乗検定、F検定。

 

ここではこれら四つの仮説検証を見ては、次のとおりです。

 

Zテスト(Zテスト)

Zテストは、テストサンプルと集団を意味するために使用されるか、または二つの異なる集団を意味するかどうか異なりました。これは、全体的な分散事前に知っておく必要があり、サンプル数が十分であることを。検定統計量Z値の分布が正規分布に従います。

 

同時にt検定は、少量のサンプル(上記大きなサンプルと考えることができるのサンプル数30、それ以外の場合は、少量の試料である)大きなサンプルに適用されているので、ので、ここでZテストをスキップし、t検定を集束させます。

 

t-検定(t検定)

t検定は、単一の標本t検定、t検定と独立サンプルt検定に分割されます。

 

1標本t検定(一のサンプルテスト-T ):サンプルと比較して平均と母集団のサンプルと全体の間の差を試験するために、平均。

ランダムサンプルが平均、μは0 sはサンプル標準偏差であり、全体的な平均値であり、nはサンプルの観測値の数、自由度n-1個の次数です)

 

t検定(対になった標本t検定)ペア 1の後に、2人の均質被験者は二つの異なる治療に処理し::平均値と試料の間の差は、次の状況の試験を比較することにより、全体的な差の平均値差; 2つの異なる治療差受信した後に、同じ被験者、治療差前後で同じ被写体を受信し、3。

2つの均質被写体場合は、サンプル2と関連しているたびに1を測定し、一対の観察であり、同一の被写体ならば、それはこのサンプルを2回測定している、観測対になっています値。対応のあるt検定は、1標本t検定を行った後、実質的に算出された第1の一対の観察との間の差です。

 Dは、データの各ペアの間の差であり、(Dサンプルは、平均差S D ¯は平均差のサンプル標準偏差、サンプルの標準誤差との間、すなわち差であり、S Dは、標準試料の差分の差分値であります、自由度n-1個の度のN対の観測数の)

 

独立サンプルt検定(独立したテスト-Tのサンプルワーク):全体の2つの異なる試料から抽出された平均値と比較して、2つの集団間の違いをテストします。今度は等分散と分散分けされているいずれの場合も、同じではありません。

 

これは、分散(またはプール等分散試験-Tに等しい):以下、各データの組、2つのデータセット、または分散のサンプルの同じ数。

 

 

不等分散(分散不等テスト-T ):各データが異なるサンプル、及び分散データの2つのセットの数はかなり異なっています。この仮説を試験としても知られてウェルチAPOS T検定

 

前提のt検定:1標本t検定した場合、サンプルは、全体的な正規分布から取らなければならない;それは対応のあるt検定である場合、それは2つのサンプル間の相関されなければならない、そして2つのサンプルを正規分布から採取しました全体として、独立したサンプルのt検定場合、2個のサンプルが互いに独立でなければならず、2つのサンプルを、一般的な2つのF検定を用いて分散の均一性を決定するための必要性に加えて、正常な集団から採取しました。

 

カイ二乗検定(カイ二乗検定)

カイ二乗検定は、体力テストや独立性のテストに分かれています。

 

体力テスト(テスト適合度):各カテゴリにおいて観察されたサンプル値と期待値と比較して、予想される結果と実際の結果との間の差を確認します。(サンプル及び全体的な検査---即ち間の単一および二サンプル差に即ち---試験試料2つの全体の違い)

 

適合試験H 0さ:無し差の所望の周波数との周波数を観察しました。

対応する観測周波数と期待周波数に充填する四重テーブル、テーブルの確立。

计算χ2值:(O代表观察频数,E代表期望频数)。如果统计量(χ2)的值很小,说明观察频数和期望频数之间的差别不显著,统计量越大,差别越显著。

根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝原假设;否则不能拒绝原假设。

 

独立性检验(Independence Test):用样本中两个类别的观察值与期望值进行比较,来检验样本中两个类别变量之间是否相互独立。

 

适合度检验H0是:两个类别变量之间没有关联。

建立列联表,一个变量作为行,另一个变量作为列。例如:

 
207 282
231 242

(表里填写的是分别喜欢猫或狗的男女人数,用于检验男女性别和喜欢的动物之间是否有关联)

计算出期望频数。

计算χ2值:,df=(行数 − 1)*(列数 − 1)

根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明两个类别变量之间有关联,应当拒绝原假设。

 

卡方检验的前提:卡方检验属于非参数检验,不存在具体参数,且不需要有总体服从正态分布的假设。

 

F检验(F test)

F检验分为方差齐性检验和方差分析。

 

(TEST-Fのための分散の平等)分散試験の均質性:同じ全体的な分散するかどうかを2回の試験を比較することにより、全体的な分散の2つの異なる試料から抽出されたと。

F = s^2_1 / s^2_2

S 2は、  試料のあるs^2 = \sum(x - \overline{x})^2 / (n-1)分散:

ほぼ同じ大きさの全体の分散からの二つのサンプルは、次いで、F値が1に近くなる場合、逆F値が非常に大きい場合、それは2つの集団はかなり異なっていることを示しています。

 

前提の分散検定の均質性は:2つのサンプルは、全体的な正規分布から取られ(注:F検定は、データの正規性に非常に敏感なので、時間の分散テストの均質性は、堅牢なレーベンテストがより優れているのでFテスト.Levene試験はまた、複数の試料の分散を比較するために使用することができます。)

 

分散(分散分析、ANOVA)の分析:一般的に、複数の間の差を試験するためにサンプルの2つの以上の異なる集団から抽出された平均値(全体の分散の大きさについてそれぞれ)と比較しました。今度は一方向ANOVAおよび多変量分散分析に分かれて分析。

 

ここで主にANOVAの話:周りで複数のサンプル間(グループ内平均二乗誤差)試料を内部分散で割った(群間の平均二乗誤差)平均二乗誤差。(ここで、全体の平均であり、kはサンプル数であり、N k個のサンプルの観測の総数です)

 

分散前提の分析:同じテストの前提条件にプールのテスト、すなわち、一般的に分散して独立したサンプルトンの正常性と均一性を満たしている必要があります。

 

全体的な分散が不足している場合は、WelchのANOVAを使用することができ、具体的には、以下を参照してください:注意http://www.real-statistics.com/one-way-analysis-of-variance-anova/welchs-procedure/

 

おすすめ

転載: www.cnblogs.com/HuZihu/p/9692828.html