CDAデータアナリストが作成
信頼区間の概念は、ポーランド出身のアメリカの統計学者Jerzy Naimanによって提唱されました。
たとえば、北京から張家界に5日間旅行する場合、その費用が正確にわからない場合がありますが、10000〜13000などの範囲を指定すると、信頼性が高まります。与えられた範囲が10000〜30000などの大きすぎる場合、信頼性は高くなりますが、そのような大きな範囲はほとんど意味がありません。与えられた範囲が10000〜10500などのように小さい場合、精度は向上しますが、信頼性はあまり高くないようです。適切な評価範囲を見つけることは、信頼区間によって解決される問題です。
信頼区間については、ポイント推定と区間推定について話し合う必要があります。
では、ポイント推定とは何ですか?インターバル推定とは何ですか?
私は以前にそのような例を見たことがあります。これはこの問題を完全に説明できます〜
以前はスクラッチカードが人気でした:
ゲームのルールは次のとおりです(ジャックポットが1つしかない場合):
・グランプリは事前に固定されており、スクラッチカードに印刷する必要があります
・スクラッチカードを購入すると、勝ったかどうかがわかります
次に、賞品をこするための少なくとも2つの戦略があります。
・ポイントの推定:1つ購入します。これは、この1つが勝つと推測することと同等です(サンプル統計を直接使用して、全体的なパラメーター値を推定します)
・間隔の見積もり:ボックスを購入します。これは、このボックスに特定の賞品があると推測することと同等です(サンプル統計によると、全体的なパラメーター値を含む特定の確率サイズに従って)。
明らかに、区間推定のヒット率は高くなります(もちろん、リスクが軽減されるため、コストは高くなります)。
実際に:
ポイントエスティメータは、全体的なパラメータを推定するために使用されるサンプル統計です。しかし、点推定器が全体的なパラメーターの正確な値を与えることを期待することはできないため、間隔推定を計算するために推定誤差を追加または減算することがよくあります。
区間推定の一般的な形式は、点推定±限界誤差です。
長さθが不明な成分があり、θは9 cmと推定し、十分ではありません。θの確率が95%(8.7cm、9.2cm)であることを知ることができれば、はるかに理想的です。
次に、これから他の2つのキーワードにつながりました。
信頼区間と信頼レベル
それらの中で(8.7cm、9.2cm)信頼区間を理解でき、95%が信頼レベルです。
標本統計によって作成された全体的なパラメーターの推定区間は、信頼区間です。統計学者は、この区間に真の全体的なパラメーターが含まれるとある程度判断するため、信頼区間に名前が付けられます。統計では、確率サンプルの信頼区間は、このサンプルの特定の全体的なパラメーターの区間推定です。信頼区間は、このパラメーターの真の値が特定の確率で測定結果の周囲にどの程度あるかを示します。信頼区間は、測定パラメーターの測定値の信頼性を示します。これは、以前に必要な「特定の確率」です。この確率は信頼水準と呼ばれます。
簡単に理解するために、100個のサンプルを描画します。サンプルを連続的に変更すると、100個のサンプルから作成された全体的なパラメーターの100個の信頼区間の95%に全体のパラメーターの真の値が含まれ、5%には含まれません。この95%は信頼水準と呼ばれ、1-αです。
一般的な信頼水準の概要は次のとおりです
それでは、どのように信頼区間を確立しますか?
信頼区間の確立は、中心極限定理と標本分布に関連します。特定の信頼度の条件下では、信頼区間の幅は標本分布に依存し、標本サイズの増加とともに減少します。信頼係数が増加すると、信頼区間の幅が増加します。
たとえば、国内の成人男性の平均の身長を知りたい場合は、サンプリング方法を使用して、サンプル情報を使用して全体的な情報を推定できます。標本は国民から抽出されます。この標本の平均値と全体の平均の点推定です。複数の標本がある場合、複数の点推定がありますが、どの標本が母集団を最も正確に推定するかわからないため、間隔を使用しますこの問題を解決すると推定されます。国の成人男性の平均身長が165-175cmであると仮定すると、この間隔は信頼区間と呼ばれ、[165,175]、この間隔の信頼レベルは信頼レベルで表されます。信頼レベルは、信頼区間が全体の平均を含む確率を指しますたとえば、信頼水準は95%です。
もちろん、異なる状況で異なるタイプの区間推定が使用される場合、使用される分布も異なります。ここでは、簡単に理解します。
1.合計サンプルパラメータの場合:
2. 2つの全体的なサンプルパラメータ:
理解するための例として、母平均の区間推定を見てみましょう。
【例】食品製造会社は主に袋詰め食品を生産しており、食品の品質を監視するために、品質検査部門が現場検査を行い、袋ごとの重量が要件を満たしているかどうかを分析しています。これで、特定の日に生産された食品のバッチから25個のバッグがランダムに選択され、各バッグの重量が次の表に示すように測定されます。製品重量の分布は正規分布に従い、全体の標準偏差は10gであることが知られています。製品のバッチの平均重量の信頼区間を95%の信頼水準で推定してみてください。
食品の平均重量の信頼区間は101.44g〜109.28gです
練習問題を通してもう一度修正しましょう:
品質検査のために製品のバッチからランダムに100個のボックスを選択し、72個のテスト結果が適格です。95%の確実性で製品のバッチの間隔を推定し、サンプルの平均サンプリングエラーと限界エラーを指摘してください。
合格率の間隔推定:
タイトルによると、次のように表示されます:n = 100 p = 72%1-α= 0.95
なぜなら、p±Zα/ 2・{p(1-p)/ n}½(全体の比率信頼区間)
α= 0.05テーブルを検索して、Zα/ 2 = 1.96を取得します
p±Zα/ 2・{p(1-p)/ n} Getを取得
= 0.72±1.96×{0.72(1-0.72)/ 100}½
= 0.72±1.96×(0.448 / 10)
= 0.72±0.088
間隔は[0.632、0.808]です
現在の流行では、過去の慌ただしいペースがようやく減速し、キャリアプランやライフプランを考える時期でもあります。事前に準備し、事前に計画し、将来に備えてエネルギーを蓄えましょう!