スクラッチからのデータサイエンスと機械学習アルゴリズム-ナレッジポイント補足-00

パラメータ推定

点推定と区間推定の2つのカテゴリに分けられます。点推定はモーメント推定と最尤推定に分けられます。たとえば、推定降雨量。今日の降雨量が550mmと推定される場合、それは点推定です。 。500-600mmの場合、区間推定点です。概念理解:特定の母集団の特定のインデックスの状況を知りたい場合、インデックス全体の値を測定する作業負荷が大きすぎるか、現実に沿って、サンプリングを使用できます。このメソッドは、サンプルの一部を選択してその値を測定し、サンプル統計の値を使用して全体的な状況を推定します。たとえば、学校の生徒の身長を知りたい場合は、生徒の一部をランダムに選択して身長を測定し、平均値を取得してから、このサンプルの平均を使用して生徒の全体の身長を推定できます。 、つまり、点推定。区間推定は点推定に基づいており、パラメータ推定全体の区間範囲を示します。区間は通常、サンプル統計の推定誤差を加算または減算することによって取得されます。別の方法では、区間推定は、点推定とサンプリング標準誤差から開始し、指定された確率値に従って推定されるパラメーターを含む間隔を確立します。この指定された確率値は、信頼レベルまたは信頼レベルと呼ばれます。これは確立されます。推定されるパラメーターを含む間隔は、信頼区間と呼ばれます。信頼区間は、サンプル情報から導出された全体的なパラメーターを含む可能性のある数値間隔です。信頼水準は、信頼区間の信頼水準を示します。たとえば、学校の生徒の平均身長の区間推定:95%の信頼水準は次のようになります。学生の平均高さと見なされます平均高さは1.4メートルから1.5メートルの間、(1.4、1.5)は信頼区間、95%は信頼水準、つまり、この間隔に学校の平均高さが含まれているという95%の信頼度があります学生。
ここに画像の説明を挿入
ここに画像の説明を挿入

仮説検定のコアアイデア

ここに画像の説明を挿入
ここに画像の説明を挿入

偏りのある偏りのない推定

ここに画像の説明を挿入

## 随机生成1-10的数字生成10万个
%matplotlib inline
import matplotlib.pyplot as plt
from IPython.core.pylabtools import figsize
figsize(15,5)
import pandas as pd 
import numpy as np

np.random.seed(42)
# The population N's size is 100000
N=100000
population = pd.Series(np.random.randint(1,11,N)) # 随机生成1-10的数字生成N个
print(population)

ここに画像の説明を挿入

# 模拟数据抽样
samples={
    
    }
# The size of each sample 每个样本的大小
n=30
# We are going to draw 500 times of samples and each time ,we are going to take 30 of samples.我们将抽取500次样品,每次抽取30个样品。
num_of_samples= 500
for i in range(num_of_samples):
    samples[i]= population.sample(n).reset_index(drop=True)

samples=pd.DataFrame(samples) # 放入datafram中
samples

ここに画像の説明を挿入

# (Delta degree of freedom) ddof=0 diveded by n ddof=1 divided by n-1
biased_samples=samples.var(ddof=0).to_frame() # ddof=0 有偏置
biased_samples

ここに画像の説明を挿入
ここに画像の説明を挿入

biased_samples=biased_samples.expanding().mean() # 有偏
biased_samples

ここに画像の説明を挿入

biased_samples.columns=["biased var estimate (divided by n)"]
biased_samples

ここに画像の説明を挿入
ここに画像の説明を挿入

unbiased_sample=samples.var(ddof=1).to_frame()#无偏
unbiased_sample

ここに画像の説明を挿入

unbiased_sample=unbiased_sample.expanding().mean()
unbiased_sample

ここに画像の説明を挿入

unbiased_sample.columns=["unbiased var estimate(divided by n-1)"]
unbiased_sample

ここに画像の説明を挿入

ax=unbiased_sample.plot()
biased_samples.plot(ax=ax)
real_population_variance=pd.Series(population.var(ddof=0),index=samples.columns)
real_population_variance.plot()

ここに画像の説明を挿入

未完成の後続の更新

おすすめ

転載: blog.csdn.net/qq_37978800/article/details/114003899