XIII、カーネル密度推定

参照URL:

https://jakevdp.github.io/PythonDataScienceHandbook/05.13-kernel-density-estimation.html

D次元確率分布の推定アルゴリズムを生成するために、D次元のデータセットを用いた密度評価者は、異なるアルゴリズムGMMは、ガウス確率分布推定値は要約を表現重み付け。本質的に密度パラメータ評価を得ないように、各点のガウス分布を生成する成分を混合することによって、ガウス混合論理限界(論理極度)の概念を拡張するカーネル密度推定(カーネル密度推定、KDE)アルゴリズム。

1、KDEの起源:ヒストグラム

  密度推定評価確率分布モデルをデータセットを生成するために発見アルゴリズムです。

  一次元データ密度推定 - ヒストグラムは、単純な密度評価で、ヒストグラムデータを複数の区間に分割され、統計的ポイントの数は、結果を視覚化する直感的な方法で、各間隔内に入ります。

  

 

  

 

   

 

  

 

   

 

   

2、実用的なアプリケーションのカーネル密度推定

  無料パラメータカーネル密度推定は、コアタイプ(カーネル)のパラメータである、彼は核密度分布の各点の形状を指定することができます。

  核帯域(カーネル帯域幅)パラメータを制御する各コア・ポイントのサイズ

  sklearn.neighbors.KernelDensity評価におけるカーネル密度推定アルゴリズムは、いずれかのコア、20または30 KDE距離メトリックによって6つのコアは、複数の次元で処理することができます。

  Scikit-学ぶ底評価者は、ツリーベースのアルゴリズムを使用して、計算KDEの非常に大きな量が、アトル(絶対フォールトトレランス)とRTOL(相対フォールトトレランス)を利用することができるバランスの計算時間と精度のパラメータがScikit-学ぶ使用することができます原子力帯域幅の自由パラメータを決定するための標準的なクロスチェックツール。

  

 

   帯域幅の選択をクロスチェックすることにより

  KDEでは、右の密度推定を見つけるためだけではなく、選択肢の帯域幅は非常に重要ですが、また、密度推定における制御偏差 - キー分散のバランス:

  (1)狭帯域は、推定展示高分散(すなわち、オーバーフィッティング)につながりますが、そこにすべての点であるか、または削除は大きな違いが生じます

  (2)帯域幅が広すぎると推定展示高偏差(すなわち、あまりフィット)が発生するだけでなく、核、より広い帯域幅のデータ構造を弱体化させるだろうさ

  

  パラメータを学習チューニングスーパーマシンは通常、クロスチェックによって達成されます。

  

 

  

 

 

 

おすすめ

転載: www.cnblogs.com/nuochengze/p/12542515.html