記述統計の統計データ(基本)

記述統計データ

少なくとも私はまだしようとしているノート、


 

内容:

データの中心傾向:

  • モード、中央値、平均値、変位値、貧しいです
  • 算術平均、加重平均、幾何平均

トレンドからのデータ:

  • 数値データ:分散、標準偏差、範囲、平均差
  • 配列データ:四分位
  • 部門データ:すべてのISO比

分散の相対度:

  • 変動係数

分布の形状:

  • 歪度、尖度係数

 

記述統計グラフやデータを記述するための統計ツールの数値要約によって、

(すべてのコードはパイソンに基づいています)

1. データの中心傾向:

モード:周波数は、データセット内の最高値が発生されます

1モード(データ)

 

中央:中央に位置した後、データ内のデータをソート

中央値(データ)

 

平均:すべてのデータは、データの数の合計で割って

平均値(データ)

分位:すなわちサブサイト、いくつかのアリコートに確率変数のデータポイントの確率分布を指す一般的に使用される中央値(即ち、バイナリ桁)、四分位、パーセンタイル番号など

DF1およびDF2 PDによるデータパケット 
グループ化= data.groupby([ ' DF1 '' DF2 ' ])
40%分位数分位数の計算によって 
グループ化された[ ' GMV ' ] .quantile(0.4)

#numpy
s1 = array(data['df3'])
np.percentile(s1,0.4)

 

乏しい:また、エラーまたは全ピッチレンジ(範囲)として知られている、Rで表される、統計最大値と最小値との間のギャップである(変化の測定)、すなわち最大値マイナスの数の変化を表すために使用され最小値の結果として得られるデータ

PTP(データ)

 


算術平均:データセットの代数和を割ることによってデータを得られるエントリの数平均

幾何平均:Nは、オープンデータの積のN乗根、(X1 *×2 *×3 *さえある ... * XN)^(1 / n)を。そして、一連の数値の幾何平均は、算術以下である定数を意味する!(X1の*×2 *×3 *  ... * XN)^(1 / n)の≤(X1 + X2 + X3 + ... + XN)/ N

加重平均オリジナルデータが合理的比率に応じて算出される(重量は比例株です

  数nは、X1 f1は一度発生した場合、x2はX1と呼ばれる時代のF2、...、FK XKは、その後、回表示されます(x1f1 + x2f2 + ... xkfk)/(F1 + F2 + ... + FK)が表示されますなど、X2、...、XK加重平均。F1、F2、...、FKはX1、X2、...、右をXKあります。

 

 


 

トレンドから2.データ:

数値データ:

分散は:確率論と統計的分散またはランダム変数の離散レベルのメトリックのセットの尺度です。分散は、偏差の程度の間(すなわち平均)確率論と確率変数のその数学的期待値の尺度です。統計的分散(標本分散)は、それぞれにそれぞれのデータとの平均平方の平均値との差です。ある研究分散は、偏りの度合いが非常に重要です。

  若しくは   

 

(データ)でした

 

標準偏差:単位基準値と算術平均の平方根の二乗偏差の各々の全体的な平均。その最良のデータの平均値からの偏差の程度を説明したが、我々は次元を扱っているデータの分散は、矛盾しているが、処理の結果は、我々の直感的な考え方と一致していません。

STD(データ)

差を意味する:一つは、各変数値の値との差の程度によって表されます。これは、平均偏差の絶対値が各変数の算術平均値をいいます。

平均差は、差分フラグの度合いより大きな演算を示す値、算術平均の少ない代表を意味する;差が小さいほど平均、差の小さい程度が算術演算は、各マーカーの値を意味することを示します平均代表になります。偏差がゼロになると、平均偏差および偏差を差分から得られた数で分割することができず、符号離れ絶対差から取らなければならない排除することによるものです。反応及び各フラグの算術平均値との間の平均差の差を意味します。

平均二乗誤差 

これは、平均二乗誤差推定値は、他の言葉で、見積額との差の程度の尺度である反映し、パラメータの値の2乗と期待値パラメータ推定値の真の値との差。MSEデータは変化の度合いを評価することができ、小さいMSE値は、予測モデルは、より良好な精度で実験データを記載されています

共分散:

共分散は、2つの変数の全体的な誤差の尺度です。2つの変数が同じような状況のとき、すなわち、分散共分散の特殊なケースです。共分散は、異なる可変誤差分散を表す2つの変数の全体的な誤差を表します。二つの変数の傾向が同じ場合は、その一つが彼らの期待よりも大きければ、他にも独自の予想よりも大きくなっていると言うことです、そして、2つの変数の間の共分散は正です。Aが所望の値よりも大きいが、さらに所望の値そのもの未満である二つの変数反対の傾向場合、すなわち、2つの変数間の共分散は負です。

配列データ

四分位範囲は、下部四分位(25%に位置してQ1)との間の差として、上部四分位(75%に位置しているQ3)です。

Q = Q3-Q1:それは次のように計算されます
50%の四分位範囲の中間データ反映 分散の度合いを 、より小さな値は、中間データセットの記述、より高い価値、データは、中間分散ことを示しています。 四分位範囲は、極端な値の影響を受けません さらに、中間位置におけるデータのビット数ので、従って、ある程度の四分位範囲の大きさは、説明し たデータの集合の代表の中央値レベル 四分位は、分散の程度は、配列データのために主に使用される測定します。数値データの四分位範囲のためではなく、データ分類のために、計算することができます。
データのセットが昇順(または降順)した後ため、すべてのデータポイント4等分3と、と呼ばれる四つの値に対応する位置に三点四分位分位数、それぞれのデータの25%は、データQ1、Q2以下であることを示す、としてQ1(第一四分位数)と呼ばれる(第2四分位数、すなわち、中央値)のデータが50%を説明しました等しいかQ2よりも小さいデータ、Q3(第3四分位)は、データの75%のデータを示す以下Q3に等しいです。差の半分との間のQ3にQ1はまた、距離の半分の四分位範囲として知られており、(Q3-Q1)/ 2と呼びます。
 
細分化データ:
すべての異なる比率 :傾向にある現象の研究から、指標の一つ。すべての異なる比率は倍、全体的な中国とアフリカの公共および合計のすべての回数の割合を指します。換言すれば、全ての異なる非パイロット比は、アレイの全ての総頻度数の割合を意味します。
 
これは   すべて異なるの比率を表し、
   
周波数が可変値の総数です。
   
全ての周波数アレイの  [1]  数、mは配列を表します
 
 

これは   、すべての異なる比率を表す   モードの数を表し、Nは、全体的なユニットの合計数を示す(すなわち、全体の数)

以下のためのすべての主要な尺度のISO比 分類されたデータの分散度 はもちろん、注文データと算出数値データには、すべて異なる比率であってもよいです。それもあるが 、分散の程度反映する 相対的指標を、異なる標準偏差係数を有します。
全てのISO比が主に使用される レベルの数は、すべてのデータセットの尺度を表します より大きいすべての異なる、非モーダルクラスの比が悪くモードの周波数を表すの合計数の割合も大きい周波数を記載し、すべてのすべての異なる小さな比、周波数の総数の非モーダルクラス小さい割合の頻度を、数より良い表現。

図3に示すように、分散の相対度

分散係数:また、変動係数として知られています。分散係数は、主に、サンプルデータの分散の異なる程度を比較するために、統計的データの分散の相対度の尺度です。データの分散度が小さい示す小さな分散係数、分散係数、データのばらつき度合いを示すことは大きいです。

分散係数は、各観測データの分散の統計度の値の尺度です。二つ以上の離散的なレベルの情報を比較する際、及び測定単位の平均数は同じ、標準偏差を直接比較することができる場合。ユニット及び(又は)平均数が同じでない場合、分散度を比較して比較するために用いられる平均比率(相対値)の標準偏差、および標準偏差を使用することはできません。           これは、全体的なサンプルの分散係数と分散係数を表します

 

確率論と統計、変動係数(変動係数)は、離散確率分布は、標準偏差として定義され、正規化されたレベルの測定値である  平均値から  より

                 分散係数(変動係数)のみの平均値で定義されているゼロではなく、一般的に平均値に適用すると、ゼロより大きい。また、標準単位またはスリップリスクからの変動係数として知られています。

 


 

4、分布形状:

歪度:また、Csと表されるランダムシーケンスを、割り当てられた統計パラメータの非対称性の程度を示す、変動係数として知られています。また、CVのみが平均的なケースおよび密度の程度の離散周波数分布曲線を反映し、その対称性(すなわち、スキュー)場合を反映していない、すなわち変動係数クソさらなるパラメータを導入する必要があります。、歪度の絶対値が大きいほど、より高度に歪みました。

  偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。

  简单偏态系数:

  加权偏态系数:  

 

  左右不对称即为偏态  。口诀一:看长尾在哪边就是往哪偏。口诀二:峰左移,右偏态;峰右移,左偏态

  偏态系数绝对值值越大,偏斜程度越厉害。SK< 0 左偏SK> 0 右偏。SK以mean、mode之差与σ的比例来计算的,因此mean>mode,也就是右偏的时候,SK>0

 

峰态系数:

用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同

峰度系数可以为负数

正态分布的峰度K=3,均匀分布的峰度K=1.8。kurtosis=K-3 称为超值峰度。kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多。kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少

 

 

 
个人笔记。。。
 

 

おすすめ

転載: www.cnblogs.com/zym-yc/p/11222018.html