平均について

平均について

  国家統計局が発表した情報によると、2019年に社会における労働者の平均賃金の国家都市民間の単位は82461元、公称2018を超える11%の増加、8.7%の実質増加に増加しました。労働者の平均賃金、社会での都市プライベートユニットは、49575元に達し、価格要因、6.1%の実際の成長を控除した後、2018年以上8.3%アップしています。

  大多数のユーザーにこれらのデータリードは疑問、何人かの人々は、彼らが社会主義をドラッグすると言うが、それは「平均で」、そこ暴君が言った、「彼らは悪貨はありませんが、我慢しませんでした。」多くの人が平均計算の国民局を笑う:「張は裕福と千万、9人の隣人の貧困者は、平均的な数学上で、それらのすべてが百万のシートです。」NBSによって計算されていない、単に「平均数学は、」これはまた、平均値と呼ばれるだけの平均算術平均、です。

手段

  我々はすべてのノウハウを意味し、それが最も根強いの平均である平均の合計は、あります。

  正規分布の仮定の下で、それはμで表さ数学的期待値、であることを意味し、それが反転ベルの中央に位置しています。

  それは、常に応答情報データを意味するものではありませんし、時にはそれが誤解与えることになります。以下の表は、例企業の月給です。

  同社は、平均月給です。

  治療は良い会社のように見えるが、実際は2人の幹部の給料がはるかに他の人よりも、彼らはデータの「外れ値」であるため、エンジニアやプロジェクトマネージャー毎日、昇給を求めていることです。次のコードは、ヒストグラム毎月のテーブルを描画します:

1  インポートnumpyのAS NP
 2  インポートASのPLTをmatplotlib.pyplot
 。3 
。4給与= np.array([4 ,. 4 ,. 4 ,. 5 ,. 5 ,. 6 ,. 6 ,. 7 ,. 7 ,. 7 ,. 6 ,. 6、25、35 ])
 5ミュウ= np.mean(給与)#の平均
。6  プリント' [μ= ' 、ミュウ)
 。7 
。8 plt.hist(給与、ビン= 40 。9 plt.xlabel(' 給料(千)' 10 plt.ylabel (' 周波数' 。11 plt.rcParams [ ' font.sans serif- ' ] = [ 'SimHei " ]   中国の通常の表示ラベルの
12がある(plt.show)

  2人の役員は、単離された、彼らの月給は、右スキューを形成し、右側に偏っ平均我々はデータが、むしろ、右の異常値のために傾いていると言った場合には、結果の精度を、影響を与えます状態分布。

  この歪み逆釣鐘曲線は左(負の歪度)と右斜め(正の歪度)に分け、尾、歪度の位置に応じて、歪んだ分布となります。

  

  左に、左斜めのプルを意味します、この時間は以下の平均値の大半よりも、右へ右斜めのプルを意味し、この時間のほとんどは、平均値よりも大きくなります。給与データは右歪んでいます。

  異常値は、異常検出アルゴリズムの数、そのような正規分布に基づいて異常な因子として教師なし学習アルゴリズム、及び異常検出ローカルによって除去することができます。

中位数

  異常データは、平均値を誤解すると、別の平均値である中央値を、してみてください。

  その名前が示すように、中央値は、データの真ん中に常にあります。最初のデータは、それが奇数である場合、中央値は正確に中央で、サイズ順に並べ替え、それが偶数である場合、中央値は、二つの中間データの平均です。

  給与を拡大するために、中央のアルゴリズムによると:

  中央値は6であるので、14の総数は、図6に示すように、中央に正確です。

1給与= np.array([4、4、4、5、5、6、6、7、7、7、6、6、25、35 ])
 2メジアン= np.median(給料)
 3  プリント' 中央値= "、中央値)中央値= 6.0

  期間の中央値は、そこのバランスをオフにスローされます。

  遊園地の競争力を高めるために、管理者が適切に来場者の年齢に基づいてプロジェクトの数を増減することにしました。オンラインチケット販売を取るために遊園地、すべての訪問者が購入歳の時に記入する必要があります。来場者の平均年齢は20で算出したデータ収集、の3ヵ月後、それは大規模かつ大規模なジェットコースターを追加し、その後、緩やかな遊園地の下で、このようなプロジェクトのカルーセルラック時代の興奮でした振り子。次の週末:

  ほとんどの訪問者が子供を持つ親で、小さいモデルの大きなプラスは、次のようにただ、14人が参加し自分の年齢を持ってプロジェクトをするとします。

  まあ、今の中央値は、年齢の若い人たちのためのプロジェクト、20年には、その後、参加すると結論づけ、20:

1つのAGE np.array =([5 ,. 5 ,. 5 ,. 6 ,. 6 ,. 7 ,. 8、32、32、32、34は、35、36、36 ])
 2  プリント' [μ= '、ages.mean() )np.meanに平均等価(年齢)
。3  プリント' 中央値= '、np.median(年齢)) 中央値
。4 plt.hist(年齢、ビン= 40 。5 plt.xlabel(' 高齢' 。6 plt.ylabel(' 周波数' 。7 plt.rcParams [ ' font.sans serif- ' ] = [ ' SimHei ']   通常表示中国のラベルのために
。8 plt.show()

    μ= 19.928571428571427、中央値= 20.0、ヒストグラム次のように:

  データこぶ型、平均値と中央値は谷にある、その理由は、データを2つのグループ、子供たちのグループ、両親の別のグループに分けられなければならないです。この場合、平均値と中央値は、使用する必要は飛んでいない「会衆の数を。」

众数

  モードも平均して、データのセットは、中間値の最大数です。最初の二つの異なる平均は、データのモード設定をより有していてもよいです。データはトレンドの様々な表示されている場合、我々は公共に各トレンドの番号を与えることができます。遊び場年齢データを2つのグループに分けることができ、そのようなデータは二峰性のデータであると述べました。

  このような観察、キム挿入方法、Pearsonおよび経験的方法のようなモードを得るための多くの方法。ここでは、法律を遵守ブリーフィングします。統計的な周波数値、モードとして選択された1つまたはいくつかの最も高い周波数に応じて、第1のデータパケット:おおよそ2つの観察ステップに分けます。パンダは、モードを取得するために使用することができます。

1頭の インポートPDとしてパンダ
 2 DF = pd.DataFrame(年齢)
 3  プリント(df.mode()) 众数

  5及び32は結果です。

  モードのみプロパティは、平均のパケットが付属していますが、データの集合のあまりモードならば、この時だけ役に立たないの数を国民に混乱させます。

  最後に、会衆の数、中央値は異なる関係の分布の平均を添付:


  著者:私は8ビットをしています

  出典:http://www.cnblogs.com/bigmonkey

  本論文では、学び、共有し、研究に基づく、転載の場合は、著者とソース、非商用の使用を示す、私に連絡してください! 

  すべての世間の注目号の二次元コードスキャン「私は8でした」

おすすめ

転載: www.cnblogs.com/bigmonkey/p/11799258.html