頻度分析 -特定の分類方法を使用して配列を分類し、各グループの下のサンプル数をカウントし、チャートを使用して配列の分布傾向をより直感的な方法で説明します。
ビジネス上の重要性:実際のデータ分析作業では、問題を見つけて問題を解決するために、インデックス統計の特定のディメンションに従ってデータをセグメント化する必要があることがよくあります。
例:クラスの生徒40人。テスト結果は次のとおりです。
[73,87,88,65,73,76,80,95,83,69,55,67,70,94,86,81,87,95,84,92,92,76,69,97,72 、90、72、85、80、83、97、95、62、92、67、73、91、95、86、77]
中心的な傾向
print( 'Mean:' + str(round(np.mean(score)、1))、 'Median:' + str(np.median(score))、 ' Mode:' + str(stats.mode (スコア)[0] [0])) 平均:81.3中央値:83.0モード:95
分散度
print( '最高スコア:' + str(最大(スコア))、 '最低スコア:' + str(最小(スコア))、 '悪い範囲:' + str(最大(スコア)-最小(スコア))、 ' 四分位範囲: '+ str(np.quantile(score、0.75)-np.quantile(score、0.25))、' Variance: '+ str(round(np.var(score)、1))、' Variance : '+ str(round(np.std(score)、1))) 最高スコア:97最低スコア:55範囲:42 四分位範囲:18.5分散:118.1分散:10.9
- 最高スコアは97で、モードは95です。これは、学生のスコアが高いセグメントに集中していることを示しています。これは、テスト用紙が難しくないことを反映しています
- 最低スコアと平均の差は81.3-55 = 26.5であり、偏差が大きいため、学生はそれに注意する必要があります。
場合は、上記の情報に加えて、データのみの指標に基づいて依存している、データの総合的な解釈をすることは困難です。
データ頻度表 - データのいくつかの次元によれば、配列は統計のためにセグメント化されます。
bins = np.arange(55,101,5)#成绩分段bins = pd.cut(df、bins、include_lowest = True、right = False) bins_score = df.groupby( bins )bins_score.count() [ 55、60 ) 1 [60、65)1 [65、70)5 [70、75)6 [75、80)3 [80、85)6 [85、90)6 [90、95)6 [95、100)6 DTYPE :int64
上記の表から、各セグメントの学生数は比較的平均的であることが直感的にわかります。これは、試験がギャップを広げず、2段階の差異を形成したことを示しています。さらに、スコアが低く、追加の注意が必要な学生もいます。
頻度ヒストグラム
plt.hist(score、bins = 9) plt.show()
ボックスプロット
plt.boxplot(score) plt.show()
まとめ
データ分析において、最も重要なことは周波数分析方法ではありませんが、周波数分析で具体化された分類のアイデア、データ次元はセグメント化された統計、問題を見つけるためのデータのより直感的な観察です。
2020-04-15 01:54