统计学第二周&第三周打卡：数据的度量性概括及python实现 - 代码天地

统计学第二周&第三周打卡：数据的度量性概括及python实现

其他 2020-04-14 11:27:48 阅读次数: 0

集中趋势

定义

反映的是一组数据向某一中心聚拢的趋势。

度量值

众数：反应一组数据的最高峰，适用于分类数据。
中位数：反应的是一组数据的中间值，适用于顺序数据。
平均数：全部数据的加权平均值或者简单平均值，适用于顺序数据和数值数据。
四分位数：四分点，排序后处于25%和75%的数值，，适用于顺序数据。

python实现

import pandas as pd
import numpy as np
df=pd.read_csv(r'C:\Users\admin\Desktop\test.csv')

yuwen=list(df['语文'])
avg_yw=np.mean(yuwen)
mid_yw=np.median(yuwen)
cur_yw=np.argmax(np.bincount(yuwen))
qu_yw_1=np.quantile(yuwen,0.25)
qu_yw_2=np.quantile(yuwen,0.75)

print("平均值：",avg_yw)
print("中位数：",mid_yw)
print("众数：",cur_yw)
print("四分位25%",qu_yw_1)
print("四分位75%",qu_yw_2)

在这里插入图片描述

离散程度

定义

反应的是一组数据远离中心值的趋势。

度量值

异众比例：频数/总频数*100%，适用于分类数据。
四分位差：上四分位值-下四分位值，反映了中间50%数值的离散程度，适用于顺序数据。
极差：最大值-最小值，反映了整体数值的离散程度，容易受极值影响，适用于数值数据。
平均差：各变量与平均值离差绝对值的平均数，以平均数为中心，反应每个数据与平均数的平均离散程度，适用于数值数据。
方差：各变量与平均值离差平方的平均数，最常反应离散程度的测量值，适用于数值数据。
标准差：根号下方差，与方差区别在于标准差有量纲，适用于数值数据。
离散系数：标准差/平均数，主要反应的是不同样本的离散程度，适用于样本间的相对离散程度。

python实现

import pandas as pd
import numpy as np
df=pd.read_csv(r'C:\Users\admin\Desktop\test.csv')

yuwen=list(df['语文'])
qu_yw_1=np.quantile(yuwen,0.25)
qu_yw_2=np.quantile(yuwen,0.75)
max_yw=np.max(yuwen)
min_yw=np.min(yuwen)
cov_yw=np.cov(yuwen)
std_yw=np.std(yuwen)

print("四分位差：",qu_yw_2-qu_yw_1)
print("极差：",max_yw-min_yw)
print("方差：",cov_yw)
print("标准差：",std_yw)

在这里插入图片描述

分布形状

定义

偏态和峰态主要反应的是数据分布形态是否对称、偏斜的程度以及分布的扁平程度等。

度量值

偏态系数：对于数据对称性的度量值（> 0，右偏；< 0，左偏；= 0，正态）
峰态系数：相对于正态分布而言的度量值（= 3，正态；> 3，厚态；< 3，瘦态）

python实现

import pandas as pd
import numpy as np
df=pd.read_csv(r'C:\Users\admin\Desktop\test.csv')

yuwen=list(df['语文'])
avg_yw=np.mean(yuwen)
cov_yw=np.cov(yuwen)

sc_yw=np.mean((yuwen-avg_yw)**3)
ku_yw=np.mean((yuwen-avg_yw)**4)/pow(cov_yw,2)

print("偏斜度",sc_yw)
print("峰度",ku_yw)

在这里插入图片描述
从数据上看，整体数据分布右偏，瘦尾。

macmurphy

发布了23 篇原创文章 · 获赞 0 · 访问量 622

私信关注

猜你喜欢

转载自blog.csdn.net/macmurphy/article/details/103003801

统计学第二周&第三周打卡：数据的度量性概括及python实现

统计学第五周打卡：概率与概率分布python实现

重温统计学--python实现概括性度量

ARTS第三周打卡

统计学第一周打卡：数据图表的展示

统计学第八周&第九周打卡：参数估计

统计学第六周&七周打卡：抽样与抽样分布

统计学笔记（一）：数据概括性度量

ARST第二周打卡

统计学第十四周打卡：方差分析理论

统计学第四周打卡：概率与概率分布

统计学第十周打卡：假设检验

Python统计学一数据的概括性度量

Python打卡第三周

第三周打卡：A-归并排序&堆排序

机器学习第三周打卡：归一化+KD树+特征预处理

第二周总结，第三周计划

20182310 第二周&第三周学习总结

《统计学》学习笔记之数据的概括性度量

【统计学笔记】第四章数据的概括性度量

ARTS打卡第三周

【ARTS】打卡第三周

ARTS学习打卡--第三周

统计学任务2打卡

第三周第二次作业

第三周第二天课程

3.14（第三周第二节课）

第三周--疫情统计

《统计学》贾俊平第四章数据的概括性度量学习总结

统计学第十二周打卡：回归分析

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)