单因子探索分析

集中趋势

  • 均值、中位数、众数、分位数

离中趋势

  • 标准差、方差

偏态与峰度

  • 偏态系数与峰态系数

分布概率

  • 正态分布与三大分布

抽样理论

  • 抽样误差与精度
df.mean()
df.median()  # 中位数
df.quantile(q = 0.25)  # 下四分位数
df.mode()  # 众数
df.std()  # 标准差
df.var()  # 方差
df.sum()
df.skew()  # 偏态系数(如果为正:大部分数大于平均值:正偏)

# 正态分布
import scipy.stats as ss
ss.norm
ss.norm.stats(moments="mvsk")  # 返回均值方差偏态系数峰态系数
ss.norm.pdf(0.0)  # 返回分布函数在0.0上的值
ss.norm.ppf(0.9)  # 从负无穷到多少等于0.9(积分等于0.9)
ss.norm.cdf(2)  # 从负无穷积分到2的累积概率
ss.norm.rvs(10)  #10个符合正态分布的数字

# 卡方分布
ss.chi2
# t分布
ss.t
# f分布
ss.f

#抽样
df.sample(n=10)  # 抽10个样
df.sample(frac=0.001)  # 按白粉比抽

数据分类

  • 定类(类别):根据事物离散、无差别属性进行分类
  • 定序(顺序):可以界定数据大小,但不能测定差值
  • 定距(间隔):可以界定数据大小,可测定差值,无绝对零点
  • 定比(比率):可以界定数据大小,可测定差值,有绝对零点

单属性分析

  • 异常值分析:离散异常值,连续异常值,常识异常值
  • 对比分析:绝对数与相对数,时间、控件、理论维度比较
  • 结构分析:各组成部分的分布与规律
  • 分布分析:数据分布频率的显示分析

对FR.csv的分析

# 去除异常值
df = df.dropna(axis=0,how="any")

# satisfaction_level
sl_s = df["satisfaction_level"]
sl_s.isnull()  # 列出是否有异常值
sl_s[sl_s.isnull()]  # 查看哪些是空置
df[df["satisfaction_level"].isnull()]   # 查看空值数据
sl_s = sl_s.dropna()  /  sl_s = sl_s.fillna()   # 丢弃/填充异常值
sl_s.skew()  # 偏度
sk_s.kurt()  # 峰度
np.histogram(sl_s.values, bins=np.arange(0.0,1.1,0.1))  # 直峰图绘制(查看每个区间的数的分布)   bins=10分成10份   np.arange(min,max,间隔)

#LastEvaluation
le_s = ls_s[le_s<=1]  # 删除大于1的数据

#NumberPrice
np_s.value_counts()  # 查看每个数counts
np_s.value_counts(normalize=True)  # 获取构成与比例
np_s.value_counts(normalize=True).sort_index()  #对index排序h_s


# 对比分析
df.groupby("department").mean()
df.loc[:,["last_","depar"]].groupby("depar").mean()

猜你喜欢

转载自blog.csdn.net/zhaohaibo_/article/details/81488085