单因子探索分析

集中趋势

均值、中位数、众数、分位数

离中趋势

标准差、方差

偏态与峰度

偏态系数与峰态系数

分布概率

正态分布与三大分布

抽样理论

抽样误差与精度

df.mean()
df.median()  # 中位数
df.quantile(q = 0.25)  # 下四分位数
df.mode()  # 众数
df.std()  # 标准差
df.var()  # 方差
df.sum()
df.skew()  # 偏态系数（如果为正：大部分数大于平均值：正偏）

# 正态分布
import scipy.stats as ss
ss.norm
ss.norm.stats(moments="mvsk")  # 返回均值方差偏态系数峰态系数
ss.norm.pdf(0.0)  # 返回分布函数在0.0上的值
ss.norm.ppf(0.9)  # 从负无穷到多少等于0.9（积分等于0.9）
ss.norm.cdf(2)  # 从负无穷积分到2的累积概率
ss.norm.rvs(10)  #10个符合正态分布的数字

# 卡方分布
ss.chi2
# t分布
ss.t
# f分布
ss.f

#抽样
df.sample(n=10)  # 抽10个样
df.sample(frac=0.001)  # 按白粉比抽

数据分类

定类（类别）：根据事物离散、无差别属性进行分类
定序（顺序）：可以界定数据大小，但不能测定差值
定距（间隔）：可以界定数据大小，可测定差值，无绝对零点
定比（比率）：可以界定数据大小，可测定差值，有绝对零点

单属性分析

异常值分析：离散异常值，连续异常值，常识异常值
对比分析：绝对数与相对数，时间、控件、理论维度比较
结构分析：各组成部分的分布与规律
分布分析：数据分布频率的显示分析

对FR.csv的分析

# 去除异常值
df = df.dropna(axis=0,how="any")

# satisfaction_level
sl_s = df["satisfaction_level"]
sl_s.isnull()  # 列出是否有异常值
sl_s[sl_s.isnull()]  # 查看哪些是空置
df[df["satisfaction_level"].isnull()]   # 查看空值数据
sl_s = sl_s.dropna()  /  sl_s = sl_s.fillna()   # 丢弃/填充异常值
sl_s.skew()  # 偏度
sk_s.kurt()  # 峰度
np.histogram(sl_s.values, bins=np.arange(0.0,1.1,0.1))  # 直峰图绘制（查看每个区间的数的分布）   bins=10分成10份   np.arange(min,max,间隔)

#LastEvaluation
le_s = ls_s[le_s<=1]  # 删除大于1的数据

#NumberPrice
np_s.value_counts()  # 查看每个数counts
np_s.value_counts(normalize=True)  # 获取构成与比例
np_s.value_counts(normalize=True).sort_index()  #对index排序h_s


# 对比分析
df.groupby("department").mean()
df.loc[:,["last_","depar"]].groupby("depar").mean()

集中趋势

离中趋势

偏态与峰度

分布概率

抽样理论

数据分类

单属性分析

对FR.csv的分析

猜你喜欢