集中趋势
离中趋势
偏态与峰度
分布概率
抽样理论
df.mean()
df.median()
df.quantile(q = 0.25)
df.mode()
df.std()
df.var()
df.sum()
df.skew()
import scipy.stats as ss
ss.norm
ss.norm.stats(moments="mvsk")
ss.norm.pdf(0.0)
ss.norm.ppf(0.9)
ss.norm.cdf(2)
ss.norm.rvs(10)
ss.chi2
ss.t
ss.f
df.sample(n=10)
df.sample(frac=0.001)
数据分类
- 定类(类别):根据事物离散、无差别属性进行分类
- 定序(顺序):可以界定数据大小,但不能测定差值
- 定距(间隔):可以界定数据大小,可测定差值,无绝对零点
- 定比(比率):可以界定数据大小,可测定差值,有绝对零点
单属性分析
- 异常值分析:离散异常值,连续异常值,常识异常值
- 对比分析:绝对数与相对数,时间、控件、理论维度比较
- 结构分析:各组成部分的分布与规律
- 分布分析:数据分布频率的显示分析
对FR.csv的分析
df = df.dropna(axis=0,how="any")
sl_s = df["satisfaction_level"]
sl_s.isnull()
sl_s[sl_s.isnull()]
df[df["satisfaction_level"].isnull()]
sl_s = sl_s.dropna() / sl_s = sl_s.fillna()
sl_s.skew()
sk_s.kurt()
np.histogram(sl_s.values, bins=np.arange(0.0,1.1,0.1))
le_s = ls_s[le_s<=1]
np_s.value_counts()
np_s.value_counts(normalize=True)
np_s.value_counts(normalize=True).sort_index()
df.groupby("department").mean()
df.loc[:,["last_","depar"]].groupby("depar").mean()