5.31学习笔记(pandas)

pandas_profiling
数据预览要点:
i.类型,唯一值,缺失值
ii.分位数统计量:最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
iii.描述性统计数据:均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度
iv.相关性突出高度相关变量:Spearman与Pearson系数矩阵

探索性数据分析:对已有的(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

i.形成假设,确定主题去探索
ii.清理数据
iii.评价数据质量
iv.数据报表
v.探索分析每个变量
vi.探索每个自变量与因变量之间的关系
vii.探索每个自变量之间的相关性
①离散变量与离散变量、离散变量与连续变量、连续变量与连续变量
viii.从不同维度分析数据

import pandas as pd
import pandas_profiling
df = pd.read_csv('data/tcdata.csv')
col_names=df.columns.tolist()#列出所有列的名称
print('Column names:')
print(col_names)
print(df.shape)
print(df.info)
print(df.describe())
if __name__=='__main__':
    pfr=pandas_profiling.ProfileReport(df)
    pfr.to_file('data/tcdata.html')

pearson相关系数适用于两变量的度量水平都是尺度数据,并且两变量的总体是正态分布或近似正态分布的情况,样本量应大于30

在这里插入图片描述

缺失值处理
忽略元组:缺少类别标签时(假定挖掘任务涉及分类)。除非元组有多个属性缺失,否则该方法不是很有效。
人工填写缺失值:数据集很大,缺少很多值时不可行
使用一个全局常量填充缺失值(如Unknown或负无穷)。简单而不可靠,会把填充值当成挖掘对象。
使用与给定元组属同一类的所有样本的属性均值。
使用最可能的值填充缺失值:使用回归、贝叶斯形式化、推理、决策树归纳确定。

缺失值并不总是意味着数据的错误
使用重构索引reindexing创建一个缺少值的DataFrame

import pandas as pd
import numpy as np
df=pd.DataFrame(np.random.randn(5,3),index=['a','b','e','f','h'],columns=['one','two','three'])
df=df.reindex(['a','b','c','d','e','f','g','h'])
print(df)

结果:
one two three
a -1.596444 -1.373787 -1.038482
b -0.037173 -1.347887 1.073059
c NaN NaN NaN
d NaN NaN NaN
e -1.521660 0.728934 0.415666
f -0.459866 -0.142132 -0.480529
g NaN NaN NaN
h 0.554653 0.915658 -1.805254

发布了5 篇原创文章 · 获赞 2 · 访问量 2672

猜你喜欢

转载自blog.csdn.net/weixin_43621813/article/details/90723198
今日推荐