5.31学习笔记（pandas）

pandas_profiling
数据预览要点：
i.类型，唯一值，缺失值
ii.分位数统计量：最小值，Q1,中位数，Q3，最大值，范围，四分位数范围
iii.描述性统计数据：均值，模式，标准差，总和，中位数绝对偏差，变异系数，峰度，偏度
iv.相关性突出高度相关变量：Spearman与Pearson系数矩阵

探索性数据分析：对已有的（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

i.形成假设，确定主题去探索
ii.清理数据
iii.评价数据质量
iv.数据报表
v.探索分析每个变量
vi.探索每个自变量与因变量之间的关系
vii.探索每个自变量之间的相关性
①离散变量与离散变量、离散变量与连续变量、连续变量与连续变量
viii.从不同维度分析数据

import pandas as pd
import pandas_profiling
df = pd.read_csv('data/tcdata.csv')
col_names=df.columns.tolist()#列出所有列的名称
print('Column names:')
print(col_names)
print(df.shape)
print(df.info)
print(df.describe())
if __name__=='__main__':
    pfr=pandas_profiling.ProfileReport(df)
    pfr.to_file('data/tcdata.html')

pearson相关系数适用于两变量的度量水平都是尺度数据，并且两变量的总体是正态分布或近似正态分布的情况，样本量应大于30

在这里插入图片描述

缺失值处理
忽略元组：缺少类别标签时（假定挖掘任务涉及分类）。除非元组有多个属性缺失，否则该方法不是很有效。
人工填写缺失值：数据集很大，缺少很多值时不可行
使用一个全局常量填充缺失值（如Unknown或负无穷）。简单而不可靠，会把填充值当成挖掘对象。
使用与给定元组属同一类的所有样本的属性均值。
使用最可能的值填充缺失值：使用回归、贝叶斯形式化、推理、决策树归纳确定。

缺失值并不总是意味着数据的错误
使用重构索引reindexing创建一个缺少值的DataFrame

import pandas as pd
import numpy as np
df=pd.DataFrame(np.random.randn(5,3),index=['a','b','e','f','h'],columns=['one','two','three'])
df=df.reindex(['a','b','c','d','e','f','g','h'])
print(df)

结果：
one two three
a -1.596444 -1.373787 -1.038482
b -0.037173 -1.347887 1.073059
c NaN NaN NaN
d NaN NaN NaN
e -1.521660 0.728934 0.415666
f -0.459866 -0.142132 -0.480529
g NaN NaN NaN
h 0.554653 0.915658 -1.805254

Rbdash

发布了5 篇原创文章 · 获赞 2 · 访问量 2672

私信关注

5.31学习笔记（pandas）

猜你喜欢