数据清洗相关代码例子已上传****
1.Pandas:一个强大的分析结构化数据的工具集
- 基础是NumPy ,提供了高性能矩阵的运算
- 应用:数据挖掘、数据分析 如:学生成绩分析、股票数据分析等。
- 提供数据清洗功能
2.Pandas的数据结构
Series
- 类似一维数组的对象
- 通过list构建Series:ser_ obj = pd.Series(range(10))
- 由数据和索引组成:索引在左,数据在右;索引是自动创建的
- 获取数据和索引:ser _obj.index, ser_ obj.values
- 预览数据:ser obj.head(n)
DataFrame
- 类似多维数组/表格数据(如 excel, R中的data.frame)
- 每列数据可以是不同的类型, what about ndarray?
- 索引包括列索和行索引
3.Pandas的数据操作
DataFrame索引
- 列索引:df_ obj[ 'label' ]
- 不连续索引:df obj[[ 'label1' ,'label2' ]]
排序
- sort index ,索引|排序:对DataFrame操作时注意轴方向
- 按值排序:sort values(by= 'label' )
4.Pandas统计计算和描述
常用的统计计算
- sum, mean, max, min...
- axis=0按列统计, axis= 1按行统计
- skipna排除缺失值,默认为True
- idmax, idmin, cumsum
统计描述
- describe产生多个统计数据
5.Pandas数据清洗
- 处理缺失数据:dropna() 丢弃缺失数据;fillna()填充缺失数据
- 数据过滤:df[filter_ condition] 依据filter condition对数据进行过滤
6. Pandas数据可视化
- Pandas提供 了内建的绘图功能(基于matplotlib )
- plot(kind, x, y, title, figsize):x, y横纵坐标对应的数据列;title图像名称;figsize图像尺寸
- 保存图片: plt.savefig()