Python学习(笔记4-数据清洗)

数据清洗相关代码例子已上传****

1.Pandas:一个强大的分析结构化数据的工具集

  • 基础是NumPy ,提供了高性能矩阵的运算
  • 应用:数据挖掘、数据分析 如:学生成绩分析、股票数据分析等。
  • 提供数据清洗功能

2.Pandas的数据结构
Series

  • 类似一维数组的对象
  • 通过list构建Series:ser_ obj = pd.Series(range(10))
  • 由数据和索引组成:索引在左,数据在右;索引是自动创建的
  • 获取数据和索引:ser _obj.index, ser_ obj.values
  • 预览数据:ser obj.head(n)

DataFrame

  • 类似多维数组/表格数据(如 excel, R中的data.frame)
  • 每列数据可以是不同的类型, what about ndarray?
  • 索引包括列索和行索引

3.Pandas的数据操作
DataFrame索引

  • 列索引:df_ obj[ 'label' ]
  • 不连续索引:df obj[[ 'label1' ,'label2' ]]

排序

  • sort index ,索引|排序:对DataFrame操作时注意轴方向
  • 按值排序:sort values(by= 'label' )

4.Pandas统计计算和描述
常用的统计计算

  • sum, mean, max, min...
  • axis=0按列统计, axis= 1按行统计
  • skipna排除缺失值,默认为True
  • idmax, idmin, cumsum

统计描述

  • describe产生多个统计数据

5.Pandas数据清洗

  • 处理缺失数据:dropna() 丢弃缺失数据;fillna()填充缺失数据
  • 数据过滤:df[filter_ condition] 依据filter condition对数据进行过滤

6. Pandas数据可视化

  •  Pandas提供 了内建的绘图功能(基于matplotlib )
  • plot(kind, x, y, title, figsize):x, y横纵坐标对应的数据列;title图像名称;figsize图像尺寸
  • 保存图片: plt.savefig()
发布了40 篇原创文章 · 获赞 3 · 访问量 7595

猜你喜欢

转载自blog.csdn.net/OpenSceneGraph/article/details/100812343