jupter notbook ; matplotlib
什么是数据挖掘
- 对大规模数据进行自动或者半自动化的分析,得到之前不知道的有价值的潜在信息
- 举个例子:从共享单车的客户使用信息得到国庆节前后,单车使用量的趋势变化
为什么要学
- 公司可以根据现有数据或者购买的数据获得潜在的价值信息,指导之后的经营方向,制定更加稳健的经营计划
- 一直数据挖掘都是存在的,为什么近两年才火?数据挖掘的需要大量的数据以及较强的机器性能,而这两个条件都是最近两年才爆发式发展的。
- 社会对这方面人才足需求旺盛,薪资也普遍较高
数据挖掘流程
- 问题定义
- 数据采集
- 数据探索及预处理
- 数据挖掘
- 模式的评估
- 数据的可视化
- 模型发布
数据挖掘基础学习目标
- 定位:用数据为企业创造价值
- 1.建立对数据挖掘的认知
- 2.掌握Python流行数据处理类库
CONDA
- 用来进行数据挖掘的一个软件,数据挖掘的环境
工具
- matplotlib:2D画图库
- NumPy:数值计算库
- pandas:数据分析库
- jupyter notebook:一款编程/文档/笔记/展示软件
matplotlib
什么是matplotlib
- 用来开发2D图表(也可以开发3D图表)的库
- 特点:
- 使用简单
- 以渐进,交互的方式实现可视化
为什么要学?
- 可视化在整个数据挖掘的过程中是关键的辅助工具,可以清晰的理解数据,从而调整我们的分析方法
matplotlib架构
- Backend层
- 系统层
- matplotlib API 位于该层
- 其中:
- FigureCanvas对象实现了绘图区域这个概念
- Renderer对象在FigureCanvas上绘图
- Artist层
- 绘制的图形中能看到的元素都属于Ariitst层
- Figure:对应整个画板
- Axes:Figure可以有多个图表,每一个图表就是一个Axes
- Axis:一个坐标横轴/纵轴
- Scripting层
- 主要用于数据分析和可视化
- pyploy:
- 1.操作或者改动Figure对象,例如,创建Figure对象
- 2.大部分工作是处理样本文件的图形与坐标的生成
使用pyplot画折线图
- 简单操作
# 导入模块
import matplotlib.pyplot as plt
# 准备数据
x = [1,2,3,4,5,6,7]
y = [17,17,18,11,11,13,13]
# 绘制折线图
plt.plot(x,y)
# 展示折线图
plt.show()
其他操作
- 设置图片大小
plt.figure(figsize=(20,8), dpi=100)
- 保存到本地
plt.savefig('first_image.png')
- 调整x/y轴刻度的间距
x1 = x[::5]
plt.xticks(x1)
x轴/y轴/标题的描述信息
# x轴描述信息 plt.xlabel('时间') # y轴描述信息 plt.ylabel('温度') # 表格描述信息 plt.tilte('温度随着时间的变化')
…
折线图的应用场景
- 折线图表现的是变化和趋势,凡是有此倾向的问题,都可以用折线图表达
- 共享单车在国庆节前后每日使用量的变化
- 股票k线
- 温度在一年中的变化
总结
- 折线图的绘制:plt.plot
- 设置图片的大小:plt.figure
- 图表的保存:plt.savefig
- 设置x/y轴刻度:plt.xticks,plt.yticks
- 设置标,x/y轴的描述:plt.title,plt.xlabel,plt.ylabel
- 分图:plt.subplts