文章目录
(一)第一部分
1.1 为什么学数据分析
1.有岗位需求
2.是python数据科学的基础
3.是机器学习课程的基础
1.2 什么是数据分析?
数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们作出判断,以便采取适当行动。
1.3 数据分析的流程
1.4 conda环境配置
conda : data science package & environment manager
创建环境:
conda create --name python3 python=3
切换环境:
windows :activate python3
linux/macos : source activate python3
官方地址: https://www.anaconda.com/download/
1.5 认识jupyter notebook
jupyter notebook:一款编程/文档/笔记/展示软件
启动命令:jupyter notebook
(二)第二部分 matplotblit
1、什么是matplotlib
2、matplotlib基本要点
3、matplotlib的散点图、直方图、柱状图
4、更多的画图工具
2.1 为什么要学习matplotlib
1.能将数据进行可视化,更直观的呈现
2.使数据更加客观、更具说服力
2.2 什么是matplotlib
matplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建
2.3 matplotlib 常识和基本知识的应用
通过下面的小例子我们来看一下matplotlib该如何简单的使用
例1:假设一天中每隔两个小时(range(2,26,2))的气温(℃)分别是[15,13,14.5,17,20,25,26,26,27,22,18,15].
from matplotlib import pyplot as plt
#import matplotlib.pyplot as plt
fig = plt.figure(num='1',figsize=(20,8),facecolor='red',edgecolor=None,dpi=80,frameon=True)
# figure在这里指的就是我们所画的图
#num:图像编号或名称,数字为编号,字符串为名称
#通过实例化一个figure并且传递参数,能够在后台自动使用该figure实例
#figsize:指定figure的宽和高,单位为英寸
#facecolor:figure的背景颜色,facecolor=None指白色
#edgecolor:边框的颜色
#在图像模糊的时候可以传入 dpi 参数,让图片更加清晰
#dpi(dots per inch):每英寸的点数,即每英寸多少个像素,指绘图对象的分辨率
#frameon:是否显示边框
x = range(2,26,2)
#数据在x轴的位置,是一个可迭代对象
y = [15,13,14.5,17,20,25,26,26,24,22,18,15]
#数据在x轴的位置,是一个可迭代对象
#x轴和y轴的数据一起组成了所有要绘制出的坐标
#分别是(2,5),(4,13),(6,14.5),(8,17)....
plt.plot(x,y)
# 传入x和y,通过plot绘制出折线图
#设置x轴的刻度
#_xtick_lables = [i/2 for i in range(4,49)]
plt.xticks(range(1,50))
#设置x的刻度:在25到50处显示
#plt.xticks(x[::2])
plt.yticks(range(min(y),max(y)+1))
#当刻度太密集时候使用列表的步长(间隔取值)来解决,matplotlib会自动帮我们对 应
plt.savefig("./sheji_picture.png")
#保存图片,可以保存为 svg 这种矢量图格式,放大不会有锯齿
plt.show()
那么问题来了:
题目:如果列表a表示10点到12点的每一分钟的气温,如何绘制折线图观察每分钟气温的变化情况?a= [random.randint(20,35) for i in range(120)]
from matplotlib import pyplot as plt
import random
import matplotlib
from matplotlib import font_manager
plt.rcParams['font.sans-serif'] = ['SimHei']
#matplotlib默认不显示中文字体
#因为matplotlib找不到字体,在图中不能显示中文字体
#这个方法最有效,好用
x = range(0,120)
y = [random.randint(20,35) for i in range(120)]
#random.randint(参数1,参数2):参数1,参数2必须是整数,函数返回参数1,参数 2之间任意的证整数
fig = plt.figure(figsize=(20,8),dpi=80)
plt.plot(x,y)
#调整x轴的刻度
_x = list(x)
_xtick_lables = ["10点{}分".format(i) for i in range(60)]
_xtick_lables += ["11点{}分".format(i-60) for i in range(60,120)]
## 或_xtick_lables += ["11点{}分".format(i) for i in range(60)]
plt.xticks(_x[::3],_xtick_lables[::3],rotation=45)
#前面_x = list(x)必须取成列表形式
#如果把_x = list(x)删去,plt.xticks(list(x)[::3],_xtick_lables[::3])
#取步长为3,sequence[start:end:step]
#rotation:指旋转多少度
#添加描述信息
plt.xlabel("时间")
plt.ylabel("温度 单位(℃)")
plt.title("10点12点每分钟气温变化的情况")
plt.savefig("./随机画图.png")
#保存图片,可以保存为 svg 这种矢量图格式,放大不会有锯齿
plt.show()
换一种显示中文字体的方法
from matplotlib import pyplot as plt
import random
import matplotlib
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/simsun.ttc")
x = range(0,120)
y = [random.randint(20,35) for i in range(120)]
fig = plt.figure(figsize=(20,8),dpi=80)
plt.plot(x,y)
_x = list(x)
_xtick_lables = ["10点{}分".format(i) for i in range(60)]
_xtick_lables += ["11点{}分".format(i-60) for i in range(60,120)]
plt.xticks(_x[::3],_xtick_lables[::3],rotation=45,fontProperties = my_font)
plt.xlabel("时间",fontProperties = my_font)
plt.ylabel("温度 单位(℃)",fontProperties = my_font)
plt.title("10点12点每分钟气温变化的情况",fontProperties = my_font)
plt.savefig("./随机画图.png")
plt.show()
2.4 总结对于matplotlib显示中文(基于windows系统)
因为matplotlib默认做出的图形是不显示中文的,下面有两种方法可以解决
(1)
from matplotlib import font_manager as fm, rcParams
plt.rcParams['font.sans-serif']=['SimHei']
#这种方法最为直接、简便
plt.rcParams['axes.unicode_minus']=False
(2)
from matplotlib.font_manager import FontProperties
my_font=font_manager.FontProperties(fname="你的字体所存放的目录")
#windows一般字体存放在C:/Windows/Fonts/simsun.ttc
plt.xticks(x,x_label,fontproperties=my_font)#每个需要打印中文的地方都设置fontproperties参数
最后个人补充:
matplotlib.rc(“font”,**font) : Ctrl+B可以查看matplotlib.rc的源码