import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('display.max_columns',1000)
pd.set_option("display.width",1000)
pd.set_option('display.max_colwidth',1000)
pd.set_option('display.max_rows',1000)#将行和列的最大展示值设置到1000，则可展示更多的行而不是以省略号形式展示。
df=pd.read_excel(r'D:\杂货\编码数据.xlsx',sheet_name='编码数据')

第一、二、三行分别是导入pandas,numpy,matplotlib库，后面会用到库的内容来编写。

第四到第七行分别是将导入列表的输出展示内容扩大到1000的数量（按照需要，1000这个数值还可以设置的更大），这样在打印输出表格的时候，就不会出现省略号省略掉中间内容的情况。就像我在第一篇基础篇中导入excel时出现的情况：

设置好后的输出情况：

导入excel表格具体可看我第一篇内容：https://blog.csdn.net/Deng333333555/article/details/125092526?spm=1001.2014.3001.5501

2.2 描述性统计分析所要计算的数据

通常，描述性统计分析需要各变量的观测值数量、均值、方差、标准差、最大最小值等，而在python中可运用库的方法计算出各个数据。详细代码见以下：

obs=df.count()#观测值
means=df.mean()#均值
var=df.var()#方差
std=df.std()#标准差
min=df.min()#最小值
max=df.max()#最大值
mode=df.mode()#众数
siyi=df.quantile(0.25)#四分之一位数
sisan=df.quantile(0.75)#四分之三位数
median=df.median()#中位数
skew=df.skew()#偏度
kurt=df.kurt()#峰度
print("最大值:\n",max,'\n',"最小值:\n",min,'\n','观测量:\n',obs,'\n','均值:\n',means,'\n',
      "方差:\n",var,"\n",'标准差:\n',std,'\n',"众数: ",mode,"\n",'四分之一位数:\n',siyi,'\n',
      '四分之三位数:\n',sisan,'\n','中位数:\n',median,'\n','偏度:\n',skew,'\n','峰度：\n',kurt)

代码的含义在注释中已经标注出来了，不再赘述。（print里的“\n”表示换行输出）在运行以上代码后，可以得到excel表格中每一列的对应数据，展示如下：

输出的样式如上图，由于结果太多太长，就不一一展示。

2.3 数据可视化

2.3.1 概述

描述性统计分析中，除了列出以上的分析数据以外，在多数情况下仍然需要对重要的数据给出可视化的内容，即作图。数据可视化的图的类型有很多种，比如说折线图、柱状图、条形图、散点图、气泡图、雷达图、箱线图等。而在一般的数据分析类报告中，最常用的便是折线图、柱状图，因此在本篇中只介绍这两种可视化方法，其他的在后续教程分享中会按需要给出。

2.3.2 思路

可视化之前要有一个编写代码的思路，而作图的基本思路如下：

建立画布
建立坐标系
输入x轴数据与y轴数据
设定x轴与y轴的刻度并给刻度命名
作图

2.3.3 编写代码

fig=plt.figure()#建立画布
ax1=fig.add_subplot(1,1,1)#建立坐标系

x=np.arange(7)#x轴数据
y=np.array([jishu1,jishu2,jishu3,jishu4,jishu5,jishu6,jishu7])#y轴数据

plt.xticks(np.arange(7),['0-50元','50-100元','100-150元','150-200元','200-250元','250-300元','300元及以上'])#x轴长度与命名
plt.yticks(np.arange(0,350,50))#y轴长度与命名
plt.plot(x,y)#作图

建立坐标系：

建立坐标系中，add_subplot()方法括号里的数字的含义是：一行一列的第一个坐标系。这么说可能有点抽象，我给出以下例子：

#代码1：
fig=plt.figure()#建立画布
ax1=fig.add_subplot(1,1,1)#建立坐标系

#代码2：
fig=plt.figure()#建立画布
ax1=fig.add_subplot(2,2,1)#建立坐标系1
ax2=fig.add_subplot(2,2,2)#建立坐标系2
ax3=fig.add_subplot(2,2,3)#建立坐标系3
ax4=fig.add_subplot(2,2,4)#建立坐标系4

代码1中的（1，1，1）表示一行一列的第一个坐标系；代码二中的（2，2，1）表示二行二列的第一个坐标系，（2，2，2）表示二行二列的第二个坐标系，（2，2，3）表示二行二列的第三个坐标系，（2，2，4）表示二行二列的第四个坐标系。

而这两段代码展示出的坐标图是不一样的，见下图：

代码1：

代码2：

对比两个输出结果，可以很容易地知道，代码1一张图中只作了一个坐标系，而代码2的一张图中作出了四个坐标系。一行一列的第一个坐标系指的就是代码1唯一的这一个坐标系，而二行二列的第一个坐标系指的是左上角的坐标系，二行二列的第四个坐标系指的是右下角的坐标系。这样应该就能比较好地理解这个函数的意义了。

附上数据（坐标）：

看到x与y轴数据的代码，其中np.arange()函数是调用的np库的函数方法。arange()中，方法与range()长的比较像：arange(start,end,step)。具体含义可以查看后续基础篇分享。若了解range()函数的话，那么arange(7)中的数字7的含义我也不用多说。x=np.arange(7)则表示横坐标x分别等于0，1，2，3，4，5，6时对应的情况。对于y中的array()函数，其主要是用于矩阵或数组的输入的，而本篇中的代码：y=np.array([jishu1,jishu2,jishu3,jishu4,jishu5,jishu6,jishu7])，其中的jishu1这一系列的命名是我定义的变量名，其具体含义我在后文补充，总之在array()中需要输入的也是数字。（按照各个问题的需要，本篇使用了array()，而x与y都适用np.arange()来输入数据都是可以的）。

由此，x与y的数值组成了一个坐标（x，y），从而能定义一个点的位置。

设定刻度（又可称长度）与名称：

最后三行代码中的plt.xticks()与plt.yticks()方法分别是为了设定坐标刻度（又可称长度）与名称准备的。其中，括号内的方法为：（刻度，命名），而np.arange(7)表示横坐标轴设定的长度为7，列表['0-50元','50-100元','100-150元','150-200元','200-250元','250-300元','300元及以上']即每一个刻度的命名。

最后一行代码则是作出符合以上条件的坐标图。

其结果展示如下：

显而易见，x轴的刻度编程了我所设定的名称，y轴没有设定名称，则以数值的形式出现。

为了使坐标图更加直观，我们也可以给x轴和y轴赋上标签，代码如下：

plt.xlabel('消费金额')#x轴的标签
plt.ylabel('人数')#y轴的标签

此时坐标图如下：

对比前面的坐标图，此时的坐标图中x轴和y轴都有了它们的“名字”，这样图的关系就更加明朗了。

2.4 补充内容

前面提到，array()函数中的列表是什么意思。我是以我自己所收集的数据为例，写的本篇内容，因此有的地方是看个人研究需要而写的代码，在该部分我加以解释。

Q7=df.iloc[:,15]
q7=[]
for i in Q7:
      q7.append(i)
print(q7)#读取所要分析的列的数据
jishu1=int(q7.count(1))
jishu2=int(q7.count(2))
jishu3=int(q7.count(3))
jishu4=int(q7.count(4))
jishu5=int(q7.count(5))
jishu6=int(q7.count(6))
jishu7=int(q7.count(7))#计数
print('0-50元的有：',jishu1,'\n','50-100元的有：',jishu2,'\n','100-150元的有：',jishu3,'\n',
      '150-200元的有：',jishu4,'\n','200-250元的有：',jishu5,'\n','250-300元的有：',jishu6,'\n','300元及以上的有：',jishu7,'\n')

第一行的df.iloc[:,15]表示的含义是我要读取第十五列的变量的数据，该内容为“选取excel表格中的某一列”的方法的内容，属于基础篇的操作，在后续我会在基础篇中分享给部分的内容，不在此地赘述。

下面的循环是我将读取的函数放入列表中，并用count()函数计算个数（该数据为人数计数，因此count()实际上是在数人数），由此得出以下各个消费段的人数，输出结果如下：

这七个数值就是y轴输入的数据。由此应该就能理解我在编写y轴输入数据的代码时列表里的几个变量名是啥意思了。

三、完整代码与总结

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('display.max_columns',1000)
pd.set_option("display.width",1000)
pd.set_option('display.max_colwidth',1000)
pd.set_option('display.max_rows',1000)#将行和列的最大展示值设置到1000，则可展示更多的行而不是以省略号形式展示。
df=pd.read_excel(r'D:\杂货\编码数据.xlsx',sheet_name='编码数据')
obs=df.count()#观测值
means=df.mean()#均值
var=df.var()#方差
std=df.std()#标准差
min=df.min()#最小值
max=df.max()#最大值
mode=df.mode()#众数
siyi=df.quantile(0.25)#四分之一位数
sisan=df.quantile(0.75)#四分之三位数
median=df.median()#中位数
skew=df.skew()#偏度
kurt=df.kurt()#峰度
print("最大值:\n",max,'\n',"最小值:\n",min,'\n','观测量:\n',obs,'\n','均值:\n',means,'\n',
      "方差:\n",var,"\n",'标准差:\n',std,'\n',"众数: ",mode,"\n",'四分之一位数:\n',siyi,'\n',
      '四分之三位数:\n',sisan,'\n','中位数:\n',median,'\n','偏度:\n',skew,'\n','峰度：\n',kurt)

#作图
Q7=df.iloc[:,15]
q7=[]
for i in Q7:
      q7.append(i)
print(q7)#读取所要分析的列的数据
jishu1=int(q7.count(1))
jishu2=int(q7.count(2))
jishu3=int(q7.count(3))
jishu4=int(q7.count(4))
jishu5=int(q7.count(5))
jishu6=int(q7.count(6))
jishu7=int(q7.count(7))#计数
print('0-50元的有：',jishu1,'\n','50-100元的有：',jishu2,'\n','100-150元的有：',jishu3,'\n',
      '150-200元的有：',jishu4,'\n','200-250元的有：',jishu5,'\n','250-300元的有：',jishu6,'\n','300元及以上的有：',jishu7,'\n')

fig=plt.figure()#建立画布
ax1=fig.add_subplot(1,1,1)#建立坐标系

x=np.arange(7)#x轴数据
y=np.array([jishu1,jishu2,jishu3,jishu4,jishu5,jishu6,jishu7])#y轴数据

plt.xticks(np.arange(7),['0-50元','50-100元','100-150元','150-200元','200-250元','250-300元','300元及以上'])#x轴长度与命名
plt.yticks(np.arange(0,350,50))#y轴长度与命名
plt.plot(x,y)#作图
plt.xlabel('消费金额')#x轴代表的名字
plt.ylabel('人数')#y轴代表的名字

本篇属于实践部分的内容，有写的不好的地方或是没理解的地方可以留言私信，感谢指教。本篇为实践篇的第1篇，之前本人已发布过两篇基础篇，后续会间歇性地更新这两个类型的内容，不会断更。

【Python数据分析】实践编写篇1：用Python程序完成描述性统计分析需求

一、前言

1.1 关于描述性统计分析

1.2 本篇目的

1.3 提示

二、程序内容的编写

2.1 导入数据与前期处理