前言
所谓多维,就是数据不仅仅有x,y两列,而是有多列数据特征需要展示。这里主要分为两类展示方法,一类是用多张图展示多个数据,一类是一张图上展示多列数据。
导包:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import json
from pandas.io.json import json_normalize
from collections import Counter
单图中多列数据并列
读入数据和数据预处理:
#导入男鞋数据
op1=open(r'D:\python学习\数据分析与可视化数据\shoes.json', 'r',encoding='utf-8')
li=[]
dict1={
}
for i in op1:
k=json.loads(i.encode("utf-8"))#把字符串转换为json
li.append(k)
a=json_normalize(li)#把由json数据构成的列表转换成数据框
a.groupby("nick").size().sort_values(ascending=False)#按店铺排序,nick是店铺的列名称
我们按店铺排序得到了上面的结果,现在计算上面排名前二的两个商家各个款式的对应的商品数量,并且组成矩阵,使得第一列是"意尔康皮鞋旗舰店"对应的商品数量,第二列是"米兰多格商场"的:
t1=a[a.nick=="意尔康皮鞋旗舰店"].groupby("info.款式").size()#=a[a.nick=="意尔康皮鞋旗舰店"]是导出该店铺的所有数据,groupby("info.款式")表示根据不同款式分组
t2=a[a.nick=="米兰多格商场"].groupby("info.款式").size()
p0=pd.concat([t1,t2],axis=1,sort=False).fillna(0)#拼成数据框,concat的好处是可以包容索引不对齐的情况,axis=1表示横向合并,fillna(0)表示不存在的变成0
结果如下:
利用上面的数据做出如下的柱图,注意这里包含了两个商家的数据
图的布局
导入作图的包:
from pyecharts.globals import ThemeType
from pyecharts.faker import Faker
from pyecharts import options as opts
from pyecharts.charts import Bar
把两列数据放在一起:
只需要增加bar.add_yaxis()
bar = Bar(init_opts=opts.InitOpts(theme=ThemeType.PURPLE_PASSION))
bar.add_xaxis(p0[0].index.tolist())
bar.add_yaxis("意尔康皮鞋旗舰店", p0[0].tolist())
bar.add_yaxis("米兰多格商场", p0[1].tolist())
bar.set_global_opts(title_opts=opts.TitleOpts(title="某商场销售情况"),toolbox_opts=opts.ToolboxOpts())
bar.render_notebook()
结果如下:
图形的并列
我们同样也可以让多图在一个界面中显示,做的逻辑就是先分别作图,然后利用一个函数把它们加在一起。
from pyecharts.faker import Faker
from pyecharts import options as opts
from pyecharts.charts import Bar, Grid, Line,Scatter#导入Grid
#先做一个图
f1=Bar()
f1.add_xaxis(p0.index.tolist())
f1.add_yaxis("意尔康皮鞋旗舰店", p0[0].tolist())
f1.set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"), legend_opts=opts.LegendOpts(pos_left="25%"))
#做第二个图
f2=Bar()
f2.add_xaxis(p0.index.tolist())
f2.add_yaxis("米兰多格商场", p0[1].tolist())
f2.set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"), legend_opts=opts.LegendOpts(pos_right="25%"))
#把两个图合并
g1 = Grid()
g1.add(f1,grid_opts=opts.GridOpts(pos_left="55%"))
g1.add(f2,grid_opts=opts.GridOpts(pos_right="55%"))
g1.render_notebook()
结果如下:
图形选项卡
用选项卡的形式做两个图,点哪个选项就出现什么图。实现的逻辑就是先把每一个图做出来,然后用tab函数来运行。
from pyecharts.charts import Tab#导入Tab
from pyecharts.components import Table
f1=Bar()
f1.add_xaxis(p0.index.tolist())
f1.add_yaxis("意尔康皮鞋旗舰店", p0[0].tolist())
f1.set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"))
f2=Bar()
f2.add_xaxis(p0.index.tolist())
f2.add_yaxis("米兰多格商场", p0[1].tolist())
f2.set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"))
tab = Tab()
tab.add(f1, "意尔康皮鞋旗舰店")
tab.add(f2, "米兰多格商场")
tab.render_notebook()
结果如下:
时间线轮播
时间线轮播也是多图的形式,以滚动呈现。
from pyecharts.charts import Timeline
f1=Bar()
f1.add_xaxis(p0.index.tolist())
f1.add_yaxis("意尔康皮鞋旗舰店", p0[0].tolist())
f1.set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"))
f2=Bar()
f2.add_xaxis(p0.index.tolist())
f2.add_yaxis("米兰多格商场", p0[1].tolist())
f2.set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"))
tl = Timeline()
tl.add(f1, "意尔康皮鞋旗舰店")
tl.add(f2, "米兰多格商场")
tl.render_notebook()
结果如下:
3d柱状图与热图
- 对于多维数据,3d图是非常形象的表现方法,x,y轴通常表示两个条件限定,z轴(柱的高度)通常表示在这样限定下的数量
- 注意pyecharts3d柱状图的数据格式,x,y分别对应有哪些类别,通常是一个列表,而data是一个三元列表,前两个为确定哪两个类别,通过序号指代,最后一个为数量
导包:
from pyecharts.faker import Faker
from pyecharts import options as opts
from pyecharts.charts import Bar3D
import random
3d柱状图
根据例子来理解3d柱状图,求出"info.鞋面材质","info.风格"这两个特征下商品的数量
#因为x、y有很多重复的,所有需要进行一定的处理
x=[]
y=[]
data=[]#data是放x、y 的索引的
n=0
for i in p0.items():
if i[0][0] not in x:
x.append(i[0][0])
if i[0][1] not in y:
y.append(i[0][1])
data.append([x.index(i[0][0]),y.index(i[0][1]),i[1]])
f3=Bar3D()
f3.add("",data,
xaxis3d_opts=opts.Axis3DOpts(x, type_="category"),
yaxis3d_opts=opts.Axis3DOpts(y, type_="category"),
zaxis3d_opts=opts.Axis3DOpts(type_="value")
).set_global_opts(
visualmap_opts=opts.VisualMapOpts(max_=20),
title_opts=opts.TitleOpts(title="Bar3D-基本示例"),
)
f3.render_notebook()
结果如下:
热图
import random
from pyecharts.faker import Faker
from pyecharts import options as opts
from pyecharts.charts import HeatMap
f4=HeatMap()
f4.add_xaxis(x)
f4.add_yaxis("series0", y, data)
f4.set_global_opts(
title_opts=opts.TitleOpts(title="HeatMap-基本示例"),
visualmap_opts=opts.VisualMapOpts(),
)
f4.render_notebook()
结果如下:
店铺特征矩阵的构建
#把商品销量提取出来,并把对应列表的类型转化为数
a.sales=a.sales.str.split("人",expand=True)[0]
a.sales = a.sales.astype(np.int64)#转换列的类型为整数
a.price = a.price.astype(np.float)
#求出各个商品的销售额并把它并入到原始数据框中去
z1=a.sales*a.price#算出商品的销售额
z1.name="xse"
a1=pd.concat([a,z1],axis=1)#给序列命名之后添加入数据框就会直接以序列名作为列标
先做成字典,把各个特征放入字典中
te_zheng={
"nick":[],"z_xse":[],"z_num":[],"p_sales":[],"p_bdj":[],"p_price":[]}
for i in a1.groupby("nick"):#循环i对应的是店铺的名称,分组里面每一组的商品都属于同一个店的
te_zheng["nick"].append(i[0])
te_zheng["z_xse"].append(i[1].xse.sum())
te_zheng["z_num"].append(len(i[1]))
te_zheng["p_sales"].append(round(i[1].sales.mean(),1))
if i[1].sales.sum()==0:#存在除零的情况,所以做判断
te_zheng["p_bdj"].append(0)
else:
te_zheng["p_bdj"].append(round(i[1].xse.sum()/i[1].sales.sum(),1))
te_zheng["p_price"].append(round(i[1].price.mean(),1))
# 把字典转化为数据框,并基于销售额排序
df_te_zheng=pd.DataFrame(te_zheng)
df_te_zheng.sort_values(by="z_xse",ascending=False,inplace=True)
df_te_zheng.head()
结果如下:
散点图
from pyecharts.charts import Scatter#导入散点图的包
f1=Scatter()
f1.add_xaxis(df_te_zheng[0:20].z_xse.tolist())
f1.add_yaxis("商家A",df_te_zheng[0:20].p_bdj.tolist())
f1.set_global_opts(xaxis_opts=opts.AxisOpts(type_='value'))#注意pyechart的x轴通常默认为类别轴,需要重新设定为数值轴
f1.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
f1.render_notebook()
平行坐标系
- 平行坐标系是能够展示数据维度最自由的图形,但是最好对象不要太多
- 注意平行坐标系的数据格式
利用商家的特征矩阵,做出排名前五的商家的平行坐标系,并基于适当的分析
from pyecharts import options as opts
from pyecharts.charts import Page, Parallel
z1=df_te_zheng.head(5)
z1
for i in z1.iterrows():
print(i[1].tolist()[1:])
data1=[]
for i in z1.iterrows():
data1.append(i[1].tolist()[1:])
data1
f2=Parallel().add_schema(
[
{
"dim": 0, "name": "z_xse"},#注意这里的序号对应于data1中列表的索引
{
"dim": 1, "name": "z_num"},
{
"dim": 2, "name": "p_sales"},
{
"dim": 3, "name": "p_bdj"},
{
"dim": 4, "name": "p_price"},
]
)
f2.add("parallel", data1)
f2.set_global_opts(title_opts=opts.TitleOpts(title="Parallel-基本示例"))
f2.render_notebook()
结果如下: