2022全国大学生数据分析大赛A题-医药电商销售数据分析

新手参加比赛，不足之处敬请谅解

题目链接：链接：https://pan.baidu.com/s/1ll7Y1kTr1MiJTjErwnqiVA
提取码：zu9f

任务1 对店铺进行分析

题目：随着国家政策的逐步开放，越来越多的药品可以在网络上购买，医药电商平台蒸蒸日上，受新冠疫情的影响，线下药店购买困难，更让医药电商进入了更多消费者的视野，各大药企也纷纷加大力度布局医药电商领域。但电商模式与线下零售有所不同，如何更好的经营医药电商成为药企急需解决的问题。本题采集了天猫维生素类的药品，请针对维生素药品进行数据的清洗、分析与挖掘，并回答下列问题。

任务1 对店铺进行分析

对店铺进行分析，一共包含多少家店铺，各店铺的销售额占比如何？给出销售额占比最高的店铺，并分析该店铺的销售情况。

任务1.1 店铺种类统计

通过pandas的read_excel函数导入数据，使用value_counts函数对“shop_name”列计数统计，得出共包含26家店铺

import pandas as pd
data=pd.read_excel('F:\\2022全国大学生数据分析A题\\data\\data.xlsx')
data["shop_name"].value_counts()

阿里健康大药房                  16958
天猫国际进口超市                  7760
康爱多大药房旗舰店                 4051
天猫超市                      3764
ChemistWarehouse海外旗舰店     3205
焦作国控大药房旗舰店                3027
阿里健康大药房海外店                2938
nyc美林健康海外专营店              2823
thejamy保健海外专营店            2345
百康保健品专营店                  2224
康恩贝官方旗舰店                  2196
hihealth海外专营店             2196
宜度海外专营店                   2165
天猫国际妙颜社                   1755
NRC营养优选海外专营店              1742
苏宁易购官方旗舰店                 1681
nrfs湖畔海外专营店               1559
进口/国产保健品精品店               1525
康寿营养品店                    1516
百秀大药房旗舰店                  1505
LuckyVitamin海外旗舰店         1497
skyshop海外专营店              1435
搬运健康馆                     1423
美加精品                      1373
SASA美国直邮                  1228
同堂保健品专营店                  1219
Name: shop_name, dtype: int64

阿里健康大药房	天猫国际进口超市	康爱多大药房旗舰店
天猫超市	SASA美国直邮	焦作国控大药房旗舰店
阿里健康大药房海外店	同堂保健品专营店	skyshop海外专营店
百康保健品专营店	hihealth海外专营店	康恩贝官方旗舰店
宜度海外专营店	天猫国际妙颜社	搬运健康馆
苏宁易购官方旗舰店	nrfs湖畔海外专营店	进口/国产保健品精品店
康寿营养品店	百秀大药房旗舰店	美加精品
nyc美林健康海外专营店	LuckyVitamin海外旗舰店	ChemistWarehouse海外旗舰店
NRC营养优选海外专营店	thejamy保健海外专营店

任务1.2 店铺销售额占比

首先通过在Excel将“discount”列中的空值全部填充为“10折”，即无打折，接着根据公式计算出销售额，公式如下：使用group_by函数计算各店铺销售总额并求其占比。

data["discount"].value_counts()

9.5折    32338
9折      29929
8.5折     9959
10折      2884
Name: discount, dtype: int64

discount_num=[]
for i in range(len(data["shop_name"])):
    discount_num.append(0)
for i in range(len(data["shop_name"])):
    if data.loc[i,"discount"]=="10折":
        discount_num[i]=1.0 
    if data.loc[i,"discount"]=="9.5折":
        discount_num[i]=0.95
    if data.loc[i,"discount"]=="9折":
        discount_num[i]=0.90
    if data.loc[i,"discount"]=="8.5折":
        discount_num[i]=0.85 
df_1=pd.DataFrame({'discount_num':discount_num})
df_1.to_excel('F:\\2022全国大学生数据分析A题\\data\\result_1.xlsx',sheet_name='sheet1',index=None)
total_price=[]
for i in range(len(data["shop_name"])):    
    total_price.append(0)
for i in range(len(data["shop_name"])):
    price=data.loc[i,"price"]
    sold=float(data.loc[i,"sold"])
    discount=discount_num[i]
    total_price[i]=float(price)*float(sold)*float(discount)
df_2=pd.DataFrame({'total_price':total_price})
df_2.to_excel('F:\\2022全国大学生数据分析A题\\data\\result_2.xlsx',sheet_name='sheet1',index=None)

data1=pd.read_excel('F:\\2022全国大学生数据分析A题\\data\\result_2.xlsx')
data1
-----------------------------------------------------------------------
        shop_name	total_price
0	宜度海外专营店	1041.390
1	天猫国际进口超市	31950.000
2	阿里健康大药房	7794.275
3	天猫国际进口超市	12029.850
4	阿里健康大药房	10704.000
...	...	...
75105	阿里健康大药房	182044.800
75106	阿里健康大药房海外店	34938.000
75107	hihealth海外专营店	7416.900
75108	阿里健康大药房	7871.850
75109	阿里健康大药房	19806.840
75110 rows × 2 columns

total_shop = data1.groupby("shop_name")["total_price"].sum().reset_index()
total_shop=total_shop.sort_values("total_price",ascending=True)
total_shop
----------------------------------------------------------------------------
        shop_name	total_price
9	同堂保健品专营店	6.539738e+04
3	SASA美国直邮	3.258235e+05
1	LuckyVitamin海外旗舰店	3.697916e+05
14	康寿营养品店	6.198878e+05
21	美加精品	6.466264e+05
23	进口/国产保健品精品店	7.276764e+05
17	搬运健康馆	7.948006e+05
5	nrfs湖畔海外专营店	8.727912e+05
2	NRC营养优选海外专营店	1.408813e+06
18	焦作国控大药房旗舰店	1.546531e+06
20	百秀大药房旗舰店	2.843618e+06
4	hihealth海外专营店	3.382795e+06
6	nyc美林健康海外专营店	4.343254e+06
16	康爱多大药房旗舰店	4.986436e+06
19	百康保健品专营店	5.288855e+06
13	宜度海外专营店	6.001669e+06
7	skyshop海外专营店	6.506159e+06
8	thejamy保健海外专营店	9.798825e+06
22	苏宁易购官方旗舰店	1.065959e+07
10	天猫国际妙颜社	3.569804e+07
0	ChemistWarehouse海外旗舰店	5.539680e+07
15	康恩贝官方旗舰店	9.559872e+07
25	阿里健康大药房海外店	1.065089e+08
12	天猫超市	1.148217e+08
11	天猫国际进口超市	3.561012e+08
24	阿里健康大药房	6.751027e+08

total_shop = data1.groupby("shop_name")["total_price"].sum().reset_index()
total_shop
---------------------------------------------------------------------------
        shop_name	total_price
0	ChemistWarehouse海外旗舰店	5.539680e+07
1	LuckyVitamin海外旗舰店	3.697916e+05
2	NRC营养优选海外专营店	1.408813e+06
3	SASA美国直邮	3.258235e+05
4	hihealth海外专营店	3.382795e+06
5	nrfs湖畔海外专营店	8.727912e+05
6	nyc美林健康海外专营店	4.343254e+06
7	skyshop海外专营店	6.506159e+06
8	thejamy保健海外专营店	9.798825e+06
9	同堂保健品专营店	6.539738e+04
10	天猫国际妙颜社	3.569804e+07
11	天猫国际进口超市	3.561012e+08
12	天猫超市	1.148217e+08
13	宜度海外专营店	6.001669e+06
14	康寿营养品店	6.198878e+05
15	康恩贝官方旗舰店	9.559872e+07
16	康爱多大药房旗舰店	4.986436e+06
17	搬运健康馆	7.948006e+05
18	焦作国控大药房旗舰店	1.546531e+06
19	百康保健品专营店	5.288855e+06
20	百秀大药房旗舰店	2.843618e+06
21	美加精品	6.466264e+05
22	苏宁易购官方旗舰店	1.065959e+07
23	进口/国产保健品精品店	7.276764e+05
24	阿里健康大药房	6.751027e+08
25	阿里健康大药房海外店	1.065089e+08

total_shop_new = total_shop
for i in range(len(total_shop["total_price"])):
    total_shop_new["total_price"][i]=(total_shop_new["total_price"][i])/total
total_shop_new
------------------------------------------------------------------------------
            shop_name	total_price
0	ChemistWarehouse海外旗舰店	0.036921
1	LuckyVitamin海外旗舰店	0.000246
2	NRC营养优选海外专营店	0.000939
3	SASA美国直邮	0.000217
4	hihealth海外专营店	0.002255
5	nrfs湖畔海外专营店	0.000582
6	nyc美林健康海外专营店	0.002895
7	skyshop海外专营店	0.004336
8	thejamy保健海外专营店	0.006531
9	同堂保健品专营店	0.000044
10	天猫国际妙颜社	0.023792
11	天猫国际进口超市	0.237335
12	天猫超市	0.076527
13	宜度海外专营店	0.004000
14	康寿营养品店	0.000413
15	康恩贝官方旗舰店	0.063715
16	康爱多大药房旗舰店	0.003323
17	搬运健康馆	0.000530
18	焦作国控大药房旗舰店	0.001031
19	百康保健品专营店	0.003525
20	百秀大药房旗舰店	0.001895
21	美加精品	0.000431
22	苏宁易购官方旗舰店	0.007104
23	进口/国产保健品精品店	0.000485
24	阿里健康大药房	0.449943
25	阿里健康大药房海外店	0.070986

total_shop=total_shop.sort_values("total_price",ascending=True)
total_shop
---------------------------------------------------------------------
       shop_name	total_price
9	同堂保健品专营店	0.000044
3	SASA美国直邮	0.000217
1	LuckyVitamin海外旗舰店	0.000246
14	康寿营养品店	0.000413
21	美加精品	0.000431
23	进口/国产保健品精品店	0.000485
17	搬运健康馆	0.000530
5	nrfs湖畔海外专营店	0.000582
2	NRC营养优选海外专营店	0.000939
18	焦作国控大药房旗舰店	0.001031
20	百秀大药房旗舰店	0.001895
4	hihealth海外专营店	0.002255
6	nyc美林健康海外专营店	0.002895
16	康爱多大药房旗舰店	0.003323
19	百康保健品专营店	0.003525
13	宜度海外专营店	0.004000
7	skyshop海外专营店	0.004336
8	thejamy保健海外专营店	0.006531
22	苏宁易购官方旗舰店	0.007104
10	天猫国际妙颜社	0.023792
0	ChemistWarehouse海外旗舰店	0.036921
15	康恩贝官方旗舰店	0.063715
25	阿里健康大药房海外店	0.070986
12	天猫超市	0.076527
11	天猫国际进口超市	0.237335
24	阿里健康大药房	0.449943

total_shop=total_shop.sort_values("total_price",ascending=True)
total_shop
-------------------------------------------------------------------
        shop_name	total_price
9	同堂保健品专营店	0.000044
3	SASA美国直邮	0.000217
1	LuckyVitamin海外旗舰店	0.000246
14	康寿营养品店	0.000413
21	美加精品	0.000431
23	进口/国产保健品精品店	0.000485
17	搬运健康馆	0.000530
5	nrfs湖畔海外专营店	0.000582
2	NRC营养优选海外专营店	0.000939
18	焦作国控大药房旗舰店	0.001031
20	百秀大药房旗舰店	0.001895
4	hihealth海外专营店	0.002255
6	nyc美林健康海外专营店	0.002895
16	康爱多大药房旗舰店	0.003323
19	百康保健品专营店	0.003525
13	宜度海外专营店	0.004000
7	skyshop海外专营店	0.004336
8	thejamy保健海外专营店	0.006531
22	苏宁易购官方旗舰店	0.007104
10	天猫国际妙颜社	0.023792
0	ChemistWarehouse海外旗舰店	0.036921
15	康恩贝官方旗舰店	0.063715
25	阿里健康大药房海外店	0.070986
12	天猫超市	0.076527
11	天猫国际进口超市	0.237335
24	阿里健康大药房	0.449943

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
#调节图形大小，宽，高
plt.figure(figsize=(9,6))
#定义饼状图的标签，标签是列表
labels = [u"阿里健康大药房",u"天猫国际进口超市",u"其它"]
#每个标签占多大，会自动去算百分比
# sizes = [0.458,0.236,0.071,0.069,0.064,0.037,0.022,0.043]
# colors = ['red','yellowgreen','lightskyblue','cyan','lightseagreen','lime','darkorange','pink']
sizes = [0.450,0.237,0.313]
colors = ['red','yellowgreen','lightskyblue']
#将某部分爆炸出来， 使用括号，将第一块分割出来，数值的大小是分割出来的与其他两块的间隙
explode = (0.05,0,0)
 
patches,l_text,p_text = plt.pie(sizes,explode=explode,labels=labels,colors=colors,
                                labeldistance = 1.1,autopct = '%3.1f%%',shadow = False,
                                startangle = 90,pctdistance = 0.6)
 
#labeldistance，文本的位置离远点有多远，1.1指1.1倍半径的位置
#autopct，圆里面的文本格式，%3.1f%%表示小数有三位，整数有一位的浮点数
#shadow，饼是否有阴影
#startangle，起始角度，0，表示从0开始逆时针转，为第一块。一般选择从90度开始比较好看
#pctdistance，百分比的text离圆心的距离
#patches, l_texts, p_texts，为了得到饼图的返回值，p_texts饼图内部文本的，l_texts饼图外label的文本
 
#改变文本的大小
#方法是把每一个text遍历。调用set_size方法设置它的属性
for t in l_text:
    t.set_size(15)
for t in p_text:
    t.set_size(20)
# 设置x，y轴刻度一致，这样饼图才能是圆的
plt.axis('equal')
plt.title('药店销售额占比图', size=20)
plt.legend()
plt.show()

plt.figure(figsize=(15,6),dpi=200)
x=total_shop["shop_name"]
plt.bar(x, total_shop["total_price"], color='#87CEFA')
# plt.xlabel('时间')
plt.xticks(total_shop["shop_name"],rotation=60)
plt.ylabel('销售额占比')
plt.title('各药店销售额占比')
plt.show()