需求描述
原文件test.xlsx"为.xlsx格式,需要对不同行业的数据 进行切分,并存储在不同Excel表中。
步骤
1. 读取Excel转化为DataFrame
import pandas as pd
df = pd.read_excel("test"+".xlsx")
df.head(10) #查看前十条数据
2. 取出行业数据唯一值
index_list = df.行业.unique() #对区域去重,生成list
lenth_index = len(index_list) #计算区域个数
print(index_list)
print(lenth_index)
输出:
3. 获取当前日期,并格式化为“YYYYMMDD”格式
from datetime import datetime
now = datetime.now()
the_date = datetime.strftime(now,'%Y%m%d')
the_date
4. 准备充分,创建新Excel文件
for n in range(lenth_index):
data1=df[df['行业'] == index_list[n]] #读取该行业的所有数据
sheet_name1=index_list[n]+"信息" #sheet命名
path_to_file=the_date+sheet_name1+".xlsx" #保存路径命名,为相对路径
data1.to_excel(path_to_file, sheet_name=sheet_name1,index=False) #保存,无索引
print(path_to_file+"已生成")
print(the_date+"任务已生成,累计生成%d个Excel文件"%lenth_index)
结果:
文件夹:
Excel内容