笔者希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。
我的公众号为:livandata
在数据收集过程中,会有各种各样的格式,同时这些文件也存储在不同的文件夹中,为了方便起见,此处整理出一个可以遍历各个文件夹的代码,以方便后期读取数据使用,如果要读取对应文件夹中的内容,只需要将文件夹中的格式写入并记录路径就可以了:
#!/usr/bin/env python
# _*_ UTF-8 _*_
# 个人公众号:livandata
import os
def eachfile(path, arr):
pathdir = os.listdir(path=path)
pathdir = [i for i in pathdir if i !='.DS_Store']
for dir in pathdir:
child = path+'/'+dir
if os.path.isfile(child):
arr.append(child)
else:
eachfile(child, arr)
return arr
def readfile(filename):
arr = []
# 解析各个类型文件
for file in filename:
suffix = file.split('.')[-1]
if(suffix=='xls' or suffix == 'xlsx'):
# 读取excel的文件
arr.append()
if(suffix=='txt'):
# 读取txt的文件
arr.append()
arr.append(filename)
return arr
def file_rename(path):
for file in os.listdir(path):
fi = file.split('.')[0]
os.rename(os.path.join(path, file), os.path.join(path, fi+'.xml'))
if __name__ == "__main__":
file_path = '/Users/*******/PycharmProjects/data/Page Data'
# arr是一个全局变量,用来存储文件及路径,所以下面两行需要一起出现:
arr = []
data = eachfile(file_path, arr)
# 组合成文件数组:data
readfile(data)
代码定义了两个函数首先读取文件名称,然后再逐一的读取文件中的数据。