实战演习(十三)——遍历文件夹中的所有内容

笔者希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。

我的公众号为:livandata

在数据收集过程中,会有各种各样的格式,同时这些文件也存储在不同的文件夹中,为了方便起见,此处整理出一个可以遍历各个文件夹的代码,以方便后期读取数据使用,如果要读取对应文件夹中的内容,只需要将文件夹中的格式写入并记录路径就可以了:

#!/usr/bin/env python
# _*_ UTF-8 _*_
# 个人公众号:livandata
import os
def eachfile(path, arr):
    pathdir = os.listdir(path=path)
    pathdir = [i for i in pathdir if i !='.DS_Store']
    for dir in pathdir:
        child = path+'/'+dir
        if os.path.isfile(child):
            arr.append(child)
        else:
            eachfile(child, arr)
    return arr

def readfile(filename):
    arr = []
    # 解析各个类型文件
    for file in filename:
        suffix = file.split('.')[-1]
        if(suffix=='xls' or suffix == 'xlsx'):
            # 读取excel的文件
            arr.append()
        if(suffix=='txt'):
            # 读取txt的文件
            arr.append()
    arr.append(filename)
    return arr

def file_rename(path):
    for file in os.listdir(path):
        fi = file.split('.')[0]
        os.rename(os.path.join(path, file), os.path.join(path, fi+'.xml'))

if __name__ == "__main__":
    file_path = '/Users/*******/PycharmProjects/data/Page Data'
    # arr是一个全局变量,用来存储文件及路径,所以下面两行需要一起出现:
    arr = []
    data = eachfile(file_path, arr)
    # 组合成文件数组:data
    readfile(data)

代码定义了两个函数首先读取文件名称,然后再逐一的读取文件中的数据。

发布了137 篇原创文章 · 获赞 93 · 访问量 16万+

猜你喜欢

转载自blog.csdn.net/livan1234/article/details/93318226