自然语言处理爬过的坑:使用python遍历所有的文件夹中的所有文本.标准库OS的常用函数总结大全

# -*- coding: utf-8 -*-
import os
import codecs

def search(filepath):
#遍历filepath下所有文件,包括子目录
    files = os.listdir(filepath)
    for file in files:
        file_text = os.path.join(filepath,file)
        if os.path.isdir(file_text):
            search(file_text)
        else:
            path = os.path.join(filepath,file_text)
            print path
            with codecs.open(path,'r','utf-8')as file:
                lines = [line.strip() for line in file]
                #print text
                print lines

#递归遍历/root目录下所有文件
search(r'C:\Users\ME\Desktop\Python project\pachong\scrapy\baichuan2\baoxian')
#注意前面的r,如果没有,有些\需要转义,如\t,\b,\n    
例如search('C:\Users\ME\Desktop\Python project\pachong\scrapy\\baichuan2\\baoxian')

运行,就会得到以下的结果 




因为是python2 的原因,所以中文标题会以ASCII码的格式输出,文本内容则会以Unicode的格式输出。

当使用python3 的时候,都会以utf-8的格式输出,例如以下图片


因为要保存文件,所以需要引入彼岸库OS,这里列举常用的几个函数。

1、os.sep
获得当前操作系统使用的目录分隔符,比如 Windows 就会得到\而 Linux/Unix 就会得到/
os.name
获得当前使用的操作系统,Windows 是 NT 内核,所以会得到nt,而 Linux/Unix 用户则会得到posix
2、os.getcwd()
获得当前工作目录,即当前 Python 脚本工作的目录路径。
3、os.getenv()
用来获得环境变量
os.getenv('PATH')
4、os.environ
可以获取并修改环境变量
print(os.environ['PATH'])
os.environ += 'D:/testdir/bin/'
print(os.environ["PATH"])
5、os.listdir()
列出某目录下所有的目录和文件
print(os.listdir())

6、os.remove()

删除文件

os.remove('D:/test.file')

7、os.system()
运行 Shell 或者 CMD 命令
os.system('ifconfig')
8、os.linesep
获取当前平台使用的行终止符。例如,Windows 使用\r\n,Linux 使用\n而 Mac 使用\r。
9、os.path.split()
获得一个列表,list[0] 是路径的,list[1] 是文件名
path = 'D:/game/gtav/bin/gtav.exe'
print(os.path.split(path)[0])
print(os.path.split(path)[1])
10、os.path.isfile() 和 os.path.isdir()
判断路径是不是文件 / 目录
print(os.path.isfile('D:/game/gtav/bin/gtav.exe'))
print(os.path.isdir('D:/game/gtav/bin'))
11、os.path.existe()
函数用来检验给出的路径是否真地存在
path = 'D:\\hadoop-2.6.5\\bin'
print(os.path.exists(path))
path = 'D:\\hadoop-2.6.5\\bin\\hadoop'
print(os.path.exists(path))
12、os.chdir(dirname)
切换工作目录,相当于cd的命令
os.chdir('D:/game/gtav/')
print(os.getcwd())
13、os.path.getsize(name)
获取文件大小,以字节为单位
size = os.path.getsize('D:/iso/debian-8.6.0-amd64-DVD-1.iso')
print(size/1024/1024/1024, 'GB')
14、os.path.abspath(name)
获取绝对路径,如果在 Python 工作目录下有一个文件file.txt,那么我就可以直接open('file.txt'),也可以用该方法获得其绝对路径print(os.path.abspath('file.txt'))。也可以用来规范路径字符串print(os.path.abspath('D:/game\gtav\bin/gtav.exe'))
15、os.path.normpath(path)
专门用来规范路径
path = 'D:/test/sdf\zfb'
print(os.path.normpath(path))
16、os.path.splitext()
获取文件名和扩展名
path = '/home/shawn/hello.py'
print(os.path.splitext(path))
17、os.path.join(path,name)
连接目录和文件名,可以不用自己添加分隔符,能减少 bug 率提升跨平台性
18、os.path.basename(path)
获取路径中的文件名
19、os.path.dirname(path)
获取路径中的目录名

猜你喜欢

转载自blog.csdn.net/weixin_41931602/article/details/80458740
今日推荐