【白话python连载(9.1)】 使用python处理文件

欢迎大家关注公众号【哈希大数据】

【白话python连载(1)】 一起遇见python

【白话python连载(2)】 Python的程序结构

【白话python连载(3)】 Python的输入输出实例

【白话python连载(4.1)】 python的数据类型

【白话python连载(4.2)】 python的数据类型

【白话python连载(5)】 python的条件语句

【白话python连载(6)】 python的循环语句

【白话python连载(7.1)】 python的函数应用

【白话python连载(7.2)】 python的模块介绍

【白话python连载(8)】 python的异常处理

【白话python连载(9.1)】 使用python处理文件

【白话python连载(9.2)】 python的os模块

【白话python连载(10)】 python的内置函数


一、python实例 合并文件并去重

#!/usr/bin/python#
 -*- coding: utf-8 -*-
import os
import pandas as pd
import glob
import csv
def merge_csv(file_address):
 csv_list = glob.glob(file_address + '*.csv')
 print('该文件下下一共有', len(csv_list),'个csv文件需要合并')
 for one_csv in csv_list: 
print(one_csv) # read方法是以字符串形式获取内容 
one_open = open(one_csv,'r').read() 
with open('D:/try/merge_result.csv','a') as f: 
f.write(one_open) 
print('合并{}个文件完成'.format(len(csv_list))) return 'D:/try/merge_result.csv'
def drop_duplicate(file):
 df = pd.read_csv(file) 
datalist = df.drop_duplicates() datalist.to_csv(file,header=False)
 print('去重操作完成')
if __name__ == '__main__':
 file_address = 'D:\\test_accounts1\\' 
merge_result = merge_csv(file_address) drop_duplicate(merge_result)

运行结果:
D:\anaconda python\python3.6.exe" D:/vernacular/coding_ziyi/merge_csv.py该文件下下一共有 6 个csv文件需要合并D:\test_accounts1\accounts.csvD:\test_accounts1\accounts_all_0.csvD:\test_accounts1\accounts_test_15.csvD:\test_accounts1\accounts_test_22.csvD:\test_accounts1\success_accounts_15.csvD:\test_accounts1\test_one.csv合并6个文件完成去重操作完成Process finished with exit code 0
二、python介绍 对文件的操作

我们已知程序是无法直接读写磁盘中的文件,而是请求操作系统提供数据操作接口,为我们生成一个文件对象,从而获取或写入需要的数据。因此在python中操作文件也不例外,首先使用Open打开文件的常规的语法为:

open(' D:/try/merge_result.csv', 'r', encoding='gbk', errors='ignore'

1、文件读取第一个参数:读取位置的设置(位置参数,必须指定):

使用相对位置:open('../data/merge_result.csv'),最终执行完成将会在data文件下保存合并数据的结果。从序号可以看出合并数据的结果确实是来自不同的文件。

image
image

同理也可以使用绝对位置:'D:/try/merge_result.csv',按照所需进行文件的位置的设置,这其中特别需要注意的是:python中对文件位置分隔符正斜杠’/和反斜杠’\’的使用。因为python中反斜杠‘\’有转义关键字符的功能。

image.png

2、文件读取第二个参数:读取方式的设置(位置参数,必须指定):
image

3、文件读取第三个参数和第四个参数:对文件编码方式的调整(命名参数,有默认值):
encoding指定读取文件的编码方式
errors='ignore'则是忽略文件中出现的编码不一致问题。
对文件的常用操作:
image

简化操作文件方式:

(可以同时实现文件的打开,读写,关闭操作)

with open('/Users/michael/test.txt', 'w') as f:f.write('Hello, world!')

这样操作也可以防止在实际使用中忘记使用调用close()方法

本次总结

本次主要介绍了python对文件的常规读写操作方式,是最常用的os模块操作之一。下期会接着介绍os模块对系统目录,文件,子模块,系统命令等其他相关操作方式。

猜你喜欢

转载自blog.csdn.net/hashdata2018/article/details/80305801
今日推荐