Python数据处理工具—去除TXT文件里面相同的数据

前言

        本次分享的是一个对TXT数据进行处理的一个小工具,功能如题,是把TXT里面相同的数据给清洗掉是剩下唯一的一个。

一、数据

 随便在文件里面写了一点数据,可以看到里面有很多重复的数据,那么里面重复的就是我们要进行清理的。

二、代码

1.实现代码

代码如下:

# 去除txt里面相同的数据
f_read = open(r'./需清理的TXT.txt', 'r', encoding='utf-8')  # 将需要去除重复值的txt文本输入
f_write = open(r'./需清理的TXT1.txt', 'w',encoding='utf-8')  # 去除重复值之后,生成新的txt文本 --“去除重复值后的文本.txt”,如果写入到原txt会把之前的数据覆盖
data = set()  # 创建一个存放数据的集合
for a in [a.strip('\n') for a in list(f_read)]:  # 把读取进来的数据变成列表,再逐个循环读取列表里面的数据(去除开头和结尾的换行)
    if a not in data:  # 判断循环的数据在不在集合里,不在就添加进集合
        data.add(a)
        f_write.write(a + '\n')
f_read.close()
f_write.close()
print('完成')

2.结果

可以看到相比于上面的数据,都保留下了唯一的数据,多余的数据都被清理掉了


总结

        整体代码实现还是比较简单的,用到的都是Python自带的一些方法。整体逻辑是读取文件→判断是否在集合里,不在就添加进集合→写入一个新的TXT文件。TXT用的是覆盖写入,会把之前写入的东西覆盖,所以只会保留最后一次集合的结果。

猜你喜欢

转载自blog.csdn.net/weixin_54243306/article/details/129044856