python查找指定目录下所有内容相同的文件 - 代码天地

python查找指定目录下所有内容相同的文件

其他 2019-05-10 02:56:33 阅读次数: 0

from __future__ import print_function
import fnmatch
import os
import hashlib
import sys

CHUNM_SIZE = 8192

def is_file_match(f, patterns):
    for pattern in patterns:
        if fnmatch.fnmatch(f, pattern):
            return True
    return False

def find_specific_files(dir, pattern=["*"], exclude_dir=[]):
    for root, dirnames, filenames in os.walk(dir):
        for filename in filenames:
            full_path = os.path.join(root, filename)
            if is_file_match(full_path, pattern):
                yield full_path
        for directory in exclude_dir:
            if directory in exclude_dir:
                exclude_dir.remove(directory)

def get_chunk(file):
    with open(file,'rb') as fb:
        while True:
            chunk = fb.read(CHUNM_SIZE)
            if not chunk:
                break
            else:
                yield chunk

def get_md5_sum(file):
    md5_obj = hashlib.md5()
    for chunk in get_chunk(file):
        md5_obj.update(chunk)
    return md5_obj.hexdigest()

def main():
    dir_for_search = sys.argv[1]
    if not os.path.isdir(dir_for_search):
        raise SystemExit("{dir} is not a directories.".format(dir=dir_for_search))
    record = {}
    for file in find_specific_files(dir_for_search):
        md5_sum = get_md5_sum(file)
        if md5_sum in record:
            print("find duplicated file {0} vs {1}".format(record.get(md5_sum), file))
        else:
            record[md5_sum] = file

if __name__ == '__main__':
    sys.argv.append(r'F:\python')
    main()

猜你喜欢

转载自blog.csdn.net/a200822146085/article/details/89296854

python查找指定目录下所有内容相同的文件

Linux 查找当前目录下所有包含指定内容的文件

Python递归遍历目录下所有文件查找指定文件

python 返回指定目录下的所有文件与特定文件

python选取指定目录下与子目录下的所有指定的文件

Python 读取指定目录下的所有文件

Python 递归查找目录下所有jpg文件

【python办公自动化（1）】系统指定文件的查找--输出目录下所有文件及文件夹

读取指定目录下的所有文件

linux查找当前目录下所有以.tar结尾的文件然后移动到指定目录

Python获取指定目录下所有子目录、所有文件名

linux查找指定目录下指定文件包含的内容

python 查找目录中指定类型的所有文件

python获取指定目录下的所有指定后缀的文件名

python3 批量读取指定目录下指定后缀的所有文件

Python 读取指定目录及其子目录下所有文件名

Python：打印目录下所有文件

Python删除目录下的所有文件

perl 遍历指定目录下的所有文件，替换指定文本内容，返回受影响的文件路径

python 利用os.walk查询该文件夹目录下所有文件是否含有自己要查找的关键字内容

Java文件操作->遍历指定目录下所有文件

Python遍历指定目录下的所有文件以及文件的过滤

Python - 获取指定目录下的所有文件和文件夹

【转】java获取指定目录下的所有文件

linux --> 删除指定目录下所有文件

递归<二> --- 遍历指定目录下所有文件

获取指定目录下所有的文件名

Java遍历指定目录下的所有文件

Linux: 修改指定目录下所有文件的权限

利用 FilesystemIterator 获取指定目录下的所有文件

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)