Python实现递归查找某个路径下所有文件中的中文字符 - 代码天地

Python实现递归查找某个路径下所有文件中的中文字符

其他 2018-08-18 16:13:54 阅读次数: 0

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21

import re
import sys
import os

reload(sys)
sys.setdefaultencoding("utf8")


def translate(str):
    out = set()
    line = str.strip().decode('utf-8', 'ignore')  # 处理前进行相关的处理，包括转换成Unicode等
    p2 = re.compile(ur'[^\u4e00-\u9fa5]')  # 中文的编码范围是：\u4e00到\u9fa5
    zh = " ".join(p2.split(line)).strip()
    # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
    for s in zh.split():
        out.add(s)  # 经过相关处理后得到中文的文本
    return out

def extract_file(path):
    result = set()
    try:
        f = open(path)  # 打开文件
        lines = f.readlines()
        for line in lines:
            string = translate(line)
            if string:
                result.update(string)
    except Exception as e:
        pass
    return result


def extract(path):
    result = set()
    files = os.listdir(path)
    for file in files:
        if not file.startswith("."):
            if not os.path.isdir(path + "/" + file):  # 判断是否是文件夹，不是文件夹才打开ssgsg判断是否是文件夹，不是文件夹才打开
                sub_file = extract_file(path + "/" + file)
                if sub_file:
                    result.update(sub_file)
            else:
                print file
                child = extract(path + "/" + file)
                if child:
                    result.update(child)
    return result


if __name__ == '__main__':
    path = "/Users/common"
    result = extract(path)
    res_file = open("result.txt", "w")
    for s in result:
        res_file.write(s + "\n")

猜你喜欢

转载自blog.csdn.net/weiguang111/article/details/81319421

Python实现递归查找某个路径下所有文件中的中文字符

python提取url中的所有中文字符

python 返回当前文件夹下的所有文件的绝对路径；打印文件中的中文字符

eclipse中搜索替换所有中文字符

Linux中查找某路径下，包含某个字符串的所有文件

使用webstorm找出指定文件夹内所有文件中包含的中文字符（webstorm利用正则查找内容）

Xcode中查找中文字符

递归获取某个路径下的所有文件

Python: 在CSV文件中写入中文字符

linux下查找某个目录下所有文件中是否含有某个字符串

python实现批量删除某个路径下所有的某种文件

linux中查找路径下包含某字符串的所有文件

如何查找代码中的中文字符

python解决文件路径包含中文字符的三种方法

Python----使用正则re查找文本中特定中文字符串

python递归函数获取某路径下所有文件

python 判断字符串中是否只有中文字符

python判断字符串中是否只有中文字符

查找并替换中文字符

python中含有中文字符无法运行

python 中带有中文字符的字典打印log

python logging输入文件中文字符乱码

Python读取包含中文字符文件时报错

删除 linux 文件中的中文字符

获取某个路径下的所有文件路径

python的list要打印中文字符在python2.X下的的中文处理有不少问题，

python - 实现中文字符串对齐的方法

python中的中文字符处理decode和encode

Python 3中使用中文字符报错

Python中怎么识别中文字符？

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)