每日一记：简单实现python自动识别文档编码 - 代码天地

每日一记：简单实现python自动识别文档编码

其他 2020-01-17 19:55:03 阅读次数: 0

最近在搞文件分析时遇到一个比较头疼的问题：文档编码不确定的时候该如何处理？

目前python好像还不能自动处理文档编码，在open方法打开一个文档时，必须通过encoding参数指定编码，这样不符合我的要求。

网上搜寻一番后，看到有人说用chardet模块，我试了下，貌似有点问题，不能解决我遇到的问题。

最终，我想了一个简单粗暴的方法，巧用try/except语句来实现”伪自动“识别文档编码，代码如下：

def getFileType(file_path):
    FileType = "gbk"
    try:
        htmlf = open(file_path, 'r', encoding=FileType)
        htmlf.read()
    except UnicodeDecodeError:
        FileType = "utf-8"
    else:
        htmlf.close()
    return FileType


## 这里只考虑了两种常见编码类型
## 在open方法中直接调用即可：open(files_path, 'r', encoding=getFileType(files_path))

如果你有更好的方法，不要吝啬，分享出来给我学习学习。

发布了77 篇原创文章 · 获赞 88 · 访问量 32万+

私信关注

猜你喜欢

转载自blog.csdn.net/u013012406/article/details/104016714

每日一记：简单实现python自动识别文档编码

Python每日一记

Python 每日一记237>>>Java栈的实现

Python 每日一记245>>>Java队列实现

Python 每日一记249>>>Java实现图的创建

Python 每日一记231>>>Java双向链表的实现

Python 每日一记230>>>Java单向链表的实现

Python 每日一记227>>>Java实现顺序表

python每日一记13

python每日一记10

python每日一记9

python每日一记8

python每日一记6

python每日一记5

python每日一记4

python 每日一记3

python 每日一记2

python 每日一记1

python每日一记7

python每日一记12

python每日一记11

每日一记

每日一记(1)

每日一记--AOP

每日一记--Axjx

每日一记--迷茫

每日一记8.1

每日一记8.7

每日一记 7.31

每日一记8.6

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)