python 通过chardet库识别判断文件编码类型 - 代码天地

python 通过chardet库识别判断文件编码类型

其他 2018-06-05 08:23:30 阅读次数: 0

字符串编码一直是令人非常头疼的问题，尤其是我们在处理一些不规范的第三方网页的时候。虽然Python提供了Unicode表示的str和bytes两种数据类型，并且可以通过encode()和decode()方法转换，但是，在不知道编码的情况下，对bytes做decode()不好做。

对于未知编码的bytes，要把它转换成str，需要先“猜测”编码。猜测的方式是先收集各种编码的特征字符，根据特征字符判断，就能有很大概率“猜对”。

当然，我们肯定不能从头自己写这个检测编码的功能，这样做费时费力。chardet这个第三方库正好就派上了用场。用它来检测编码，简单易用。

代码如下：

import chardet #导包

f = open('new 2.txt','rb') #打开文件
for i in f: #取出内容，根据文件大小，可取一行进行判断
    a = chardet.detect(i)
    print a
f.close()

使用chardet检测编码非常容易，chardet支持检测中文、日文、韩文等多种语言。

虽然代码简单，但是对于ASCII和UTF-8编码检测貌似不太准确，具体看自己需要使用。

猜你喜欢

转载自blog.csdn.net/shuryuu/article/details/80563377

python 通过chardet库识别判断文件编码类型

笔记｜Python 的 chardet 包识别编码类型

python 字符编码判断 chardet评测

检查一段文字是何种语言以及编码-通过python自带的chardet进行判断

Python基础编程：Python chardet库识别编码原理解析

Python之检测文件的字符编码（chardet）

python字符串编码识别模块chardet简单应用

[python] 基于chardet识别字符编码

软件测试学习之 Python 判断文件编码类型

pytho基本编程：python使用chardet判断字符串编码的方法

python常用库之filetype | python判断文件的类型

python 查看文档编码格式-chardet

python之chardet验证编码格式

【python学习笔记】chardet模块检测编码

Python库使用filetype精确判断文件类型

python获取文件编码类型

python准确判断文件类型

Python chardet

python 判断txt文件的编码格式

Python编程：chardet模块检测byte字节编码

Python中chardet.detect()函数检测编码

Python获取网页编码的两种方法——requests、chardet

Python中动态检测编码chardet的使用教程

Python查看文件用的什么类型的编码

Python 字符编码判断

Python判断网页编码

python导入第三方类库(chardet)

python中的chardet模块

Python安装 chardet

python chardet 模块

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

Python模块之shelve

勇于承担责任

Hikyuu 1.1.0 发布，量化交易研究框架

字节跳动Java3面“凉凉”~不负韶华，努力复习备战“金三银四”

Linux下静态链接库与动态链接库的区别

spring boot架构改造

怎么理解AOP

文件不同步 --本地和eclipse

在linux配置nginx负载均衡

Linux Shell基础命令

每日归档

更多

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)