python 查看文档编码格式-chardet

chardet

chardet是Python社区提供了一个类库包,方便我们在代码中动态检测当前页面或者文件中的编码格式信息


使用示例:

  • 检测txt文档的编码格式
import chardet
with open("ace2005-test.txt","rb") as f:
    data = f.readline()
    print(chardet.detect(data))
{'confidence': 0.73, 'language': '', 'encoding': 'ISO-8859-1'}
  • 检测页面的编码格式
import chardet
import urllib.request
TestData = urllib.request.urlopen('http://www.baidu.com/').read()
print(chardet.detect(TestData))
{'confidence': 0.99, 'encoding': 'utf-8'}

传送门:
GitHub chardet

猜你喜欢

转载自blog.csdn.net/qq_21460525/article/details/78217697
今日推荐