UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 3: invalid start byte

其他 2020-03-29 11:31:29 阅读次数: 0

1.问题描述：

需要用到中文预料，所以下载了一篇txt文件小说，但是读取的时候就出现如标题所示的错误。

2.问题分析：

通过查找可以知道这是字符编码的问题。网上找到的方法都是说读取该文件时使用“gbk”格式的编码就行。但是，不使用“utf-8”编码格式我总觉的会有问题。

2.1 UTF-8和GBK：

GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准（好像还不是国家标准）。GBK编码专门用来解决中文编码的，是双字节的。不论中英文都是双字节的。
UTF－8 编码是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。对于英文字符较多的论坛则用UTF－8 节省空间。另外，如果是外国人访问你的GBK网页，需要下载中文语言包支持。访问UTF-8编码的网页则不出现这问题。可以直接访问。
GBK包含全部中文字符；

2.2 UFT-8和GBK如何选择：

如果你主要做中文程序的开发，客户也主要是中国人的话就用GBK吧，因为UTF-8编码的中文使用了三个字节，用GBK节省了空间。
如果做英文网站开发，还是用utf-8吧，因为utf-8中英文只占一个字节。GBK中英文也是两个字节的，并且国外客户访问GBK要下载语言包。如果你的网站是中文的，但国外用户也不少，最好也用UTF-8的吧。

3.解决问题：

3.1 选择GBK

读取的时候选择使用该格式的编码就行了，网上绝大部分都是采用这个方法。就不详讲了。

3.2 选择使用UTF-8

只需要把该文件的格式转成UTF-8就行。我使用的方法如下：

使用notepad打开需要转码的文件（txt文件本身也支持转码，另存为然后选择utf-8就可以了，如何txt文件内容过大，打开需要很久可以使用我这个方法。notepad打开360万多行的文件都蛮快的！！！），如下图：

然后点击上图红色箭头所示的，注意保存！最后再次点开编码栏，就会出现如下图所示。再去运行程序就没有错误了！！！

发布了82 篇原创文章 · 获赞 126 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_31112205/article/details/103558420

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 3: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 344: invalid start byte报错解决方案

flask报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 0: invalid start byte

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xa1 in position 3: invalid start byte

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xa3 in position 79780: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 0: invalid continuation byte

UnicodeDecodeError:‘utf-8‘ codec can‘t decode byte 0xc3 in position 26: invalid continuation byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte

python问题--UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x89 in position 0: invalid start byte

解决UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte问题

问题：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

python UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte

已解决UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xa1 in position 0: invalid start byte

yagmail报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x82 in position 0: invalid start byte

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xbc in position 0: invalid start byte

爬虫：UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb9 in position 16: invalid start byte

解决 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 5: invalid start byte

编码错误UnicodeDecodeError at / 'utf-8' codec can't decode byte 0xb1 in position 30: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa2 in position 32: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 5: invalid start byte

成功解决UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid start byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x82 in position 743: invalid start byte

Python读取文件UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 2: invalid start byte

python系列之:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xff in position 64:invalid start byte

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x9c in position 513: invalid start byte

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb6 in position 4003: invalid start byte

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)