Python转码问题的解决方法——illegal multibyte sequence

其他 2018-06-18 09:52:41 阅读次数: 2

在Python中，可以对String调用decode和encode方法来实现转码。

比如，若要将某个String对象s从gbk内码转换为UTF-8，可以如下操作
s.decode('gbk').encode('utf-8′)
可是，在实际开发中，我发现，这种办法经常会出现异常：
UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence
这是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中，全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，这些字符，看起来都是全角空格，但它们并不是“合法”的全角空格（真正的全角空格是\xa1\xa1），因此在转码的过程中出现了异常。
这样的问题很让人头疼，因为只要字符串中出现了一个非法字符，整个字符串——有时候，就是整篇文章——就都无法转码。

解决办法：
s.decode('gbk', ‘ignore').encode('utf-8′)
因为decode的函数原型是decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；

如果设置为xmlcharrefreplace，则使用XML的字符引用。

python文档

decode( [encoding[, errors]])

Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding. errors may be given to set a different error handling scheme. The default is 'strict', meaning that encoding errors raise UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error, see section 4.8.1.

----原文链接 http://www.jb51.net/article/16104.htm

猜你喜欢

转载自blog.csdn.net/qq_42281053/article/details/80677686

Python转码问题的解决方法——illegal multibyte sequence

illegal multibyte sequence 解决方法

python 解决illegal multibyte sequence

python 3.0读取文件出现编码错误（illegal multibyte sequence ）

python错误集合一（illegal multibyte sequence，for if） 1.python读取中编码错误（illegal multibyte sequence ）

robot framework启动ride.py时报illegal multibyte sequence

14 python读取文件时出现UnicodeDecodeError: 'gbk' codec can't decode byte 0xb7 in position 26: illegal multibyte sequence解决方法

针对windows系统python报错UnicodeError:'gbk' codec can't encode character '\u27a1' in position 75:illegal multibyte sequence解决方法

【python问题解决】UnicodeDecodeError ：'gb2312' codec can't decode bytes：illegal multibyte sequence

Py中UnicodeDecodeError ~ :illegal multibyte sequence错误解决方案

python爬虫-'gbk' codec can't encode character '\xa0' in position 134: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 357: illegal multibyte sequence 错误解决方法（已解决）

‘gbk‘ codec can‘t decode byte 0x80 in position 309: illegal multibyte sequence的两种解决方法

‘gbk‘ codec can‘t decode byte 0xa6 in position 4: illegal multibyte sequence 问题解决

UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa1 in position 45:illegal multibyte sequence问题解决

解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 0: illegal multibyte sequence问题

解决python3.6的UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 28613: illegal multibyte sequence

python 写入日志的问题 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence

PyInstaller 打包出错 UnicodeDecodeError ：'gb2312' codec can't decode bytes：illegal multibyte sequence

‘gbk' codec can't decode bytes in position 31023: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 120: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 167: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0xe9 in position 7581: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 30738: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 68: illegal multibyte sequence

'gbk' codec can't encode character '\u30fb' in position *: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 6300: illegal multibyte sequence

UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 23: illegal multibyte sequence

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)