Python去除特殊字符\xa0、u'\xe4等 - 代码天地

Python去除特殊字符\xa0、u'\xe4等

其他 2018-09-24 21:23:41 阅读次数: 0

有时我们会碰到类似下面这样的 unicode 字符串:

u'\xe4\xbd\xa0\xe5\xa5\xbd'

这明显不是一个正确的 unicode 字符串，可能是在哪个地方转码转错了。

我们要想得到正确的 unicode 字符串首先就必须先将这个字符串转成非 unicode 字符串，然后再进行解码。按照普通的办法进行 encode 肯定是不行的，因为这不是一个正确的 unicode 字符串：

In [1]: u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('utf8')
Out[1]: '\xc3\xa4\xc2\xbd\xc2\xa0\xc3\xa5\xc2\xa5\xc2\xbd'

In [2]: print u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('utf8')
盲陆聽氓楼陆
那如何才能得到我们想要的 \xe4\xbd\xa0\xe5\xa5\xbd 呢？

python 提供了一个特殊的编码（ raw_unicode_escape ）用来处理这种情况：

In [4]: u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('raw_unicode_escape')
Out[4]: '\xe4\xbd\xa0\xe5\xa5\xbd'

In [5]: u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('raw_unicode_escape').decode('utf8')
Out[5]: u'\u4f60\u597d'

In [7]: print u'\u4f60\u597d'
你好

去除 \xa0等字符：

最近在用爬虫爬取网页信息时，在网页源码中遇到了“&nbsp"字符串，经查阅，发现该字符是不间断空格符。我们通常所用的空格是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内。而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。 latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。

解决方法：

>>> s = '09月27日\xa0发布'
>>> s = "".join(s.split())
>>> s
'09月27日发布'
>>>

注：

join()方法：

join()：连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串。

split():split方法中不带参数时，表示分割所有换行符、制表符、空格。

猜你喜欢

转载自blog.csdn.net/qq_38316655/article/details/81228343

Python去除特殊字符\xa0、u'\xe4等

Redis中get值中文显示为\xe4\xbd\xa0\xe5\xa5\xbd的16进制字符串怎么解决

【工程实践】python 去除\xa0、\u3000、\n、\u2800、\t等字符

python去除\ufeff、\xa0、\u3000

Incorrect string value: '\xE5\xBC\xA0\xE4\xB8\x89' for column 'name' at row 1

1366 - Incorrect string value:'\xE5\xBC\xA0\xE4\xB8\x89' for column 'name' a 错误修改

去除特殊空格：\xc2\xa0

mysql数据库插入异常----Incorrect string value: '\xE5\xBC\xA0\xE4\xB8\x89' for column 'username' at row 1

MYSQL不能显示中文字，显示错误“ERROR 1366 (HY000): Incorrect string value: '\xE5\xBC\xA0\xE4\xB8\x89'”

[Err] 1366 - Incorrect string value: '\xE5\xBC\xA0\xE4\xB8\x89' for column 'add_delivery_test(1,2)'

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法

python去掉字符串'\xa0'

python如何去掉字符串‘\xa0’

Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space

python下字符编码和解码问题：UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0'

去掉特殊空格(\t \v \f \xa0 \u0020 \u3000 \u00A0 &nbsp；)

python 爬虫爬取内容时， \xa0 、 \u3000 的含义与处理方法

［转］python中去掉字符串中的\xa0、\t、\n

python中去掉字符串中的\xa0、\t、\n

【Python-ERROR】‘gbk‘ codec can‘t encode character ‘\xa0‘ or ‘\u2003‘ in position XXX

python字符格式问题SyntaxError: Non-UTF-8 code starting with '\xe4'

Python字符串乱码：\xe4\xb8\xad或者ordinal not in range(128)

Incorrect string value: '\xE5\xBC\xA0\xE6\x96\x87...'数据库字符集问题解决

1366:Incorrect string value: '\xE4\xBB\x8A\xE5\xA4\xA9' for column 'content' at row 1 [ SQL语句 ] :

编码问题：UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:

解决："UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position"错误

bs4 UnicodeEncodeError: 'gbk' codec can't encode character '\xa0'

django.db.utils.InternalError: (1366, "Incorrect string value: '\\xE5\\x9B\\xBE\\xE4\\xB9\\xA6' for

【scala报错】java.sql.BatchUpdateException: Incorrect string value: ‘\xE4\xBA\xA7\xE5\x93\x81...‘ for co

java.sql.SQLException: Incorrect string value: ‘\xE5\xBE\xAE\xE4\xBF\xA1...‘ for column ‘userid‘ at

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)