python print unicode错误bug - 代码天地

python print unicode错误bug

其他 2018-09-23 05:07:10 阅读次数: 0

在爬虫爬取网页内容遇到的bug

Debug错误提示：UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 0: illegal multibyte sequence

代码：

response1=urllib2.urlopen(url)
r_doc=response1.read()
soup=BeautifulSoup(r_doc, 'html.parser',from_encoding='utf-8')  

content=soup.find('div',id="content")
doc=content.get_text()
print doc
后来经过验证
print u"中文"
不会报错

但是
print u"\xa0中文"
debug产生错误

\xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。通常我们见到的字符多数是 latin1 的，比如在 MySQL 数据库中。

经过测验将代码修改为
response1=urllib2.urlopen(url)
r_doc=response1.read()
soup=BeautifulSoup(r_doc, 'html.parser',from_encoding='utf-8')  

content=soup.find('div',id="content")
doc=content.get_text().replace(u"\xa0"," ")
print doc
使用relace 将爬取内容中的\xa0修改为空格，程序成功运行

猜你喜欢

转载自blog.csdn.net/zhuochuyu7096/article/details/79945657

python print unicode错误bug

python print 方法打印 unicode 遇到的坑

《python print -> print() 》

Python3.6：print 语法错误

python的print

python print(%)

python print

python——print Python：print显示颜色

Python输出函数print()总结（python print()）

**Python错误记录：Missing parentheses in call to 'print'**

python异常错误：SyntaxError: Missing parentheses in call to 'print'

解决Python print输出文本显示 gbk 编码错误

windows环境print python程序报编码错误

萌新Python记录：print 与 print()

python input和print

python print的用法

python print打印中文

Python—— print的区别

python之print语句

python print 美化

Python中的print

python中print()的作用

python 3 print function

python中print语句

python学习笔记--print

Python--print学习

python中文print报错

python基础语法——Print

Python变量print

python print UUID的问题

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)