python3 UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 4400: illegal multibyte sequence

出现这个问题(错误的\xa0)的原因:

网页源代码中的  的utf-8 编码是:\xc2 \xa0,通过后,转换为Unicode字符为:\xa0,当显示到DOS窗口上的时候,转换为GBK编码的字符串,
但是\xa0这个Unicode字符没有对应的 GBK 编码的字符串,所以出现错误。
原代碼:
s = BeautifulSoup(r.text, 'html.parser')
修改後:
s = BeautifulSoup(r.text, 'html.parser').encode('utf-8')

  

  

猜你喜欢

转载自www.cnblogs.com/lza945/p/12130984.html