爬虫出现gbk错误 - 代码天地

爬虫出现gbk错误

其他 2019-05-27 11:38:03 阅读次数: 0

源码:

 1 '''百度贴吧数据抓取,不同吧不同页'''
 2 
 3 from urllib import request
 4 from urllib import parse
 5 
 6 # 定义常用变量
 7 base_url = "https://tieba.baidu.com/f?kw="
 8 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
 9 
10 # 拼接url,(先编码,再拼接,再请求)
11 tb_name = input("请输入贴吧名称:")
12 key = parse.quote(tb_name)
13 url = base_url + key
14 
15 print(url)
16 
17 # 三步走
18 # 重构请求对象,包装请求头
19 req = request.Request(url,headers=headers)
20 # 发送请求urlopen
21 res = request.urlopen(req)
22 # 获取响应
23 html = res.read().decode('utf-8')
24 
25 # print(html)
26 
27 # 保存文件
28 with open('贴吧.txt','w') as f:
29     f.write(html)

在进行爬虫数据时, 出现这样的错误:

请输入贴吧名称:美女吧
https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3%E5%90%A7
Traceback (most recent call last):
File "D:/AID1812/Spider/day01/05_百度贴吧_练习.py", line 29, in <module>
f.write(html)
UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f236' in position 166141: illegal multibyte sequence

解决方案:

with open() 内补充添加 encoding="utf-8", 就OK了.

# 保存文件
with open('贴吧.txt','w',encoding='utf-8') as f:
    f.write(html)

猜你喜欢

转载自www.cnblogs.com/tianxiong/p/10929704.html

爬虫出现gbk错误

javadoc生成出现错误“编码 GBK 的不可映射字符”

Java编译时出现编码GBK的不可映射字符错误

python爬虫出现HTTPError ：403：forbidden错误！

python 爬虫写入txt：UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法

Invalid GBK character错误

java在命令行中编译代码出现错误: 编码GBK的不可映射字符

eclipse 生成api文档出现的编码GBK的不可映射字符错误

Java 源程序在 Windows Cmd 中编译出现 "编码GBK的不可映射字符" 错误

Navicat连接oracle 10g出现unsupported server character set ZHS16GBK错误

利用记事本编写代码出现提示错误: 编码GBK的不可映射字符

cmd运行出现：“编码gbk的不可映射字符”错误解决方式

javac编译出现的编码错误: 编码GBK的不可映射字符

把Idea中Java文件拖到本地，在cmd运行出现错误：编码GBK的不可映射字符原因

python3爬虫问题,API调用出现282004等错误

爬虫带着headers获取response出现的错误解决

爬虫出现403错误解决办法

爬虫的时候，出现508限制错误是什么意思？

notepad++编辑器写Java代码，无法编译出现错误：编码GBK的不可映射字符

Python3解决问题：读取文件时，出现乱码或者“UnicodeDecodeError 'gbk' codec can't decode” 错误

解决win命令行模式下编译java文件出现“编码GBK的不可映射字符”错误

Python出现UnicodeDecodeError: 'gbk' codec can't decode byte 0xbb in position 8: illegal multibyte sequence错误

使用cmd命令出现“XXX.java:3: 错误: 编码GBK的不可映射字符”解决方案

编码GBK的不可映射字符错误！！

java “错误：编码GBK 的不可映射字符”

错误：编码GBK的不可映射字符

错误: 编码 GBK 的不可映射字符

错误: 编码GBK的不可映射字符

错误: 编码GBK的不可映射字符 idea

Java错误: 编码GBK的不可映射字符

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)