爬虫之中文url解决办法 - 代码天地

爬虫之中文url解决办法

其他 2020-06-19 10:14:58 阅读次数: 0

# 浏览器传中文参数
# 当你抓到包之后
# 发现中文的变了，你不认识了，转码了
# 或者你写一个带有中文的url的python代码
# 例如url = "https://www.baidu.com/s?wd=尚学堂"
# 你会发现机器报错


from urllib.request import Request, urlopen
from urllib.parse import quote

# quote专门用作中文编码的
# print(quote("我爱i"))可以查看中文编码之后的码
url = "https://www.baidu.com/s?wd={}".format(quote("尚学堂"))
headers = {
    # 下面的User-agent首字母大小写不用关心
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36"
}
request = Request(url, headers=headers)
response = urlopen(request)
print(response.read().decode())

-------------------------------------------------------

from urllib.request import Request, urlopen
from urllib.parse import urlencode
# 这是比较高级的Useragent
# 它是可以自动动态变换的
# 之前我们用的低级user-agent不需要import库
# 需要我们手动添加一些User-agent
from fake_useragent import UserAgent

args = {
    "wd": "尚学堂",
    "ie": "utf-8"
}
url = "https://www.baidu.com/s?{}".format(urlencode(args))
# 此时输出的url就是带有中文的url的转码后的url
# 你可以直接带到浏览器里使用
print(url)
headers = {
    #随机生成的User-agent
    "User-Agent": UserAgent().random
}
request = Request(url, headers=headers)
response = urlopen(request)
info = response.read()
print(info.decode())

猜你喜欢

转载自blog.csdn.net/qq_43776408/article/details/106819333

爬虫之中文url解决办法

Servlet之中文乱码的解决办法

Python爬虫遇到URL错误解决办法大全

url传输中出现中文的解决办法

Tomcat之中文URL问题

spring mvc url 参数传递出现中文乱码解决办法

IE浏览器URL中的查询条件中包含中文时报404的解决办法

struts2 url 传参中文乱码的一种解决办法

php 使用$_SERVER["REQUEST_URI"]获取url中含中文乱码的解决办法

url中含中文导致The valid characters are defined in RFC 7230 and RFC 3986解决办法

URL参数乱码简单解决办法

记第一个爬虫 f.write()写入中文出错解决办法

python爬虫出现乱码的解决办法

爬虫中遇到&nsbp的解决办法

常见的爬虫乱码的解决办法

zabbix中文方块解决办法

Linux中文乱码解决办法

hibernate操作mysql中文解决办法

SecureCRT 中文乱码解决办法

MySql中文乱码解决办法

git中文乱码解决办法

20 中文乱码解决办法

Rhythmbox中文乱码解决办法

CentOS中文乱码解决办法

linux 中文显示乱码解决办法

mysql保存中文乱码的解决办法

mysql 中文乱码解决办法总结

aMSN中文报错解决办法

Debian中文乱码解决办法

MYSQl不能插入中文的解决办法

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)