urllib基础-利用网站结构爬取网页-百度搜索 - 代码天地

urllib基础-利用网站结构爬取网页-百度搜索

其他 2018-06-24 16:18:45 阅读次数: 2

　　有的时候爬取网页，可以利用网站额结构特点爬取网页

　　在百度搜索框中输入搜索内容，单击搜索，浏览器会发送一个带有参数的url请求。尝试删除其中的一些参数，只剩下wd这个参数。发现wd是搜索内容。这样程序可以根据不同的wd值，请求不同的网页。

　　

 1 from urllib import request,parse
 2 
 3 # 构造请求对象
 4 def baidu(wd):
 5     # 爬取的网页
 6     base_url = 'http://www.baidu.com/s?'
 7 
 8     qs = {
 9         'wd' : wd
10     }
11 
12     # 进行url编码
13     qs = parse.urlencode(qs) # wd=hello
14 
15     # 构造请求对象
16     req = request.Request(base_url + qs)
17 
18     # 发送请求
19     response = request.urlopen(req)
20 
21     # 获取网页内容
22     html = response.read().decode('utf-8')
23 
24     #打印网页
25     print(html)
26 
27 
28 if __name__ == "__main__":
29     while True:
30         wd=input('请输入要搜索的内容：')
31         if wd == 'q': #输入 q 退出
32             break
33         baidu(wd) #下载网页

浏览器中发送请求的url中包含汉字是不能请求成功的，需要将汉字进行url编码。(可以在“站长工具”中在线编码解码)。

这里使用parse.urlencode()进行url编码。将编码之后的内容与原url进行拼接，形成完整的url。

猜你喜欢

转载自www.cnblogs.com/doitjust/p/9220762.html

urllib基础-利用网站结构爬取网页-百度搜索

python百度搜索url爬取图片

百度搜索关键词爬取

使用selenium爬取百度搜索的URL

python爬取百度搜索内容链接

Python爬虫【urllib库模拟百度搜索并保存网页源代码】

【爬虫】模拟百度搜索，爬取搜索界面源代码

百度搜索的代码，在自己的网页中添加百度搜索

HttpClient 实现爬取百度搜索结果（自动翻页）

Python爬虫爬取百度搜索内容接口-xpath

java使用htmlunit爬取百度搜索信息

python--输入检索词自动爬取百度搜索页标题信息

python用selenium爬取百度搜索结果

Python爬取百度搜索的标题和真实URL的代码和详细解析

Python学习笔记16：爬取百度搜索图片的缩略图

利用百度搜索接口模仿百度搜索

wordpress网站利用JS自动提交至百度搜索资源平台

百度搜索

全网搜索一个人的痕迹，爬取百度搜索结果

如何让百度搜索结果显示网站 logo

如何在百度搜索到我的网站？?

百度搜索清理大量低质量网站

如何在百度搜索指定网站的内容

个人网页中利用表单实现跳转B站和QQ音乐搜索（仿百度搜索）

urllib爬取百度贴吧贴子页面

python爬虫学习京东页面、亚马逊访问|、百度搜索、网上爬取图片 DAY2

手把手教你用Python爬取百度搜索结果并保存

Python3网络爬虫--爬取百度搜索结果（附源码）

#百度搜索#让网站首页在百度搜索结果中出图的小技巧

关于网络爬虫的的四个实例（爬取京东和亚马逊商品，百度搜索关键词，爬取一张图片）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)