python3爬虫学习之urllib库实战爬取网站 - 代码天地

python3爬虫学习之urllib库实战爬取网站

其他 2019-04-10 21:31:05 阅读次数: 0

目的：熟悉并使用urllib，了解实际爬取时需要注意的事项

以爬取拉勾网为例

进入拉勾网，搜索python，拿到上面的url

上代码

from urllib import request,parse

url = "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput="

headers = {
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36',
    'Referer':'https://www.lagou.com/'
}
data = {
    'first':'true',
    'pn':1,
    'kd':'python'
}
resp = request.Request(url,headers=headers,data=parse.urlencode(data).encode('utf-8'),
                       method='GET')
result = request.urlopen(resp)
print(result.read().decode('utf-8'))

因为拉钩具有一定程度的反爬虫机制，以它为例讲解注意事项

一：定制头部信息，"User-Agent"可以帮助爬虫伪装成浏览器请求页面，如果你没有"Referer",可能会这样：

或者出现提醒

“您操作太频繁，请稍后再试”

如果你定制了这些，依旧无法爬取，在网页任意位置右键点击检查后，来到这里

继续添加头部信息，或者更换ip和cookie

二：

当你爬取失败时，请一定检查该网站是get请求还是post请求

三：

data信息参照于headers信息

四：

如果爬取下来的是乱码，就需要借助于encode和decode

五：

此时爬取的页面可读性极低，也很难获取重要信息，后续会了解到信息提取的几种方式，在茫茫千万英文与中文与符号的海洋中获取堪比黄金的信息

猜你喜欢

转载自blog.csdn.net/s_kangkang_A/article/details/88958908

python3爬虫学习之urllib库实战爬取网站

python3爬虫(3):基于urllib3的request库爬取网站图片

Python3爬虫--两种方法（requests(urllib)和BeautifulSoup）爬取网站pdf

python3爬虫学习之urllib库

python3 urllib爬取wallhalla网站图片

Python3爬虫之urllib携带cookie爬取网页的方法

python3爬虫学习之lxml与xpath实战爬取豆瓣热映

python3 + Scrapy爬虫学习之腾讯实战爬取

python爬虫学习之路(1) 利用urllib爬取网站

python3 爬虫学习之爬取猫眼电影

python3编程07-爬虫实战：爬取新闻网站信息3

爬虫实战一基于Python3的urllib+re模块爬取糗事百科

python3编程06--爬虫实战：爬取新闻网站信息2

python爬虫学习笔记(三)-爬取数据之urllib库

urllib库的学习总结（python3网络爬虫开发实战项目）

Python3爬虫之五：爬取网站数据并写入excel

Python3 爬虫实战（并发爬取）

学习python3爬虫爬取静态小说网站

Python3爬虫（一）：请求库之urllib

python3爬虫之Urllib库（二）

python3爬虫之Urllib库（一）

Python3爬虫实战（urllib模块）

python3 爬虫实战之爬取网易新闻APP端

Python3爬虫(1)_使用Urllib进行网络爬取

Python爬虫实战之爬取网站全部图片(一)

Python爬虫实战之爬取网站全部图片(二)

Python3爬虫urllib库的使用

Python3 之爬取网站页面

Cookie登录爬取实战：Python 利用urllib库的cookie实现网站登录并抓取

python3 爬虫学习日志之爬取今日头条街拍图片

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)