Python 爬取拉勾网python职位信息 - 代码天地

Python 爬取拉勾网python职位信息

其他 2019-11-09 19:34:11 阅读次数: 0

今天的任务是爬取拉勾网的职位信息。

首先，我们进入拉勾网，然后在职位搜索栏搜索Python 的同时，打开控制面板F12，来查看网页构成。

在XHR里，可以清楚的看见Ajax请求，所以需要使用session模块来模拟浏览器的行为来操作。

源代码如下：

复制代码

import requests
import json

header = {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Referer': 'https://www.lagou.com/jobs/list_python%E7%88%AC%E8%99%AB/p-city_184?&cl=false&fromSearch=true&labelWords=sug&suginput=python',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
data = {
    'first': 'true',
    'pn': '1',
    'kd': 'python'
}
url1 = 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=' #主url

url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E6%AD%A6%E6%B1%89&needAddtionalResult=false'　　#ajax请求

s = requests.Session()  #因为需要post和相关cookies，所以得创建session来帮忙获取cookies
s.get(url = url1 ,headers =header)

cookie = s.cookies
respon = s.post(url = url, headers = header, data = data, cookies = cookie)

res_json = json.loads(respon.text)

ret = res_json['content']['positionResult']['result']

for i in ret:
    salary = i['salary']
    name = i['positionName']
    print(name,salary)

复制代码

输出结果如下：

在爬取过程中，因为在使用requests模拟浏览器访问数据的时候，出现了访问频繁的问题。

拉钩的网页加载的时候有一个url专门返回除了招聘信息以外的其它东西，加载招聘信息的时候会产生另外一个ajax请求，请求返回的正是我们想要的内容，只需要在先发送主请求，之后用

requests.Session()建立Session,建立完成session之后通过session来获取cookie，拿到cookie就可以直接用了。该方法的缺点在于每次的获取，都相当于重新打开一次浏览器。

最后通过一系列的取key来获取我们想要的值：Python职位+职位对应的薪水

猜你喜欢

转载自www.cnblogs.com/lesliechan/p/11827330.html

对拉勾网职位信息的爬取（python）

Python 爬取拉勾网python职位信息

python爬虫— 拉勾网职位信息爬取

简单python爬虫爬取拉勾网职位信息

通过Python爬取拉勾网的职位信息

python requests爬取拉勾网职位信息

selenium爬取拉勾网python职位信息

#python学习笔记#使用python爬取拉勾网职位信息（二）：爬取数据

#python学习笔记#使用python爬取拉勾网职位信息（一）：环境配置及库安装

拉勾网爬取全国python职位并数据分析薪资，工作经验，学历等信息

python爬取拉勾网职位信息并进行数据分析

python爬虫（三）用request爬取拉勾网职位信息

Python爬虫实战：爬取拉勾网任意职位信息并保存到Mysql

Python爬取拉勾网数据分析职位

python爬虫：爬取拉勾网职位并分析

python爬虫: 爬取拉勾网职位并分析

练习1:python爬虫-爬取拉勾网职位

通俗易懂的分析如何用Python实现一只小爬虫，爬取拉勾网的职位信息

python3 scrapy 入门级爬虫爬取数万条拉勾网职位信息

用Python爬取拉勾网的职位信息！给我要实习的表弟一些中肯的建议

python爬虫：爬取拉勾网北京数据挖掘职位并分析

【Python经典实战爬虫技术】：爬取拉勾网职位并分析

用Python爬取拉勾网数据分析职位及数据可视化

用Python爬取拉钩网招聘职位信息

python爬虫 —爬拉勾网python爬虫职位（一）

python爬取拉勾职位数据并对其进行分析

python爬虫：爬取拉勾网数据

拉勾网Python岗位爬取

Python拉勾网爬虫-翻页爬取

python爬取拉勾网之selenium

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)