使用生产者与消费者模式爬取腾讯招聘网的招聘信息

其他 2019-05-10 14:41:16 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载 https://blog.csdn.net/g_optimistic/article/details/90048696

腾讯招聘：https://careers.tencent.com/

1.找接口

我们去腾讯招聘网站去找有关python的招聘信息，在搜索框输入python,接口变成：

https://careers.tencent.com/search.html?keyword=python

我们用这个接口直接去请求网页资源的话，会发现没有数据，只抓到了网页的框架

代码如下：

import requests
from lxml import etree

url = 'https://careers.tencent.com/search.html?keyword=python'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
content = response.content.decode('utf-8')
with open('job.html', 'w', encoding='utf-8') as fp:
    fp.write(content)

我们上述代码中把请求到网页的内容保存到了job.html

程序运行完之后，点开job.html 在浏览器中打开：效果如下

这种情况很有可能是ajax请求，我们需要重新去找接口

打开F12 network-->XHR 找到如下：

找一下请求头的链接：

https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1557450635595&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=python&pageIndex=1&pageSize=10&language=zh-cn&area=cn

这个接口里面有很多参数，我们可以删去没有用的，pageIndex 是用来传页码的，我们可以直接传页码

https://careers.tencent.com/tencentcareer/api/post/Query?keyword=python&pageIndex={}&pageSize=10

重新开始请求，ajax请求响应回来的是json数据格式

2.生产者与消费者模式分析

我们在整个过程需要请求接口，然后再解析数据

生产者用来请求接口，消费者用来解析数据

3.生产者

从page_queue里面取出来page，拼接好url

4.消费者

5.

6.

猜你喜欢

转载自blog.csdn.net/g_optimistic/article/details/90048696

使用生产者与消费者模式爬取腾讯招聘网的招聘信息

利用xpath爬取招聘网的招聘信息

多线程爬取图片（生产者-消费者模式）

生产者消费者模式

生产者-消费者模式

生产者与消费者模式

生产者/消费者模式

消费者生产者模式

PythonScrapy框架实战（一）爬取腾讯招聘网信息

用Python多线程实现生产者消费者模式爬取斗图网的表情图片

设计模式-生产者消费者模式

设计模式—生产者消费者模式

设计模式：生产者消费者模式

设计模式之生产者消费者模式

爬取某招聘网站的招聘信息（猎聘）

用python爬取腾讯招聘网岗位信息保存到表格，并做成简单可视化。（附源码）

Java并发生产者-消费者模式

生产者消费者模式个推

生产者和消费者模式-代码

生产者消费者模式，基于阻塞队列

生产者和消费者模式

生产者/消费者模式阻塞队列 LinkedBlockingQueue

生产者/消费者模式(阻塞队列)

生产者-消费者模式实现

java多线程-生产者消费者模式

生产者/消费者模式(转载)

Python的生产者消费者模式

produce_cuctomer （生产者-消费者）模式

架构设计：生产者/消费者模式

Java_生产者与消费者模式

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)