Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息 - 代码天地

Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息

其他 2019-04-04 17:15:06 阅读次数: 0

一、准备工作

pip3 install scrapy

如果顺利的话,会像本人这样,装了一大堆软件包

二、新建项目

scrapy startproject www_zhipin_com

如果顺利的话,会像本人这样

三、定义要抓取的 Item

在items.py 文件中定义一个类

四、分析页面

一般一条招聘像下面这样

html 结构如下

爬虫中就是使用 css 选择器获取标签里的文字或链接等

五、爬虫代码

在 spiders 目录下新建 zhipin_spider.py

运行脚本

scrapy crawl zhipin -o item.json

这里会在项目目录下生成 item.json 的一个 json 文件

运行情况如下

http://cdn.jtup.cc/blog/video/scrapy_zhipin_demo.mp4

Point 1 设置 UTF-8 编码

但是不巧，往往这是一个 Unicode 编码的文件，所以需要加个设置

在 settings.py中添加(PS:也可以在运行的时候带上这个参数)

FEED_EXPORT_ENCODING = 'utf-8'

亲测以下方法是不能解决问题的

Point 2 慢一点

注意不要爬的太快，因为 BOSS 直聘只会显示20页的招聘信息，所以理论上这个脚本只要执行20次即可，那么间隔时间尽量设置长一点，本人爬的时候设置的是5秒，但是后面稍微快了一点就六字真言了，还好我已经把数据爬到了

慢一点，才能快一点！

Point 3 修改为自定义的条件

可以修改 zhipin_spider.py 第18行 positionUrl 的链接，把 PHP 修改为 Java 或 Python，把城市编码（’c101020100’ == 上海）换成你需要查询的城市，即可爬取自定的岗位，这就很灵性了！

六、保存到数据库

一条json数据如下

使用软件将json文件导入到 MongoDB 中,以备后面的使用

这里招聘的详细要求还没有爬取

刚抓到的数据还没初步处理

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/88975874

Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息

python 爬取boss直聘招聘信息实现

pyspider爬虫框架之boss直聘招聘信息爬取

python 爬虫如何通过selenium简单爬取boss直聘招聘职位信息

爬虫进阶：Scrapy抓取boss直聘、拉勾心得经验

python爬虫教程：Scrapy框架爬取Boss直聘网Python职位信息的源码

python3 + scrapy 抓取boss直聘岗位

Boss直聘scrapy爬虫

爬虫-招聘系列2----boss某直聘

python分析BOSS直聘的某个招聘岗位数据

python使用webdriver爬取boss直聘招聘

Python爬虫案例Demo——Boss直聘信息的爬取

还怕找不到工作吗？教你用python+selenium采集BOSS直聘招聘信息

Python爬虫实战 - 抓取BOSS直聘职位描述和数据清洗

Python爬虫实战 - 抓取BOSS直聘职位描述和数据清洗！

实战-selenium实现BOSS直聘网信息爬取

实战：最新爬取boss直聘的岗位信息

Scrapy框架爬取Boss直聘网Python职位信息的源码

如何用Python爬取boss直聘职业信息

scrapy-boss直聘

爬取boss直聘招聘信息

BOSS直聘招聘信息爬取

Python爬取boss直聘关于python招聘数据，高薪总是让人那么羡慕

pyspider爬虫框架之boss直聘职位信息爬取

python爬虫（四）---scrapy框架之腾讯招聘项目实战

爬虫项目——Scrapy爬取Boss直聘

scrapy+selenium boss直聘爬虫案例分析

scrapy框架爬取Boss直聘，数据存入mysql

python爬取boss直聘源码

Python的scrapy之爬取boss直聘网站

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)