Boss直聘scrapy爬虫

其他 2018-09-27 06:02:11 阅读次数: 0

爬取boss直聘热门岗位信息，源码如下

-- coding: utf-8 --

import scrapy
from Boss.items import BossItem
from scrapy import Request
from copy import deepcopy

class BossSpider(scrapy.Spider):
name = ‘boss’
allowed_domains = [‘zhipin.com’]
#起始网址
start_urls = [‘https://www.zhipin.com/?sid=sem_pz_bdpc_dasou_title‘]
def parse(self, response):
#遍历大分类
divs=response.xpath(‘//*[@id=”main”]/div/div[2]/div[1]/div[2]/a’)
item = BossItem()
for div in divs:
#大分类名称和url
item[‘Name’]=div.xpath(‘./text()’).extract_first(）
item[‘URL’]=’https://www.zhipin.com‘+div.xpath(‘./@href’).extract_first()
yield Request(item[‘URL’],callback=self.parse_content,meta={‘item’:deepcopy(item)})

def parse_content(self,response):
item = response.meta[‘item’]
divs=response.xpath(‘//*[@id=”main”]/div/div[2]/ul/li’)
for div in divs：
#详情页信息
item[‘job’]=div.xpath(‘./div/div[1]/h3/a/div[1]/text()’).extract_first()
item[‘price’]=div.xpath(‘./div/div[1]/h3/a/span/text()’).extract_first()
item[‘addrr’]=div.xpath(‘./div/div[1]/p/text()[1]’).extract_first()
item[‘yaoqiu’]=div.xpath(‘./div/div[1]/p/text()[3]’).extract_first()
item[‘name’]=div.xpath(‘./div/div[2]/div/h3/a/text()’).extract_first()
item[‘url’]=’https://www.zhipin.com/‘+div.xpath(‘./div/div[1]/h3/a/@href’).extract_first()
yield item

猜你喜欢

转载自blog.csdn.net/qq_40064720/article/details/82260136

Boss直聘scrapy爬虫

scrapy-boss直聘

爬虫进阶：Scrapy抓取boss直聘、拉勾心得经验

爬虫项目——Scrapy爬取Boss直聘

scrapy+selenium boss直聘爬虫案例分析

Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息

python爬虫教程：Scrapy框架爬取Boss直聘网Python职位信息的源码

Python的scrapy之爬取boss直聘网站

python3 + scrapy 抓取boss直聘岗位

Python的scrapy之爬取boss直聘

scrapy爬取boss直聘实习生数据

scrapy框架爬取Boss直聘，数据存入mysql

Boss直聘网requests多进程爬虫，写入Mysql

爬虫-招聘系列2----boss某直聘

Python爬虫案例Demo——Boss直聘信息的爬取

boss直聘项目说明

Scrapy框架爬取Boss直聘网Python职位信息的源码

简易python爬虫爬取boss直聘职位，并写入excel

Python爬虫实战 - 抓取BOSS直聘职位描述和数据清洗

Python爬虫实战 - 抓取BOSS直聘职位描述和数据清洗！

pyspider爬虫框架之boss直聘职位信息爬取

pyspider爬虫框架之boss直聘招聘信息爬取

[python爬虫]爬取boss直聘并且存到Mysql数据库里

python 爬虫如何通过selenium简单爬取boss直聘招聘职位信息

爬虫-反爬一：boss直聘cookies反爬怎么治

Andorid boss直聘页面跳转效果

爬取boss直聘招聘信息

BOSS直聘招聘信息爬取

用CrwalSpider爬取boss直聘

python爬取boss直聘源码

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)