Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb - 代码天地

Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb

其他 2019-01-14 00:24:43 阅读次数: 0

创建项目

scrapy startproject zhaoping

创建爬虫

cd zhaoping
scrapy genspider hr zhaopingwang.com

目录结构

items.py

    title = scrapy.Field()
    position = scrapy.Field()
    publish_date = scrapy.Field()

pipelines.py

from pymongo import MongoClient

mongoclient = MongoClient(host='192.168.226.150',port=27017)
collection = mongoclient['zhaoping']['hr']

class TencentPipeline(object):
    def process_item(self, item, spider):
        print(item)
        # 需要转换为 dict
        collection.insert(dict(item))
        return item

spiders/hr.py

    def parse(self, response):
        # 不要第一个 和最后一个
        tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
        for tr in tr_list:
            item = TencentItem()
            # xpath 从1 开始数起
            item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
            item["position"] = tr.xpath("./td[2]/text()").extract_first()
            item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
            yield item

        next_url = response.xpath("//a[@id='next']/@href").extract_first()
        # 构造url
        if next_url != "javascript:;":
            print(next_url)
            next_url = "https://hr.tencent.com/" + next_url
            yield scrapy.Request(url=next_url,callback=self.parse,)

就是这么简单，就获取到数据

猜你喜欢

转载自www.cnblogs.com/tangkaishou/p/10264628.html

Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

网络爬虫之scrapy爬取某招聘网手机APP发布信息

python-scrapy爬取某招聘网站(二)

Python Scrapy 爬取前程无忧招聘网

PythonScrapy框架实战（一）爬取腾讯招聘网信息

网络爬虫爬取拉勾招聘网

Python网络爬虫数据采集实战：Scrapy框架爬取QQ音乐存入MongoDB

Python爬取拉钩招聘网数据

python爬虫--scrapy爬取腾讯招聘网站

Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】

python-scrapy爬取某招聘网站信息(一)

爬虫实战篇---糗事百科爬虫(scrapy框架)

爬虫实战篇---使用Scrapy框架进行汽车之家宝马图片下载爬虫

Python爬虫实战，requests+time模块，爬取某招聘网站数据并保存csv文件（附源码）

Android爬虫Jsoup爬取某招聘网站数据并保存为exceL文件

scrapy框架爬取智联招聘网站上深圳地区python岗位信息。

Python爬取招聘网站

python爬取招聘网站数据

基于scrapy+mongodb的智联招聘网站信息爬取

Scrapy框架——CrawlSpider爬取某招聘信息网站

Python爬虫【实战篇】百度贴吧爬取页面存到本地

Python爬取智联招聘网之贵阳python求职信息

最新 Python3 爬取前程无忧招聘网 mysql和excel 保存数据

Python爬虫(爬取招聘网站信息)

Python爬虫爬取51job招聘网站

Python爬虫：爬取招聘网站系列 - 前程无忧

python-scrapy爬虫框架爬取拉勾网招聘信息

【爬虫系列】Python爬虫实战--招聘网站的职位信息爬取

Scrapy实战篇（一）之爬取链家网成交房源数据（上）

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)