爬虫---------scrapy------浏览器爬取（） - 代码天地

爬虫---------scrapy------浏览器爬取（）

其他 2018-11-17 18:28:26 阅读次数: 0

# -*- coding: utf-8 -*-
import scrapy
# from scrapy.linkextractors import LinkExtractor
# from scrapy.spiders import CrawlSpider, Rule
from Zhilian.items import ZhilianItem
class ZhilianSpider(scrapy.Spider):
    name = 'zhilian'
    allowed_domains = ['zhaopin.com']
    start_urls = ["https://sou.zhaopin.com/?pageSize=60&jl=北京" + "&kw=python" + "&kt=3&p=" + str(i) for i in
                  range(int(input("起始：")), int(input("终止：")))]


    # rules = (
    #     Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    # )
    def parse(self, response):
        job_list = response.xpath("//div[@id='listContent']/div")
        # print(job_list)
        for job in job_list:
            item = ZhilianItem()
            item["name"] = job.xpath(".//span/@title").extract_first()
            item["salary"] = job.xpath(".//p/text()").extract_first()
            item["fuli"] = job.xpath(".//div[contains(@class,'welfare')]/text()").extract()
            item["address"] = job.xpath(".//ul/li[1]/text()").extract_first()
            item["jingyan"] = job.xpath(".//li[contains(@class,'demand')][2]/text()").extract_first()
            item["company"] = job.xpath(".//div/a/@title").extract_first()
            next_url = job.xpath(".//div[contains(@class,'jobName')]//a/@href").extract_first()#获取第二页链接
            # yield item
            yield scrapy.Request(url=next_url,callback=self.parse_next,meta={"item":item})
    def parse_next(self,response):
        item = response.meta["item"]
        item["job_info"] = r"\n".join(response.xpath("//div[@class='pos-ul']/p").exract())
        item["company_info"] = r"\n".join(response.xpath("//div[@class='intro-content']/p/text()")).extract()
        yield item

猜你喜欢

转载自blog.csdn.net/qq_42817166/article/details/83313140

爬虫---------scrapy------浏览器爬取（）

scrapy模拟浏览器翻页爬取智联

scrapy框架+selenium驱动谷歌浏览器爬取简书网站存入mysql的网站级爬虫

Scrapy+Seleium+headless无头浏览器爬取天眼查数据

使用scrapy框架+模拟浏览器方法实现爬取智联的职位信息

模拟浏览器爬取

python爬虫之selenium模拟浏览器爬取淘宝美食

爬虫：模拟浏览器对网站内容进行爬取

python爬虫+网页点击事件+selenium模拟浏览器，爬取选股宝内容

Python爬虫+requests+伪装浏览器爬取小说入门总结

反爬虫模拟浏览器——实现银行信息爬取

Python项目实战:爬虫学习,利用selenium浏览器来爬取

使用Java编写程序模拟浏览器，爬取防爬虫网站的信息

爬虫：爬取以太坊区块链浏览器数据

爬虫：爬取以太坊区块链浏览器数据

Python爬虫模拟浏览器的headers、cookie，爬取淘宝网商品信息

爬虫CASE01：反爬策略之使用随机user-agent模拟浏览器的网页爬取

不用写代码的爬虫：使用chrome浏览器的爬虫插件Web Scraper爬取天猫商品信息

网络爬虫开发(三)-爬虫基础——爬取前端渲染网站的注意事项 & 分析ajax请求并爬取（伪造header）-模拟真实浏览器的请求头

web爬虫讲解—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

【爬虫】Scrapy 爬取excel中500个网址首页，使用Selenium模仿用户浏览器访问，将网页title、url、文本内容组成的item保存至json文件

Scrapy爬虫：模拟浏览器和使用代理

python爬虫之美剧排行榜爬取(加浏览器伪装，代理，异常处理)

Python数据爬虫学习笔记（12）爬取腾讯视频评论数据（Fiddler抓包+浏览器伪装）

只能在浏览器正常访问后的一段之间才能用爬虫爬取

python爬虫 requests+lxml爬取前程无忧网之模拟浏览器登录

spynner模拟浏览器爬取链接

python模拟浏览器爬取数据

通过selenium +headless浏览器爬取淘宝信息

利用chrome浏览器爬取数据

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)