scrapy网页跳转后进行数据爬取 - 代码天地

scrapy网页跳转后进行数据爬取

其他 2018-12-20 21:16:32 阅读次数: 0

因为一开始的网站爬取的是一个href，所以需要去跳转一下，即发一个Request

<a href="https://XXX.com.cn/w/2018-11-24/doc-ihpevhck4340972.html">你好</a>

以下是自己的代码：

def parse(self, response):
    href_set = []
    list = response.xpath("//div[@style='display:none;']//li/a/@href").extract()    #获取href
    for i in range(0, 50, 1):   # 留下前50条数据
        href_set.append(list[i])
    for href in href_set:
        yield scrapy.Request(url=href, callback=self.new_parse)
        #就是这个Request请求了一个新的url，完成之后回调new_parse函数，进一步处理

def new_parse(self, response):
    myitem = TutorialItem()
    myitem['article_title'] = response.xpath("//h1[@class='main-title']/text()").extract()
    myitem['article_content'] = response.xpath("//div[@class='article']//p/text()").extract()
    # 获取第一张图片，可能无图
    myitem['article_image'] = response.xpath("//div[@class='img_wrapper']//img/@src").extract_first()
    # 把自己的item抛出给pipeline
    yield myitem

整体的思路就是通过parse的自动调用去获得href，之后用Request请求获取新网页内容，进一步处理。

如果爬的网页有 n 层href，那就调用 n 次Request，直到请求到自己想要获得数据的网页才进行爬取处理，不然就一直Request，进行跳转访问(我的只有一层href，即调一次href)

其实内建函数parse的原理也类似

猜你喜欢

转载自blog.csdn.net/changer_WE/article/details/84556184

scrapy网页跳转后进行数据爬取

利用scrapy框架进行数据的爬取

Scrapy爬取网页数据

爬虫爬取数据后进行mysql数据库指定数据表的迁移

动态获取cookie 进行数据的爬取

Python 进行数据的爬取（网络爬虫）

selenium+python爬取数据跳转网页

Scrapy框架学习-用Scrapy框架爬取豆瓣电影排行数据——未完待续

使用Scrapy递归爬取网页

python 爬取网页数据并进行保存

scrapy爬取动态数据

Scrapy全站数据爬取

scrapy图片数据爬取

爬取基于ajax跳转的网页内容

Crawler - 如何爬取列表后进行文章的爬取

Python对QQ音乐进行爬取并进行数据分析

python爬取中国天气网站数据并对其进行数据可视化

爬取数据并进行数据分析及可视化

python如何爬取网站数据并进行数据可视化

爬取微博热搜数据进行数据分析与可视化处理

爬取boss直聘岗位数据进行数据分析

Python--爬取天气网站天气数据并进行数据分析

Python3~Scrapy框架爬取网页数据到MySql~pipelines.py

135 scrapy框架使用selenium爬取动态网页的数据, crawlspider

使用python scrapy爬取网页中带有地图展示的数据

使用Crawler对腾讯新闻进行数据爬取并保存入库

python爬取拉勾网职位信息并进行数据分析

爬取豆瓣和微博《镇魂》评论进行数据分析

利用Python爬取淘宝商品信息并进行数据可视化

Python3 爬取微信好基本信息，并进行数据清洗

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)