Scrapy爬虫框架学习（三）分页爬取并保存为json文件

其他 2020-02-16 10:43:31 阅读次数: 0

Scrapy爬虫框架学习（三）分页爬取并保存为json文件

继续用爬虫框架学习框架一中已有的项目，在spiders文件夹中新建dmoz_spider.py文件下面代码为新建文件的内容

import scrapy
from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    start_urls = [
        'http://quotes.toscrape.com/'
        ]

    def parse(self, response):
        for href in response.css('div[class="col-md-4 tags-box"]>span>a::attr("href")'):
            #循环爬取每个href组成新的url
            url =response.urljoin( href.extract())   #官网urljoin的语法错误,传一个参数就行了
            yield scrapy.Request(url,callback=self.parse_dir_contents)
            #yield在此处作用：为每一个新的url发起request请求，并通过回调函数parse_dir_contents来处理请求的响应


    def parse_dir_contents(self,response):
        #处理每一个request后的请求
        for sel in response.xpath('//div[@class="quote"]/div[@class="tags"]/a[@class="tag"]'):
            item = DmozItem()
            item['title'] = sel.xpath('text()').extract()
            item['link'] = sel.xpath('@href').extract()
            yield item
            #此处yield的作用是：返回DmozItem的一个对象，scrap有框架获得这个对象之后，会将这个对象传递给 pipelines.py来做进一步处理。

在项目所在文件夹中打开cmd命令

输入：

scrapy crawl dmoz -o items.json
#会在项目中生成items.json 存放爬取内容
#爬取的内容过多，只展示部分爬取内容
[{"title": ["life"], "link": ["/tag/life/page/1/"]},
{"title": ["love"], "link": ["/tag/love/page/1/"]},
{"title": ["friends"], "link": ["/tag/friends/page/1/"]},
{"title": ["heartbreak"], "link": ["/tag/heartbreak/page/1/"]},
{"title": ["inspirational"], "link": ["/tag/inspirational/page/1/"]},
{"title": ["life"], "link": ["/tag/life/page/1/"]},
{"title": ["love"], "link": ["/tag/love/page/1/"]}]

@小时候可乖了@

发布了11 篇原创文章 · 获赞 2 · 访问量 1513

私信关注

猜你喜欢

转载自blog.csdn.net/mostermoonsky/article/details/104098333

Scrapy爬虫框架学习（三）分页爬取并保存为json文件

python中Scrapy实战之爬取网页并保存为json文件

爬虫Spider 09 - scrapy框架 | 日志级别 | 保存为csv、json文件

python爬取数据保存为Json格式

Android爬虫Jsoup爬取某招聘网站数据并保存为exceL文件

【Python爬虫】使用美味汤BeautifulSoup爬取数据并保存为Excel文件

node爬虫：爬取csdn博客并保存为 markdown 文件

scrapy----将数据保存为json文件

scrapy爬虫框架（三）：爬取壁纸保存并命名

python学习（三）scrapy爬虫框架（三）——爬取壁纸保存并命名

Python爬虫之bilibili视频弹幕爬取并保存为JSON格式（详解分析+代码实现）

Python爬虫学习笔记(2) _豆瓣电影TOP250(2)爬取详细数据，保存为CSV文件【urllib、request、bs4、error、CSV】

python 利用scrapy爬取豆瓣TOP250部电影信息分别保存为csv、json、存入mysql、下载海报图片

字典保存为json文件

Java爬虫一键爬取结果并保存为Excel

【网络爬虫】爬取网络小说并保存为txt

python scrapy爬取腾讯招聘网站保存为csv文件，而且设定其表头顺序(csv默认是无序的)

爬取某网站所有的乌云漏洞公共文章，并保存为pdf文件

爬取某网站的所有乌云漏洞文章，保存为pdf文件

python--爬取豆瓣热门国产电视剧保存为文件

python爬取中国天气网天气并保存为word格式文件

Vue组件-爬取页面表格中的数据并保存为csv文件

爬取表格类网站数据并保存为excel文件

python爬取中国天气网天气并保存为csv格式文件

用beautifulsoup，re，xpath爬取文章并保存为csv文件

爬取某网站景区列表并保存为csv文件

python爬取安居客地图页信息，并保存为csv文件

Python 爬取数电教案并保存为pdf

python爬取数据保存为图片

python爬取数据保存为MySQl格式

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)