Scrapy 学习笔记 - 一个练手任务，爬取起点的全部小说名 - 代码天地

Scrapy 学习笔记 - 一个练手任务，爬取起点的全部小说名

其他 2019-02-22 14:51:11 阅读次数: 0

import scrapy

class myFirstSpider(scrapy.Spider):
    name = "myFirst_Spider_Task"
    #allowed_domains = ["cmis.bjedu.cn"]
    start_urls = ["https://www.qidian.com/all",] #第一个网址
    def parse(self, response):
        
        selector = response.xpath("/html/body/div[2]/div[5]/div[2]/div[2]/div/ul") #本页的小说元素集合
        if len(selector) > 0:
            selector = selector[0]
            for sub in selector.xpath("./li/div[2]/h4/a"):
                href = sub.xpath("./@href")[0].extract() #小说跳转链接
                name = sub.xpath("./text()")[0].extract() #小说名字
                print href,name
        #下一个网址
        next_url = response.xpath("/html/body/div[2]/div[5]/div[2]/div[3]/div/div/ul/li")[-1].xpath("./a/@href")[0].extract()
        if len(next_url) > 20: #这里简单判断结束条件
            yield response.follow(next_url,callback=self.parse)

猜你喜欢

转载自blog.csdn.net/holdsky/article/details/79658076

Scrapy 学习笔记 - 一个练手任务，爬取起点的全部小说名

scrapy爬取小说(一）

初探scrapy（用scrapy爬取一部小说）

一周搞定scrapy之第一天--爬取起点中文小说网

scrapy笔记一（scrapy.Spider爬取文字并储存）

scrapy 爬取起点

使用scrapy爬虫,爬取起点小说网的案例

scrapy 爬取小说

scrapy爬取小说

学习scrapy框架爬小说

Scrapy 的学习笔记（一）

scrapy学习笔记（一）

Scrapy框架学习练手之爬取腾讯招聘技术类岗位

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

Scrapy爬取全网小说到本地TXT，Python少年最爱的一个爬虫项目！

一个简单的使用scrapy爬取小说的例

scrapy实例 ----- 爬取小说

scrapy爬取小说实例

scrapy的学习项目：每天都在进步，又是一个爬取图片的项目

Scrapy学习笔记-Selectors一

使用python3.7中的scrapy框架，爬取起点小说

python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

Python学习笔记--第一个项目scrapy

Scrapy 学习笔记 - 第一个项目

《学习scrapy框架爬小说》的进一步完善

Scrapy 应用之爬取《盗墓笔记》

scrapy初探之实现爬取小说

scrapy爬取小说内容并存储

scrapy框架爬取小说信息

scrapy爬取小说时换行问题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)