scrapy爬虫框架(五)-CrawlSpider

其他 2020-02-17 14:01:30 阅读次数: 0

scrapy爬虫框架(五)-CrawlSpider

通过CrawlSpider的链接提取器爬取微信小程序社区的文章

mark

创建爬虫文件

此前要进入爬虫文件夹，使用cd命令,再创建模版（templ）爬虫

scrapy genspider -t crawl 爬虫名 网站域名

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

from wxapp.items import WxappItem
class WxappspiderSpider(CrawlSpider):
    name = 'wxappSpider'
    allowed_domains = ['wxapp-union.com']
    start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']

    rules = (
        Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d'),  follow=True),
        Rule(LinkExtractor(allow=r'.+article-.+\.html'), callback="parse_detail", follow=True)
    )

    def parse_detail(self, response):
        title = response.xpath("//h1[@class='ph']/text()").get()
        links = response.xpath("//p[@class='authors']")
        author = links.xpath(".//a/text()").get()
        time = links.xpath(".//span[@class='time']//text()").getall()
        article = response.xpath("//td[@id='article_content']//text()").getall()
        article = "".join(article).strip()
        item = WxappItem(title=title, author=author, time=time, article=article)
        yield item

运行效果

mark

猜你喜欢

转载自www.cnblogs.com/senup/p/12321418.html

scrapy爬虫框架(五)-CrawlSpider

Scrapy框架实战（五）：通用爬虫 CrawlSpider

爬虫-Scrapy框架（CrawlSpider）

Scrapy爬虫框架---CrawlSpider类

爬虫scrapy框架之CrawlSpider

Scrapy爬虫框架之CrawlSpider爬虫

Scrapy框架——CrawlSpider类爬虫案例

python爬虫之Scrapy框架(CrawlSpider)

Scrapy框架CrawlSpider类爬虫实例

Python网络爬虫之Scrapy框架（CrawlSpider）

爬虫框架之Scrapy（三 CrawlSpider）

Scrapy框架: 通用爬虫之CrawlSpider

python爬虫：scrapy框架Scrapy类与子类CrawlSpider

Scrapy爬虫之CrawlSpider

scrapy 中crawlspider 爬虫

Scrapy 爬虫模板--CrawlSpider

scrapy框架之CrawlSpider

Scrapy框架中的CrawlSpider

Scrapy框架-CrawlSpider

scrapy框架之(CrawlSpider)

Scrapy框架（CrawlSpider）

18、python网路爬虫之Scrapy框架中的CrawlSpider详解

16.Python网络爬虫之Scrapy框架（CrawlSpider）

redis 分布式 1 爬虫scrapy框架之CrawlSpider

爬虫开发11.scrapy框架之CrawlSpider操作

python爬虫入门（八）Scrapy框架之CrawlSpider类

爬虫 - Scrapy 框架-CrawlSpider以及图片管道使用

三十三、scrapy的crawlspider爬虫

scrapy框架中crawlspider的使用

14-scrapy框架(CrawlSpider)

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)