05--CrawlSpider的使用

其他 2019-05-09 10:20:54 阅读次数: 0

CrawlSipder可以自动根据正则表达式提取页面中的url地址,更具相应的参数去到callback函数以及要不要在新提取到的url地址执行提取url地址的规则

创建CrawlSpider

scrapy genspider -t crawl 爬虫文件名 allowed_domains(限定域)

代码

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
import re
'''继承spider的crawlspider类'''
class PunishSpider(CrawlSpider):
    name = 'cf'
    allowed_domains = ['bxjg.circ.gov.cn']
    start_urls = ['http://bxjg.circ.gov.cn/web/site0/tab5240/module14430/page1.htm']
    '''
        可以定义提取url地址的规则
        LinkExtractor 连接提取器，提取url
        allow : 可以写入正则表达式
        callback: 提取出来的url地址的response交给callback处理
        follow: 表示当前的url地址的响应是否重新经过rules来提取url地址
    '''
    rules = (
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+\.htm'), callback='parse_item'),
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/module14430/page\d+\.htm'),follow=True),
    )
    '''与Spider类不同，CrawlSpider类中的parse函数有特殊功能，不能定义'''
    def parse_item(self, response):
        item = {}
        item['title'] = re.findall("<!--TitleStart-->(.*?)<!--TitleEnd-->",response.body.decode())[0]
        item['publish_date'] = re.findall("发布时间：(20\d{2}-\d{2}-\d{2})",response.body.decode())[0]
        print(item)

猜你喜欢

转载自blog.csdn.net/qq_34788903/article/details/89886259

05--CrawlSpider的使用

crawlspider的使用

CrawlSpider

scrapy框架中crawlspider的使用

Scrapy CrawlSpider介绍和使用

使用CrawlSpider 自动爬取网页

scrapy-CrawlSpider的rules使用规则

python网络爬虫 CrawlSpider使用详解

使用scrapy中crawlspider爬取csdn文章

Scrapy 使用CrawlSpider整站抓取文章内容实现

Scrapy爬虫实战 CrawlSpider和Item Loader的使用

使用scrapy-crawlSpider 爬取tencent 招聘

scrapy中Spider类与CrawlSpider类的使用比较

Scrapy 爬取腾讯招聘（CrawlSpider 了解与使用）

爬虫 - Scrapy 框架-CrawlSpider以及图片管道使用

Spider & CrawlSpider

爬虫 crawlspider

CrawlSpider的学习

使用CrawlSpider轻松爬取巴比特网全站数据

菜鸟写Python-Scrapy：Spider源码分析扩展-CrawlSpider使用分析（详解）

135 scrapy框架使用selenium爬取动态网页的数据, crawlspider

Scrapy框架-对分页使用链接提取器CrawlSpider爬取每页的数据

Scrapy 爬取阳光热线问政平台存储为json 文件（使用 CrawlSpider）

05.DBUnit的使用

使用YASM编程 - 05

05----FirePath使用

05 enumerate index使用

python05 if or and 的使用

05: jwt原理&使用

Git --05 Gitlab使用

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)