Python 爬虫，scrapy，CrawlSpider，自动提取url并发送请求 - 代码天地

Python 爬虫，scrapy，CrawlSpider，自动提取url并发送请求

编程语言 2019-01-20 02:28:53 阅读次数: 0

CrawlSpider 爬虫可以自动匹配提取url地址并发送请求，请求前会自动将url地址补全成以http开头的完整url。

创建CrawlSpider爬虫的命令：先cd到项目目录中 ----> scrapy genspider –t crawl 爬虫名 baidu.com

项目名/spiders/爬虫名.py（CrawlSpider爬虫，自动匹配提取url地址并发送请求）：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
import re

# 继承的是CrawlSpider
class DemoSpider(CrawlSpider):
    name = '爬虫名'
    allowed_domains = ['baidu.com']
    start_urls = ['http://www.baidu.com']

    # 定义提取url地址的规则
    rules = (
        # LinkExtractor 链接提取器，提取url地址
        # callback 提取出来的url地址的response会交给callback处理（如果不需要处理，可以不写callback）
        # follow 提取的url地址的响应是否重新经过rules来提取新url地址（默认False）
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+\.htm'), callback='parse_item'), # callback不能传递数据。 详情页的url
        Rule(LinkExtractor(allow=r'/web/site0/tab5240/module14430/page\d+\.htm'),follow=True),  # 下一页的url
        # 如果url匹配到上面的规则，就不会继续向下匹配了。
    )

    # parse函数有特殊功能，不能定义(覆盖)
    def parse_item(self, response):
        item = {}
        item["title"] = re.findall("<!--TitleStart-->(.*?)<!--TitleEnd-->",response.body.decode())[0]
        item["publish_date"] = re.findall("发布时间：(20\d{2}-\d{2}-\d{2})",response.body.decode())[0]
        print(item)
        
    #     也可以继续发送请求(可以通过meta传递数据)
    #     yield scrapy.Request(
    #         url,
    #         callback=self.parse_detail,
    #         meta = {"item":item}
    #     )
    #

猜你喜欢

转载自blog.csdn.net/houyanhua1/article/details/86552430

Python 爬虫，scrapy，CrawlSpider，自动提取url并发送请求

python爬虫之Scrapy框架(CrawlSpider)

Python网络爬虫之Scrapy框架（CrawlSpider）

Python爬虫-Scrapy-CrawlSpider与ItemLoader

python爬虫：scrapy框架Scrapy类与子类CrawlSpider

【python爬虫】scrapy入门8:发送POST请求

16.Python网络爬虫之Scrapy框架（CrawlSpider）

18、python网路爬虫之Scrapy框架中的CrawlSpider详解

python爬虫入门（八）Scrapy框架之CrawlSpider类

python网络爬虫——CrawlSpider

python爬虫入门-发送请求

基于 Python 的 Scrapy 爬虫入门：页面提取

Python 链接提取器 CrawlSpider

Python开发技巧：scrapy-redis爬虫如何发送POST请求

爬虫学习 16.Python网络爬虫之Scrapy框架（CrawlSpider）

python使用scrapy发送post请求的坑

Python爬虫：关于scrapy模块的请求头

python基础编程：python使用scrapy发送post请求的坑

python基于 Scrapy 的爬虫自动登录

Python使用grequests并发发送请求

Python使用grequests并发发送请求

Python爬虫：Scrapy的get请求和post请求

python爬虫学习笔记-scrapy框架之start_url

python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件

Python爬虫之Scrapy框架系列（12）——实战ZH小说的爬取来深入学习CrawlSpider

Python爬虫之crawlspider源码解析

python网络爬虫 CrawlSpider使用详解

【爬虫】Python Scrapy 基础概念 —— 请求和响应

爬虫-Scrapy框架（CrawlSpider）

Scrapy爬虫之CrawlSpider

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)