scrapy 总结

其他 2020-03-17 22:50:47 阅读次数: 0

爬虫

scrapy开启请求

简便方式

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
       'http://quotes.toscrape.com/page/2/',
   ]

重写start_request

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"

   def start_requests(self):
       urls = [
           'http://quotes.toscrape.com/page/1/',
           'http://quotes.toscrape.com/page/2/',
       ]
       for url in urls:
           yield scrapy.Request(url=url, callback=self.parse)

start_requests()：必须提供一个Spider开始抓取的迭代请求（你可以返回一个请求列表或者编写一个生成器函数）。随后的请求将从这些初始请求中接连生成。

爬虫类scrapy.Spider

https://docs.scrapy.org/en/latest/topics/spiders.html#scrapy-spider

crawerspider

https://docs.scrapy.org/en/latest/topics/spiders.html#crawlspider

csvspider

https://docs.scrapy.org/en/latest/topics/spiders.html#csvfeedspider

Selector类

常见内置选择器：https://docs.scrapy.org/en/latest/topics/selectors.html#module-scrapy.selector

常见选择器一般有xpath，css，还有re

请求类Request：

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#request-objects

errbacks（错误处理参数的使用）

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#using-errbacks-to-catch-exceptions-in-request-processing

响应类Response

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#response-objects

调度器

待补充

下载器

待补充

引擎

待补充

管道

item

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#document-topics/items

item操作方法就和字典一样，可以通过Item.fields来获取item所有属性

自定义itemloader

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#declaring-item-loaders

声明输入和输出处理器

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#declaring-input-and-output-processors

mongodb管道示例

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#write-items-to-mongodb

splash管道示例

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#take-screenshot-of-item

导出为excel等

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#feed-exports

下载器中间件

文档：

https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#downloader-middleware

实现代理IP：

https://www.jianshu.com/p/8449b9c397bb

自定义爬虫中间件：

https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#writing-your-own-downloader-middleware

常用内置下载器中间件：

https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#built-in-downloader-middleware-reference

爬虫中间件

文档

https://docs.scrapy.org/en/latest/topics/spider-middleware.html#spider-middleware

爬虫设置

https://yiyibooks.cn/__trs__/zomin/Scrapy15/index.html#settings

猜你喜欢

转载自www.cnblogs.com/ycg-blog/p/12514161.html

scrapy总结

scrapy 总结

Scrapy 使用总结

Scrapy-selectors总结

scrapy总结1

爬虫总结(二)-- scrapy

对urllib、requests、scrapy的总结

Scrapy爬虫总结

scrapy框架总结

34、Scrapy 知识总结

scrapy 用法总结

scrapy安装方法总结

Scrapy爬虫小demo总结

Ubuntu下安装Scrapy总结

Scrapy分布式总结

关于scrapy流程的总结分析

Scrapy爬虫开发步骤总结

python之scrapy(六)总结

运行scrapy遇到的错误总结

爬虫之 scrapy 框架总结

Python Scrapy 爬虫的思路总结

实训总结-----Scrapy爬虫

python爬虫框架scrapy思路总结

scrapy爬虫防ban策略总结

学习Scrapy一点总结

scrapy 下载中间件总结

使用scrapy中遇到的坑总结

scrapy中Xpath表达式总结

Scrapy框架的个人理解和总结

Scrapy正则匹配的使用方法总结

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)