python爬虫（四）：scrapy 【2. 其他重要部分】 - 代码天地

python爬虫（四）：scrapy 【2. 其他重要部分】

其他 2018-12-09 14:40:50 阅读次数: 0

中文文档：http://www.scrapyd.cn/doc/

本节包括：

1. resquest 和 response 的属性方法

2. scrapy提取信息的强大方法

request 和 response

request：

属性或方法说明

.url Request对应的请求URL地址

.method 对应的请求方法，'GET' 'POST'等

.headers 字典类型风格的请求头

.body 请求内容主体，字符串类型

.meta 用户添加的扩展信息，在Scrapy内部模块间传递信息使用

.copy() 复制该请求

response：

属性或方法说明

.url Response对应的URL地址

.status HTTP状态码，默认是200

.headers Response对应的头部信息

.body Response对应的内容信息，字符串类型

.flags 一组标记

.request 产生Response类型对应的Request对象

.copy() 复制该响应

Scrapy爬虫支持多种HTML信息提取方法：

Beautiful Soup

lxml

re

XPath Selector

CSS Selector

CSS Selector 由 W3C 组织维护并规范，基本使用方法：

<HTML>.css('a::attr(href)').extract()

可以参考：

http://www.scrapyd.cn/doc/146.html

http://www.scrapyd.cn/doc/185.html

猜你喜欢

转载自blog.csdn.net/weixin_42490528/article/details/84925968

python爬虫（四）：scrapy 【2. 其他重要部分】

2.概念部分

[Python] 2.爬虫-网络请求

2. Python环境安装

Python入门：2.函数

2. Python中文编码

[python笔记]2.数字

Python—— 2.编译安装

OpenCV-Python Tutorials - 2. 2. 视频入门

Python爬虫（2.网络爬虫的实现原理及技术）

JSP 与 Servlet重要部分

scrapy爬虫框架 (2. logging模块的使用、yield scrapy.Request()函数间传参)

python爬虫.2.伪装浏览器

python爬虫（三）：BeautifulSoup 【2. 标签的操作】

Python爬虫--使用scrapy框架(2)

14、Python Scrapy Web爬虫框架【2】

python爬虫框架——scrapy(2) 实战练习

Python, LintCode, 2. 尾部的零

一.python基础.-------2. 循环- 集合

Python自学笔记---2.列表(上)

2. python 安装dlib和boost

2.两数相加-leetcode（python）

2.两数相加（Python实现）

2.如何使用python连接hdfs

python入门学习：2.列表简介

2. 两数相加(python)

python leetcode 2. Add Two Numbers

python基础：2. 函数、语法

[leetcode] 2. Add Two Numbers @ python

python语法——序列2.列表

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)