scrapy study notes (b) framework works

FIG scrapy structure:

scrapy components:

  • ENGINE: engine, the core framework, all other components work together under the control.
  • SCHEDULER: scheduler, responsible for SPIDER download request submitted by the scheduling.
  • DOWNLOADER: downloader, is responsible for downloading pages (HTTP request transmitting / receiving HTTP response).
  • SPIDER: reptiles, responsible for extracting the data page, and generates a download request for the new page.
  • MIDDLEWARE: middleware, and is responsible for the Request object Response object for processing.
  • ITEM PIPELINE: data pipe, crawling is responsible for data processing.

For users, Spider is the core component, Scrapy reptiles developed around the realization Spider expanded.

Frame data stream:

  • REQUEST: scrapy the HTTP request object.
  • RESPONSE: scrapy the HTTP response object.
  • ITEM: a data page from crawling.

Request and Response are terms HTTP protocol, i.e. HTTP request and HTTP response, Scrapy framework defines the corresponding Request and Response classes, where one Item data from the representative Spider crawled pages.

scrapy roughly workflow:

  1. When SPIDER to crawl the URL address of a page, use the Request object to construct a URL, submitted to ENGINE.
  2. ENGINE The Request object to the SCHEDULER, SCHEDULER a URL to heavy, according to an algorithm to queue, at some point after it SCHEDULER the team will return to the Request object handled well ENGINE.
  3. ENGINE The SCHEDULER Send Request object processed to DOWNLOADER download page.
  4. DOWNLOADER根据MIDDLEWARE的规则,使用Request对象中的URL地址发送一次HTTP请求到网站服务器,之后用服务器返回的HTTP响应构造出一个Response对象,其中包含页面的HTML文本。DOWNLOADER将结果Resopnse对象传给ENGINE
  5. ENGINE将Response对象发送给SPIDER的页面解析函数(构造Request对象时指定)进行处理,页面解析函数从页面中提取数据,封装成Item后提交给ENGINE。
  6. ENGINE将Item送往ITEMPIPELINES进行处理,最终以某种数据格式写入文件(csv,json)或者存储到数据库中。

整个流程的核心都是围绕着ENGINE进行的。

Request对象

Request对象用来描述一个HTTP请求,下面是其构造器方法的参数列表。

Request(url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None)

# url(必选):请求页面的url地址,bytes或str类型,如'http://www.baidu.com'。
# callback:页面解析函数, Callable类型,Request对象请求的页面下载完成后,由该参数指定的页面解析函数被调用。如果未传递该参数,默认调用Spider的parse方法。
# method:HTTP请求的方法,默认为'GET'。
# headers:HTTP请求的头部字典,dict类型,例如{'Accept':'text/html', 'User-Agent':Mozilla/5.0'}。如果其中某项的值为None,就表示不发送该项HTTP头部,例如{'Cookie':None},禁止发送Cookie。
# body:HTTP请求的正文,bytes或str类型。
# cookies:Cookie信息字典,dict类型,例如{'currency':  'USD','country': 'UY'}。
# meta:Request的元数据字典,dict类型,用于给框架中其他组件传递信息,比如中间件Item  Pipeline。其他组件可以使用Request对象的meta属性访问该元数据字典(request.meta),也用于给响应处理函数传递信息,
# 详见Response的meta属性。
# encoding:url和body参数的编码默认为'utf-8'。如果传入的url或body参数是str类型,就使用该参数进行编码。 # priority:请求的优先级默认值为0,优先级高的请求优先下载。 # dont_filter:默认情况下(dont_filter=False),对同一个url地址多次提交下载请求,后面的请求会被去重过滤器过滤(避免重复下载)。如果将该参数置为True,可以使请求避免被过滤,强制下载。例如,在多次爬取
# 一个内容随时间而变化的页面时(每次使用相同的url),可以将该参数置为True。
# errback:请求出现异常或者出现HTTP错误时(如404页面不存在)的回调函数。

虽然参数很多,但除了url参数外,其他都带有默认值。在构造Request对象时,通常我们只需传递一个url参数或再加一个callback参数,其他使用默认值即可。

Response对象:

Response对象用来描述一个HTTP响应,Response只是一个基类,根据响应内容的不同有如下子类:

  • TextResponse
  • HtmlResponse
  • XmlResponse

当一个页面下载完成时,下载器依据HTTP响应头部中的Content-Type信息创建某个Response的子类对象。我们通常爬取的网页,其内容是HTML文本,创建的便是HtmlResponse对象,其中HtmlResponse和XmlResponse是TextResponse的子类。实际上,这3个子类只有细微的差别,这里以HtmlResponse为例进行讲解。

下面是HtmlResponse对象的属性及方法。

url:HTTP响应的url地址,str类型。
status:HTTP响应的状态码,int类型,例如200,404。
headers:HTTP响应的头头部,类字典类型,可以调用get或getlist方法对其进行访问,例如:response.headers.get('Content-Type')  response.headers.getlist('Set-Cookie')
body:HTTP响应正文,bytes类型。
text:文本形式的HTTP响应正文,str类型,它是由response.body使用response.encoding解码得到的,即reponse.text = response.body.decode(response.encoding)
encoding:HTTP响应正文的编码,它的值可能是从HTTP响应头部或正文中解析出来的。
request:产生该HTTP响应的Request对象。
meta:即response.request.meta,在构造Request对象时,可将要传递给响应处理函数的信息通过meta参数传入;响应处理函数处理响应时,通过response.meta将信息取出。
selector:Selector对象用于在Response中提取数据。
xpath(query):使用XPath选择器在Response中提取数据,实际上它是response.selector.xpath方法的快捷方式。
css(query):使用CSS选择器在Response中提取数据,实际上它是response.selector.css方法的快捷方式。
urljoin(url):用于构造绝对url。当传入的url参数是一个相对地址时,根据response.url计算出相应的绝对url。例如:

response.url为http://www.example.com/a,url为b/index.html,调用response.urljoin(url)的结果为http://www.example.com/a/b/index.html。

虽然HtmlResponse对象有很多属性,但最常用的是以下的3个方法:

  • xpath(query)
  • css(query)
  • urljoin(url)

前两个方法用于提取数据,后一个方法用于构造绝对url。

spied开发流程

实现一个Spider子类的过程很像是完成一系列填空题,Scrapy框架提出以下问题让用户在Spider子类中作答:

  • 爬虫从哪个或哪些页面开始爬取?
  • 对于一个已下载的页面,提取其中的哪些数据?
  • 爬取完当前页面后,接下来爬取哪个或哪些页面?

实现一个Spider只需要完成下面4个步骤:

  • 继承scrapy.Spider。
  • 为Spider取名。
  • 设定起始爬取点。
  • 实现页面解析函数。

scrapy.Spider基类实现了以下内容:

  • 供Scrapy引擎调用的接口,例如用来创建Spider实例的类方法from_crawler。
  • 供用户使用的实用工具函数,例如可以调用log方法将调试信息输出到日志。
  • 供用户访问的属性,例如可以通过settings属性访问配置文件中的配置。

 关于起始URL start_urls:

start_urls通常被实现成一个列表,其中放入所有起始爬取点的url(例子中只有一个起始点)。看到这里,大家可能会想,请求页面下载不是一定要提交Request对象么?而我们仅定义了url列表,是谁
暗中构造并提交了相应的Request对象呢?

  1. 我们将起始URL提交给ENGINE。
  2. ENGINE调用start_requests方法,我们没有实现整个方法,所以调用了基类的start_requests方法。
  3. 通过阅读Spider基类的源码可以看到如下内容:
  4. 基类的start_requests将我们的URL封装成Request对象。

由此我们知道Request对象是调用基类start_requests方法产生的,因此我们也可以自己定义start_requests方法(覆盖基类Spider的start_requests方法),直接构造并提交起始爬取点的Request对象。在某些场景下使用这种方式更加灵活,例如有时想为Request添加特定的HTTP请求头部,或想为Request指定特定的页面解析函数。

页面解析函数parse:

页面解析函数也就是构造Request对象时通过callback参数指定的回调函数(或默认的parse方法)。页面解析函数是实现Spider中最核心的部分,它需要完成以下两项工作:

  • 使用选择器提取页面中的数据,将数据封装后(Item或字典)提交给Scrapy引擎。
  • 使用选择器或LinkExtractor提取页面中的链接,用其构造新的Request对象并提交给Scrapy引擎(下载链接页面)。

一个页面中可能包含多项数据以及多个链接,因此页面解析函数被要求返回一个可迭代对象(通常被实现成一个生成器函数),每次迭代返回一项数据(Item或字典)或一个Request对象。

内容小结:

  • 了解scrapy的六个组件的功能。
  • 理解scrapy工作流程。

 

Guess you like

Origin www.cnblogs.com/caesar-id/p/11123476.html