aprendizaje reptil - Día 2

Objetivo: se arrastran scrapy en los sitios diana de citas famosas

código:

# - * - coding: UTF-8 - * - 
importación scrapy 

de quotetutorial.items importar QuoteItem 


clase QuotesSpider (scrapy.Spider): 
    nombre = ' comillas ' 
    allowed_domains = [ ' http://quotes.toscrape.com/ ' ] 
    start_urls = [ ' http://quotes.toscrape.com/ ' ] 

    def análisis sintáctico (sí, la respuesta): 
        cotizaciones = response.css ( ' .quote ' )
         para la cita en el  las cotizaciones:
            artículo = QuoteItem () 
            texto = quote.css ( ' .text :: texto ' ) .extract_first () 
            elemento [ ' texto ' ] = texto
             rendimiento artículo 
        siguiente = response.css ( ' .pager .Next un :: attr (href ) ' ) .extract_first () 
        url = response.urljoin (siguiente)
         dió scrapy.Request (url = url, callback = self.parse)

Función realmente sólo es necesario introducir en el interior y luego de análisis

 

scrapy comando aprendido:

scrapy startproject project_name - crear un proyecto de orugas

genspider spider_name scrapy  http://quotes.toscrape.com/ - crear un archivo de reptiles

scrapy cáscara http://quotes.toscrape.com/ - en el tono de prueba shell 

scrapy rastreo spider_name --- iniciar el rastreo de archivo de salida -o en general no pueden JSON Además txt

 

Conseguir un poco de Scrapy ser cosechado, las otras dos preguntas a la izquierda, de izquierda a resolver Día 3:

1) el código y el código del video, pero no lo hicieron volver la url, sólo para rastrear el contenido de la primera página, esta day2 izquierda a resolverlo hoy, primero en involucrar a otros.

2) no he encontrado a cabo sobre Python rendimiento del uso, no sólo debe ser el retorno de significado.

 

Supongo que te gusta

Origin www.cnblogs.com/tlbjiayou/p/12609401.html
Recomendado
Clasificación