Objetivo: se arrastran scrapy en los sitios diana de citas famosas
código:
# - * - coding: UTF-8 - * - importación scrapy de quotetutorial.items importar QuoteItem clase QuotesSpider (scrapy.Spider): nombre = ' comillas ' allowed_domains = [ ' http://quotes.toscrape.com/ ' ] start_urls = [ ' http://quotes.toscrape.com/ ' ] def análisis sintáctico (sí, la respuesta): cotizaciones = response.css ( ' .quote ' ) para la cita en el las cotizaciones: artículo = QuoteItem () texto = quote.css ( ' .text :: texto ' ) .extract_first () elemento [ ' texto ' ] = texto rendimiento artículo siguiente = response.css ( ' .pager .Next un :: attr (href ) ' ) .extract_first () url = response.urljoin (siguiente) dió scrapy.Request (url = url, callback = self.parse)
Función realmente sólo es necesario introducir en el interior y luego de análisis
scrapy comando aprendido:
scrapy startproject project_name - crear un proyecto de orugas
genspider spider_name scrapy http://quotes.toscrape.com/ - crear un archivo de reptiles
scrapy cáscara http://quotes.toscrape.com/ - en el tono de prueba shell
scrapy rastreo spider_name --- iniciar el rastreo de archivo de salida -o en general no pueden JSON Además txt
Conseguir un poco de Scrapy ser cosechado, las otras dos preguntas a la izquierda, de izquierda a resolver Día 3:
1) el código y el código del video, pero no lo hicieron volver la url, sólo para rastrear el contenido de la primera página, esta day2 izquierda a resolverlo hoy, primero en involucrar a otros.
2) no he encontrado a cabo sobre Python rendimiento del uso, no sólo debe ser el retorno de significado.