1. Crear un nuevo proyecto:
scrapro startproject myproject
2. Cree un nuevo archivo de araña en el nuevo proyecto:
scrapy genspider mydomain mydomain.com
midominio es el nombre del archivo de araña, midominio.com es el nombre de dominio del sitio web de rastreo
3. Comandos globales:
startproject genspider configuración runspider shell ha podido recuperar la vista versión
4. Comandos utilizados solo en el proyecto (comandos locales):
lista de verificación de rastreo editar banco de análisis
5. Ejecute el archivo de araña:
scrapy craw <spider>
5.1 La ejecución del archivo araña no muestra el registro
scrapy crawl <spider> --nolog
6. Compruebe el archivo de araña para errores de sintaxis:
cheque escaso
7. Enumere los archivos de la araña debajo de la ruta de la araña:
lista fragmentaria
8. Edite el archivo de araña:
edición escasa <spider>
Es equivalente a activar el modo vim, que en realidad no es fácil de usar, y la edición en el IDE es más adecuada.
9. Descargue el contenido de la página web e imprima el contenido actualmente devuelto en el terminal, que es equivalente a los métodos de solicitud y urllib:
búsqueda irregular <url>
10. Guarde el contenido de la página web y abra el contenido de la página web actual en el navegador para presentar visualmente el contenido de la página que se va a rastrear:
vista temblorosa <url>
11. Abra la pantalla scrapy, similar a ipython, puede usarse para probar:
concha temblorosa [url]
12. Contenido con formato de salida:
análisis fragmentado <url> [opciones]
13. Regrese a la información de configuración del sistema:
configuración escasa [opciones]
Tales como:
configuración $ scrapy - obtener BOT_NAME scrapybot
14. Ejecuta la araña:
spiderpider escamoso <spider_file.py>
15. Muestra la versión scrapy:
versión cortante [-v]
Agregue -v más tarde para mostrar la versión de la biblioteca dependiente scrapy
16. Pruebe el rendimiento actual de la velocidad de rastreo de la computadora:
banco tembloroso