1. Erstellen Sie ein neues Projekt:
Scrapy Startprojekt Mein Projekt
2. Erstellen Sie eine neue Spider-Datei im neuen Projekt:
Scrapy Genspider Mydomain Mydomain.com
mydomain ist der Name der Spinnendatei, mydomain.com ist der Domainname der Crawler-Website
3. Globale Befehle:
Startprojekt Genspider Einstellungen Runspider Shell Fetch View Version
4. Nur im Projekt verwendete Befehle (lokale Befehle):
Crawl überprüfen Liste bearbeiten Parse - Bank
5. Führen Sie die Spider-Datei aus:
Scrapy Crawl <Spinne>
5.1 Beim Ausführen der Spider-Datei wird das Protokoll nicht angezeigt
Scrapy Crawl <Spinne> --nolog
6. Überprüfen Sie die Spider-Datei auf Syntaxfehler:
Scrapy Check
7. Listen Sie die Spinnendateien unter dem Spinnenpfad auf:
Scrapy-Liste
8. Bearbeiten Sie die Spider-Datei:
Scrapy Edit <Spinne>
Dies entspricht dem Aktivieren des VIM-Modus, der eigentlich nicht einfach zu verwenden ist, und das Bearbeiten in der IDE ist besser geeignet.
9. Laden Sie den Inhalt der Webseite herunter und drucken Sie den aktuell zurückgegebenen Inhalt im Terminal aus. Dies entspricht den Methoden request und urllib:
Scrapy Fetch <url>
10. Speichern Sie den Inhalt der Webseite und öffnen Sie den aktuellen Webseiteninhalt im Browser, um den Inhalt der zu crawlenden Webseite visuell darzustellen:
Scrapy View <url>
11. Öffnen Sie das Scrapy-Display, ähnlich wie bei ipython, und testen Sie Folgendes:
Scrapy Shell [url]
12. Formatierten Inhalt ausgeben:
Scrapy Parse <url> [Optionen]
13. Kehren Sie zu den Informationen zu den Systemeinstellungen zurück:
Scrapy-Einstellungen [Optionen]
Wie zum Beispiel:
$ Scrapy-Einstellungen --get BOT_NAME Scrapybot
14. Führen Sie die Spinne aus:
Scrapy Runspider <spider_file.py>
15. Zeigen Sie die Scrapy-Version an:
Scrapy-Version [-v]
Fügen Sie später -v hinzu, um die Version der Scrapy-abhängigen Bibliothek anzuzeigen
16. Testen Sie die aktuelle Crawling-Geschwindigkeit des Computers:
kratzende Bank