Grundlegende Verwendung der Scrapy-Befehlszeile

1. Erstellen Sie ein neues Projekt:

Scrapy Startprojekt Mein Projekt

2. Erstellen Sie eine neue Spider-Datei im neuen Projekt:

Scrapy Genspider Mydomain Mydomain.com

mydomain ist der Name der Spinnendatei, mydomain.com ist der Domainname der Crawler-Website

3. Globale Befehle:

Startprojekt 
Genspider 
Einstellungen 
Runspider 
Shell 
Fetch 
View 
Version

4. Nur im Projekt verwendete Befehle (lokale Befehle):

Crawl 
überprüfen 
Liste 
bearbeiten 
Parse - 
Bank

5. Führen Sie die Spider-Datei aus:

Scrapy Crawl <Spinne>

5.1 Beim Ausführen der Spider-Datei wird das Protokoll nicht angezeigt

Scrapy Crawl <Spinne> --nolog

6. Überprüfen Sie die Spider-Datei auf Syntaxfehler:

Scrapy Check

7. Listen Sie die Spinnendateien unter dem Spinnenpfad auf:

Scrapy-Liste

8. Bearbeiten Sie die Spider-Datei:

Scrapy Edit <Spinne>

Dies entspricht dem Aktivieren des VIM-Modus, der eigentlich nicht einfach zu verwenden ist, und das Bearbeiten in der IDE ist besser geeignet.

9. Laden Sie den Inhalt der Webseite herunter und drucken Sie den aktuell zurückgegebenen Inhalt im Terminal aus. Dies entspricht den Methoden request und urllib:

Scrapy Fetch <url>

10. Speichern Sie den Inhalt der Webseite und öffnen Sie den aktuellen Webseiteninhalt im Browser, um den Inhalt der zu crawlenden Webseite visuell darzustellen: 

Scrapy View <url>

11. Öffnen Sie das Scrapy-Display, ähnlich wie bei ipython, und testen Sie Folgendes:

Scrapy Shell [url]

12. Formatierten Inhalt ausgeben:

Scrapy Parse <url> [Optionen]

13. Kehren Sie zu den Informationen zu den Systemeinstellungen zurück:

Scrapy-Einstellungen [Optionen]

Wie zum Beispiel:

$ Scrapy-Einstellungen --get BOT_NAME 
Scrapybot

 14. Führen Sie die Spinne aus:

Scrapy Runspider <spider_file.py>

15. Zeigen Sie die Scrapy-Version an:

Scrapy-Version [-v]

Fügen Sie später -v hinzu, um die Version der Scrapy-abhängigen Bibliothek anzuzeigen

16. Testen Sie die aktuelle Crawling-Geschwindigkeit des Computers:

kratzende Bank
Veröffentlicht 210 Originalartikel · Gelobt 37 · 170.000 Aufrufe +

Ich denke du magst

Origin blog.csdn.net/u012757419/article/details/103787224
Empfohlen
Rangfolge