Einführung in grundlegende Crawler-Tools in Python

1. Stellen Sie vor, was ein Crawler ist

Webcrawler: Ein Programm, das nach bestimmten Regeln automatisch Internetinformationen abruft.

Laienhaft ausgedrückt:Ein Programm oder (Tool, Methode), das simuliert, dass der Client eine Anfrage an den Server sendet und Daten stapelweise abruft

Zweitens die Klassifizierung von Reptilien

1 Durchgang Reptil

Der allgemeine Webcrawler ist ein wichtiger Teil des Suchmaschinen-Crawling-Systems (Baidu, Google, Sogou usw.). Der Hauptzweck
besteht darin, die Webseiten im Internet lokal herunterzuladen, um eine Spiegelsicherung der Internetinhalte zu erstellen. Bereitstellung von Suchunterstützung für Suchmaschinen.

2 Konzentrieren Sie sich auf Reptilien

Für diese Situationen des allgemeinen Crawlens werden häufig gezielte Crawling-Techniken verwendet. Focused Crawler ist eine Art
Webcrawler-Programm, das „auf die Bedürfnisse bestimmter Themen ausgerichtet“ ist. Der Unterschied zu allgemeinen Suchmaschinen-Crawlern besteht darin, dass Focused Crawler den Inhalt verarbeitet und filtert, wenn er das Crawlen von Webseiten implementiert, und versucht, dies sicherzustellen Nur das Crawlen ist für den Bedarf an Webseitendaten relevant.

Drei Chrome-Entwicklertools

Bei den Chrome Developer Tools handelt es sich um eine Reihe von Webentwicklungs- und Debugging-Tools, die in Google Chrome integriert sind und zum Iterieren, Debuggen und Analysieren von Websites verwendet werden können. Da viele inländische Browserkerne auf dem Chrome-Kernel basieren, verfügen auch inländische Browser über diese Funktion. Zum Beispiel: UC-Browser, QQ-Browser, 360-Browser usw.

1 Elemente-Panel (Elemente)

Über das Elementbedienfeld können wir das Tag sehen, an dem wir den gerenderten Inhalt der Seite abrufen möchten, welches CSS-Attribut verwendet werden soll
(z. B. class="middle") und so weiter. Wenn ich beispielsweise den dynamischen Titel auf der Startseite von My Zhihu erfassen möchte, klicke ich mit der rechten Maustaste auf die Seite, auf der er sich befindet, und wähle „Inspizieren“, um das Elementfenster der Chrome Developer Tools aufzurufen.

2 Konsolenfeld (Konsole)

Das Konsolenfeld (Konsole) ist ein separates Fenster zum Anzeigen von JS- und DOM-Objektinformationen.

3 Ressourcenpanel (Quelle)

Auf der Ressourcenseite (Quelle) können Sie alle Quelldateien der aktuellen Webseite anzeigen.

4 Netzwerk-Panel (Netzwerk)

Das Netzwerkfenster zeichnet Informationen zu jedem Netzwerkvorgang auf der Seite auf, einschließlich detaillierter zeitaufwändiger Daten, HTTP-Anforderungs- und Antwortheadern und Cookies und mehr. Dies nennen wir normalerweise Paketerfassung.
###1 Symbolleiste
Beenden Sie die Aufzeichnung des Netzwerkprotokolls
Standardmäßig werden alle Netzwerkanfragen aufgezeichnet, solange die Entwicklertools aktiviert sind. Natürlich werden die Aufzeichnungen im Netzwerkfenster angezeigt
. Rot bedeutet an, grau bedeutet aus.
Klar
Löschen Sie alle Daten. Bei jeder erneuten Analyse müssen die vorherigen Daten gelöscht werden.
Filter
Paketfilter. Rot bedeutet an, blau bedeutet aus.
Es wird häufig zum Herausfiltern einiger HTTP-Anfragen verwendet, z. B. zum Herausfiltern asynchroner Anfragen, die mit Ajax, Bildern, Videos usw. initiiert wurden.
Suchfeld filtern
Gemäß der Adressfilterung, z. B. baidu.com, werden nur die Datenpakete gefiltert, die baidu.com in der Datenpaketadresse enthalten.
Umkehren
Im Suchfeld „Filter“ werden durch umgekehrte Filterung, z. B. „baidu.com“, Pakete gefiltert, deren Adresse „baidu.com“ nicht enthält.
Daten-URLs ausblenden
Es wird verwendet, um Daten-URLs zu verbergen. Was ist also Daten-URLs? Das herkömmliche src-Attribut des üblichen img-Tags gibt eine Ressource eines Remote-Servers an, und der Browser muss für jede externe Ressource eine Ressourcen-Pull-Anfrage an den Server senden. Die Daten-URL-Technologie besteht darin, dass die Bilddaten im Base64-String-Format in die Seite eingebettet und in HTML integriert werden.
Hat Cookies blockiert
Nur Anfragen mit blockierten Antwortcookies anzeigen, diese Option darf nicht aktiviert sein.
Blockierte Anfragen
Nur blockierte Anfragen anzeigen, diese Option darf nicht aktiviert sein.
Anfragen Dritter
Es werden nur Anfragen angezeigt, deren Ursprung sich vom Ursprung der Seite unterscheidet. Diese Option darf nicht aktiviert sein.
Der größte Bereich heißt Anforderungstabelle. In dieser Tabelle werden alle abgerufenen HTTP-Anforderungen aufgeführt. Standardmäßig ist die Tabelle chronologisch sortiert, wobei die ältesten Ressourcen oben stehen. Durch Klicken auf den Namen der Ressource werden weitere Informationen angezeigt.

2 Parameter der Anforderungstabelle:

alle: Alle Anfragedaten (Bild, Video, Audio, JS-Code, CSS-Code*)
XHR: Die Abkürzung für XMLHttpRequest, den Kern der Ajax-Technologie, ein Inhalt, der häufig nach dem dynamischen Laden analysiert wird
CSS: CSS-Stildatei
JS: JavaScript-Datei, eine Seite, die häufig durch JS-Entschlüsselung analysiert wird
Bild: Bilder Bilddateien
Schriftart: Schriftartdatei (Anti-Picking von Schriftarten)
DOC: Dokument, Dokumentinhalt
WS: WebSocket, Socket-Datenkommunikation auf der Webseite, wird im Allgemeinen für einige in Echtzeit aktualisierte Daten verwendet
Manifest: Über das Manifest zwischengespeicherte Ressourcen anzeigen. Wenn Sie viele Informationen einschließen, wie z. B. die js-Bibliotheksdatei, werden Dateiadresse, Größe und Typ angezeigt.

3 Andere Symbolleisten

Suchen
Im Suchfeld kann der Inhalt, der in ALL angezeigt wurde, direkt durchsucht werden. Häufig verwendet und Datenabruf und JS-Entschlüsselung
Protokoll aufbewahren
Ein Protokoll halten. Bei der Analyse des Inhalts, der auf mehrere Seiten springt, muss dies aktiviert werden. Andernfalls werden bei einem neuen Sprung auf der Seite alle historischen Daten gelöscht. Um das Protokoll zu behalten, muss es als Crawler aktiviert sein
Cache deaktivieren
Leeren Sie den Cache von JavaScript- und CSS-Dateien und laden Sie die neuesten herunter.

5 Anfragedetails:

1 Anforderungsheader

Überschriften: Es sind die Header, die die HTTP-Anfrage anzeigen. Dadurch können wir die Methode der Anfrage und die darin enthaltenen Anfrageparameter sehen.
Allgemeine
Anforderungs-URL: die URL der tatsächlichen Anforderung.
Anforderungsmethode: die Anforderungsmethode.
Statuscode: Statuscode, 200 bei Erfolg

2 Antwortheader

Einige Datensätze werden hier geändert, wenn der Server zurückkehrt, z. B. die neuesten vom Server aktualisierten Cookie-Daten

3 Anforderungsheader

Der Anfragetext, der Grund, warum die Daten nicht angefordert werden können, ist im Allgemeinen hier. Anti-Pickup sind auch die Daten im Anti-Pickup-Anfragetext
Akzeptieren: Das vom Server empfangene Datenformat (im Allgemeinen ignoriert)
Akzeptieren-Kodierung: Die vom Server empfangene Codierung (im Allgemeinen ignoriert)
Akzeptieren-Sprache: Die vom Server empfangene Sprache (im Allgemeinen ignoriert)
Verbindung: in Verbindung bleiben (im Allgemeinen ignoriert)
Kekse: Cookie-Informationen sind Identitätsinformationen, und das Crawlen von VIP-Ressourcen muss Identitätsinformationen enthalten
Gastgeber: die angeforderte Hostadresse
User-Agent: Benutzeridentitätsagent, auf dieser Grundlage beurteilt der Server die ungefähren Informationen des Benutzers
Sec-xxx-xxx: Andere Informationen, möglicherweise nutzlos, möglicherweise Gegenabholung. Spezifische, situationsspezifische Analyse*

4 Vorschau

Vorschau ist eine Vorschau des Anfrageergebnisses. Es wird im Allgemeinen zum Anzeigen der angeforderten Bilder verwendet und ist leistungsfähiger zum Aufnehmen von Bildern.

5 Antwort

Die Antwort ist das von der Anfrage zurückgegebene Ergebnis. Der allgemeine Inhalt ist der Quellcode der gesamten Website. Wenn es sich bei der Anfrage um eine asynchrone Anfrage handelt,
handelt es sich bei dem zurückgegebenen Ergebnisinhalt im Allgemeinen um Json-Textdaten.
Diese Daten stimmen möglicherweise nicht mit der vom Browser angezeigten Seite überein, da der Browser dynamisch lädt

6 Initiator

Anfrageursprungs-Aufrufstapel

7 Timing

Zeitplan für Anfragen und Antworten

Ich denke du magst

Origin blog.csdn.net/m0_74459049/article/details/130189645
Empfohlen
Rangfolge