1.4 Grundprinzipien der Agentur

1. Warum einen Proxy verwenden?

Websites ergreifen im Allgemeinen einige Anti-Crawler-Maßnahmen. Wenn der Server beispielsweise erkennt, dass die Anzahl der Anfragen für eine bestimmte IP pro Zeiteinheit den vom Server festgelegten Schwellenwert überschreitet, verweigert er direkt die Bereitstellung von Diensten oder gibt einige Fehlermeldungen zurück. Diese Situation kann als Blockierung bezeichnet werden. IP. Die Verwendung eines Proxys kann dieses Problem effektiv lösen.

2. Grundprinzipien der Agentur

Ein Proxy bezieht sich eigentlich auf einen Proxyserver, dessen Funktion darin besteht, Netzwerkinformationen im Namen von Netzwerkbenutzern abzurufen. Wenn der Client normalerweise eine Website anfordert, wird die Anfrage direkt an den Webserver gesendet und der Webserver sendet die Antwort direkt an den Client zurück. Der Proxyserver entspricht dem Aufbau einer Brücke zwischen dem Client und dem Webserver. Die vom Client gesendete Anforderung wird vom Proxyserver empfangen und dann vom Proxyserver an den Webserver gesendet. Die Antwort vom Webserver ist ebenfalls vorhanden über den Proxyserver an den Webserver zurückgegeben. Auf diese Weise ist die vom Webserver erkannte IP nicht die IP des Clients, wodurch eine IP-Tarnung realisiert wird. Dies ist das Grundprinzip der Agentur. Das Diagramm ist wie folgt.

Fügen Sie hier eine Bildbeschreibung ein

3. Die Rolle der Agentur

  • Blenden Sie die IP-Adresse der Anforderungsquelle aus. Durch die Verwendung eines Proxys kann die tatsächliche IP-Adresse des Crawlers verborgen werden, wodurch das Risiko eines Ausschlusses von der Website verringert wird.
  • Kriechgeschwindigkeit verbessern. Durch die Verwendung eines Proxyservers kann der Crawler gleichzeitig Anfragen an mehrere Zielserver senden und so die Crawling-Effizienz verbessern.
  • Zugriffsbeschränkungen auflösen. Einige Websites schränken möglicherweise IP-Adressen in bestimmten Bereichen oder bestimmten Benutzertypen ein. Die Verwendung eines Proxys kann dieses Problem lösen.

4. Agentenklassifizierung

Unterscheiden Sie nach Vereinbarung

  • FTP-Proxyserver: Wird hauptsächlich für den Zugriff auf FTP-Server verwendet. Er verfügt im Allgemeinen über Upload-, Download- und Caching-Funktionen. Die Ports sind im Allgemeinen 21, 2121 usw.
  • HTTP-Proxyserver: Wird hauptsächlich für den Zugriff auf Webseiten verwendet. Er verfügt im Allgemeinen über Inhaltsfilter- und Caching-Funktionen. Die Ports sind im Allgemeinen 80, 8080, 3128 usw.
  • SSL/TLS-Proxy: Wird hauptsächlich für den Zugriff auf verschlüsselte Websites verwendet, normalerweise mit SSL- oder TLS-Verschlüsselungsfunktion, und der Port ist im Allgemeinen 443.
  • RTSP-Proxy: Wird hauptsächlich von Realplayer verwendet, um auf den Real-Streaming-Medienserver zuzugreifen. Er verfügt normalerweise über eine Caching-Funktion und der Port ist im Allgemeinen 554.
  • Telnet-Proxy: Wird hauptsächlich für die Telnet-Fernsteuerung verwendet (häufig von Hackern verwendet, um Identitäten zu verbergen, wenn sie in Computer eindringen). Der Port ist im Allgemeinen 23.
  • POP3/SMTP-Proxy: Wird hauptsächlich zum Senden und Empfangen von E-Mails im POP3/SMTP-Modus verwendet. Er verfügt normalerweise über eine Caching-Funktion und der Port ist im Allgemeinen 110/25.
  • SOCKS-Proxy: Er überträgt einfach Datenpakete und kümmert sich nicht um das spezifische Protokoll und die Verwendung, ist also schnell, verfügt im Allgemeinen über eine Caching-Funktion und der Port ist im Allgemeinen 1080 .

Unterscheidet sich nach dem Grad der Anonymität

  • Hochgradig anonymer Proxy: Der hochgradig anonyme Proxy leitet das Datenpaket intakt weiter. Aus Sicht des Servers handelt es sich um einen normalen Client, der zugreift, und die aufgezeichnete IP ist die IP des Proxy Server.
  • Gewöhnlicher anonymer Proxy: Ein gewöhnlicher anonymer Proxy nimmt einige Änderungen am Datenpaket vor, und der Server stellt möglicherweise fest, dass der Besucher ein Proxyserver ist.
  • Transparenter Proxy: Der transparente Proxy ändert nicht nur das Datenpaket, sondern teilt dem Server auch die tatsächliche IP des Clients mit.
  • Spionageagent: Ein Spionageagent ist ein Proxyserver, der von einer Organisation oder Einzelperson erstellt wurde, um die von Benutzern übermittelten Daten aufzuzeichnen und anschließend Recherchen, Überwachungen usw. durchzuführen Daten.

Supongo que te gusta

Origin blog.csdn.net/weixin_75094128/article/details/131418737
Recomendado
Clasificación