Python verwendet HTTP und HTTPS

HTTP-Protokoll (HyperText Transfer Protocol, Hypertext Transfer Protocol): Es ist eine Methode zum Veröffentlichen und Empfangen von HTML-Seiten, die im Klartext übertragen wird, was effizient, aber nicht sicher ist

  HTTPS (Hypertext Transfer Protocol over Secure Socket Layer) ist eine sichere Version von HTTP, die eine SSL-Schicht unter HTTP hinzufügt, Daten vor der Übertragung verschlüsselt und dann entschlüsselt, um Inhalte zu erhalten, was wenig effizient und sicher ist

  SSL (Secure Sockets Layer) wird hauptsächlich als sicheres Transportprotokoll für das Web verwendet und verschlüsselt Netzwerkverbindungen auf der Transportschicht, um die Sicherheit der Datenübertragung im Internet zu gewährleisten.

Der Crawling-Prozess von Webcrawlern kann als Prozess der Simulation von Browseroperationen verstanden werden.

  Die Hauptfunktion des Browsers besteht darin, eine Anfrage an den Server zu senden und die von Ihnen ausgewählten Netzwerkressourcen im Browserfenster anzuzeigen HTTP ist eine Reihe von Regeln für die Kommunikation von Computern über das Netzwerk

  1. Wenn der Benutzer eine URL in die Adressleiste des Browsers eingibt und die Eingabetaste drückt, sendet der Browser eine HTTP-Anfrage an den HTTP-Server. HTTP-Anfragen werden hauptsächlich in zwei Methoden unterteilt: „Get“ und „Post“.
  2. Wenn wir die URL http://www.baidu.com in den Browser  eingeben  , sendet der Browser eine Anfrage, um  die HTML-Datei von http://www.baidu.com zu erhalten  , und der Server sendet das Antwortdateiobjekt zurück an der Browser.
  3. Der Browser analysiert den HTML-Code in der Antwort und stellt fest, dass auf viele andere Dateien verwiesen wird, z. B. Bilddateien, CSS-Dateien und JS-Dateien. Der Browser sendet die Anfrage automatisch erneut, um Bilder, CSS-Dateien oder JS-Dateien zu erhalten.  
  • Anders als Browser, die URLs anfordern, fordern Crawler URL-Adressen an und extrahieren Daten basierend auf der Antwort, die der aktuellen URL-Adresse entspricht (finden Sie die aktuelle URL im Netzwerk, klicken Sie auf die Antwort oder klicken Sie mit der rechten Maustaste auf die Seite, um den Quellcode anzuzeigen). die Webseite)
#! -*- encoding:utf-8 -*-

    import requests

    # 要访问的目标页面
    targetUrl = "http://ip.hahado.cn/ip"

    # 代理服务器
    proxyHost = "ip.hahado.cn"
    proxyPort = "39010"

    # 代理隧道验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }

    resp = requests.get(targetUrl, proxies=proxies)

    print resp.status_code
    print resp.text

おすすめ

転載: blog.csdn.net/weixin_73725158/article/details/130098323