クローラー開始ルート

爬虫之路

クローラーの毎週の学習計画:

下の写真はクローラーの準備です

クローラールート

クローラークロール高速プロキシケース:

ウェブサイトurl = "https://www.kuaidaili.com/free/"

このクロールでは、サードパーティライブラリのリクエストを使用します

リクエストはPython HTTPクライアントライブラリです。これを使用してHTMLソースコードを取得できます。

import requests
url="https://www.kuaidaili.com/free/"
headers={
    
    
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"
}
#这里进行了头部的伪装
res=requests.get(url,headers=headers)
res.encoding="utf-8"
html=res.text

次に、xpathを使用してタグトラバーサルを実装し、必要なコンテンツを取得します

e=etree.HTML(html)
ip_list=e.xpath("//tr/td[1]/text()")
port_list=e.xpath("//tr/td[2]/text()")
#采用zip迭代的方式打印输出
for ip,port in zip(ip_list,port_list):
    str="ip:"+ip+"\t端口号:"+port
    print(str)

概要

この記事では、主にWebクローラーの構造とアプリケーション、およびクローラーのPython実装の場合について説明します。この記事では、Webクローラーのワークフローと、RequestsがHTTPリクエストを実装する方法に集中していただければ幸いです。

おすすめ

転載: blog.csdn.net/IT6848/article/details/108733841