----- PythonのPythonの爬虫類訪問のhttpいくつかの方法

データのページをクロール、我々はいくつかの簡単な方法は、Pythonのリクエストを送信することで、以下、ページにアクセスするHTTPリクエストを送信する必要があります。

ライブラリは、要求をurllibはするのに使用されます

1.urlopen

輸入urllib.requestの
輸入urllib.parse
輸入urllib.errorの
輸入ソケット
データ=バイト(urllib.parse.urlencode({ "こんにちは": "世界"})、エンコード= 'UTF8')
試してください
'(応答= urllib.request.urlopen http://httpbin.org/post',data =データ、タイムアウト= 10)
印刷(のResponse.Status)
プリント(response.read()( 'UTF-8')復号)。
urllib.error.URLError以外Eとして:
でisinstance(e.reason、socket.timeout)場合:
プリント( "TIMEOUT")

2.requests

ポスト簡素よりメソッドのアクセス要求で、このような要求を使用してPUT削除しなさい

各メソッドは、引数リストを持っている、などのプロキシとしてのparamsパラメータを取得:認証タイムアウト:タイムアウト時間のプロキシ認証を設定します 

インポート要求
ICO = requests.get( "https://github.com/favicon.ico") 
ファイルとしてオープン( "favicon.icoを"、 "WB")と
file.write(ico.content)

3.Requestセッション

リクエストからセッション要求をインポート
URL = "https://home.cnblogs.com/u/qiutian-guniang/"
Sセッション=()
REQ =要求( 'GET'、URL = URL、ヘッダー=ヘッダ)
PRED = S .prepare_request(REQ)
、R = s.send(predが)
印刷(r.text)
一部のページでは、我々は、クッキーは、訪問としてログイン状態を維持するためのUser-Agentを設定することにより設定することができます使用してクロールデータ許可しない:以下のクッキーの内容をコンソール・F12でコピーして、ヘッダーに貼り付けることができます

クッキー= "_gat = 1" 

ヘッダー= {
"クッキー":クッキー、
'ユーザーエージェント': 'のMozilla / 5.0(Windows NTの10.0; Win64の、'
'のx64)のAppleWebKit / 537.36(ヤモリ様KHTML、)'
「クローム/ 68.0.3440.106サファリ/ 537.36'
}

おすすめ

転載: www.cnblogs.com/qiutian-guniang/p/11225299.html