アクセス - ユーザエージェントへのpython爬虫類シミュレーションブラウザ

アナログブラウザアクセス - ユーザエージェント:

インポートurllib2の

アクセスへのUser-Agentシミュレーションブラウザ 
ヘッダ= { " のUser-Agent "" Mozillaの/ 5.0(Windows NTの10.0; Win64の、x64の)のAppleWebKit / 537.36(ヤモリのようにKHTML、)クローム/ 79.0.3945.88サファリ/ 537.36 " } 

()メソッドによって要求オブジェクトが設定されてはurllib2.Requestの 
要求はurllib2.Request =(http://www.baidu.com/ 、ヘッダ= ヘッダ)


#は、URLを指定し、サーバが応答を返すに要求を送信しますファイルのようなオブジェクト
#の応答クラスファイルサーバ応答があるが、サポートファイル操作の方法は、以下のタイプの一般的に使用される方法に加えて: 
応答= urllib2.urlopen(要求)



#のファイルのようなオブジェクトは、サーバを操作する方法をサポートしているファイルオブジェクトPythonの戻りread()メソッドは、ファイルの内容全体を読み取ることである文字列を返します
= HTML response.read() 

は、HTTP応答コード、サーバーが返す成功し200,4ページフォールトを返し、5つのサーバーの問題は、
印刷(response.getcodeを)

#はリダイレクトを防ぐために、実際のデータの実際のURLを返します
印刷(response.geturlを)

#は、サーバーのHTTP応答ヘッダーを返し
印刷)(response.infoを


応答内容を印刷する
印刷(HTML)を

おすすめ

転載: www.cnblogs.com/moongo/p/12105259.html