いずれにしてもポストに満ち爬虫類に何か新しいもの、随時見直しを仕事に基づいていたが、ああオンに頬を持っています!
urllibはライブラリーとは何ですか?
urllibはライブラリがある Pythonは 組み込みのHTTPリクエストリポジトリ。上部界面モジュールurllibはローカルファイルにアクセスするなどのWWWおよびFTPのデータアクセスを提供します。
いくつかのモジュールがあります。
1.urllib.request要求モジュール
2. urllib.error例外処理モジュール
3. urllib.parse URL解析モジュール
4. urllib.robotparser robots.txtの解析モジュール
以下を使用して、urllibはライブラリ内のいくつかの基本的なモジュール:
urllib.request
urllib.requestについて:urllib.requestモジュールは、基本的な構成HTTP(またはFTPなどの他のプロトコル)を提供するリクエストメソッドは、使用してシミュレートすることができるブラウザプロセスを開始するための要求のを。取得のURL情報に異なるプロトコルを使用してください。そのインタフェースのいくつかは、基本認証(基本Authenticaton)、(HTTPリダイレクト)、クッキー(ブラウザのクッキー)というようにリダイレクトのケースを処理することができるようにします。これらのインタフェースは、ハンドラおよびオープナオブジェクトによって提供されます。
1.一般的な方法
読んで()==ファイルの内容を読み込み
()==取得要求のURLのgetURL
getHeaders()== HTTPリクエストヘッダ情報取得
のgetcode()==ステータスコードを取得
==(readlines)を買収ラインを
2.ケース
コーディング= UTF-#8 の#import urllib.request # ========= レスポンス方式の #READ() == ファイルの内容を読み #geturlを() == 取得要求URLの #getheaders() == 取得HTTPリクエストヘッダの #getcode() == ステータスコードの取得 #readlinesを() == 取得ライン #URL = " http://www.baidu.com " ; #response = urllib.request.urlopen(URL); # = ==== ケース1 #STR = response.read()デコード();.これにより、#は、デコードUTF8のに変換され (オープンと#" baidu.html "、「W 」、コード= 「UTF-8 」)AS FP: #fp.write(STR); #ライトスルー================ケース2つの流れバイト= デフォルト値はリードバイトストリームによって読み出される オープンと#(" bai.html " " WB 」)AS FP: #1 fp.write(response.read()); # == バイトストリームが格納された画像を読み取る #IMAGE_URL = ' https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy /it/u=3772530225,1800402028&fm=26&gp=0.jpg " ; #レスポンス = urllib.request.urlopen(IMAGE_URL)。 オープンと#("mv.jpg 」、' WB ')AS FP: #fp.write(response.read()); #3ケース == 組み込み機能画像読み取りに使用 #image_urlを = ' https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy /it/u=3772530225,1800402028&fm=26&gp=0.jpg " ; #urllib.request.urlretrieve(IMAGE_URL、" chun.jpg ");