Pythonの爬虫類:HTTPプロトコルは、(爬虫類は初日に学習)ライブラリを要求します

HTTPプロトコル:

HTTP(ハイパーテキスト転送プロトコル):ハイパーテキスト転送プロトコル。URLは、HTTPプロトコル、データリソースに対応するURLを経由してインターネットにアクセス・パスのリソースです。

リソースのためのHTTPプロトコル操作:

リクエスト・ライブラリは、すべての基本的なHTTPリクエストメソッドを提供します。公式の説明:http://www.python-requests.org/en/master

6つの主要な方法のライブラリを要求します。

ライブラリの例外を要求します:

二つの重要なオブジェクトライブラリを要求:要求(リクエスト)、レスポンス(対応します)。Requestオブジェクトは、複数の要求メソッドをサポートしています。Responseオブジェクトは、サーバから返されたすべての情報が含まれ、要求は、情報要求が含まれています。

プロパティResponseオブジェクト:

r.encoding手段は、:文字セットヘッダが存在しない場合、符号化は、ISO-8859-1であると考えられます。

r.raise_for_status()は知ることができ、200に等しいかどうかr.status_code。

HTTPプロトコルとは、ライブラリの比較を要求します:

クライミングフレームは、一般的なコードページを撮影しました。

試行1:
2 = R&LTのrequests.get(URL、タイムアウト= 30)
3 r.raise_for_status()。
4#状態200は、例外ではない場合HTTPError開始。
5 r.encoding = r.apparent_encoding。
6戻りr.text。
7除く:
8リターン「異常」

例えば、情報PMCAFFのホームページへのアクセス:

 1 import requests
 2 
 3 def getHtmlText(url):
 4     try:
 5         r = requests.get(url,timeout = 30)
 6         r.raise_for_status()
 7         r.encoding = r.apparent_encoding
 8         return r.text
 9     except:
10         return '产生异常'
11 
12 if __name__ == '__main__':
13     url = 'https://www.pmcaff.com/'
14     print(getHtmlText(url))

爬取网页的通用代码框架:操作环境:win,Python 3.6

参考资料:中国大学MOOC课程《Python网络爬虫与信息提取》

おすすめ

転載: www.cnblogs.com/ltn26/p/10981294.html