HTTPプロトコル:
HTTP(ハイパーテキスト転送プロトコル):ハイパーテキスト転送プロトコル。URLは、HTTPプロトコル、データリソースに対応するURLを経由してインターネットにアクセス・パスのリソースです。
リソースのためのHTTPプロトコル操作:
リクエスト・ライブラリは、すべての基本的なHTTPリクエストメソッドを提供します。公式の説明:http://www.python-requests.org/en/master
6つの主要な方法のライブラリを要求します。
ライブラリの例外を要求します:
二つの重要なオブジェクトライブラリを要求:要求(リクエスト)、レスポンス(対応します)。Requestオブジェクトは、複数の要求メソッドをサポートしています。Responseオブジェクトは、サーバから返されたすべての情報が含まれ、要求は、情報要求が含まれています。
プロパティResponseオブジェクト:
r.encoding手段は、:文字セットヘッダが存在しない場合、符号化は、ISO-8859-1であると考えられます。
r.raise_for_status()は知ることができ、200に等しいかどうかr.status_code。
HTTPプロトコルとは、ライブラリの比較を要求します:
クライミングフレームは、一般的なコードページを撮影しました。
試行1: 2 = R&LTのrequests.get(URL、タイムアウト= 30) 3 r.raise_for_status()。 4#状態200は、例外ではない場合HTTPError開始。 5 r.encoding = r.apparent_encoding。 6戻りr.text。 7除く: 8リターン「異常」
例えば、情報PMCAFFのホームページへのアクセス:
1 import requests 2 3 def getHtmlText(url): 4 try: 5 r = requests.get(url,timeout = 30) 6 r.raise_for_status() 7 r.encoding = r.apparent_encoding 8 return r.text 9 except: 10 return '产生异常' 11 12 if __name__ == '__main__': 13 url = 'https://www.pmcaff.com/' 14 print(getHtmlText(url))
爬取网页的通用代码框架:操作环境:win,Python 3.6
参考资料:中国大学MOOC课程《Python网络爬虫与信息提取》