簡単なWebページをクロールのpython

requets

要求は、多くのurllibはより使用するのpython HTTPライブラリ使いやすく、シンプルに実装されています

それは、サードパーティのライブラリであるため、その使用の前に設置さcmdを

ピップリクエストをインストール

インストールが完了し、インポートされた後、通常の準備に使用します。

基本的な使い方:

requests.getは()標的部位のタイプを要求するために使用されるタイプのHttpResponseです

mport要求

応答= requests.get( 'http://www.baidu.com')
印刷(response.status_code)#印刷ステータスコード
印刷(response.url)#印刷要求URL
プリント(response.headers)#印刷ヘッダ情報
印刷(response.cookies)#印刷クッキー情報
印刷(response.text)#テキスト形式でWebページのソースコードを印刷
バイトの印刷(response.content)#印刷の流れ

  あなたの要求にヘッダー情報を追加します。

インポート要求
ヘッド = {}
ヘッド[ ' のUser-Agent ' ] = ' Mozillaの/ 5.0 ' \
                           ' (マッキントッシュ; U;インテルのMac OS X 10_6_8; EN-US)のAppleWebKit / 534.50 ' \
                           ' (ヤモリのようにKHTML、)バージョン/ 5.1のSafari / 534.50 ' 
 応答 =要求。取得' http://www.baidu.com '、ヘッダ=ヘッダ)

 

美しいスープ

簡単に言えば、美しいスープのpythonのライブラリである、最も重要な機能は、Webページからのグラブのデータにあります。次のように公式の説明は次のとおりです。

美しいスープは、いくつかの簡単なナビゲーション、検索を処理するためのPythonの型の機能を提供するパースツリーの機能を変更します。単純なので、その完全なアプリケーションを作成するために多くのコードを必要としない、文書を解析するために、ユーザによって捕獲に必要なデータを提供するツールキットです。

美しいスープを自動的に入力された文書をコードUnicodeに変換され、文書が符号化された出力をUTF-8に変換されます。文書は、コードを指定していない場合を除きあなたは、エンコーディングを考慮する必要はありません、そして、美しいスープは、自動的にエンコーディングを識別することはできません。その後、あなたはそれにコーディング元を説明する必要があります。

美しいスープは、Pythonインタプリタとして良いとして、異なる分析戦略や強いレートの柔軟性をユーザーに提供し、lxmlの、html6libとなっています。

eautifulスープは、HTMLパーサPythonの標準ライブラリはまた、サードパーティのパーサの数をサポートし、我々はそれをインストールしない場合には、PythonはデフォルトのPythonパーサ、lxmlのパーサより強力な、より速く、推奨インストールを使用しますサポートしています。

html.parserドキュメントフォールトトレラント機能

lxmlのブロックの速度、フォールトトレラント機能

唯一の非常に速く、XMLのXMLパーサーをサポート

html5lib遅く、フォールトトレランス最強

 

シンプルな小型の爬虫類の練習

インポート要求
BS4のインポートからBeautifulSoup


デフgetHTMLText(URL):
	試してみてください。
		R = requests.get(URL、タイムアウト= 30)
		R = raise_for_status()
		r.encoding = "UTF-8"
		リターンr.text
	除きます:
		「」を返します

URL = "http://www.baidu.com"
印刷(getHTMLText(URL))
インポート要求
BS4のインポートからBeautifulSoup

URL = "http://www.baidu.com"
R = reuqests.get(URL)
r.encoding = "UTF-8"
スープ= BeautifulSoup(R、 "XML")
印刷(soup.title.arrts)
印刷(soup.title.name)
印刷(soup.title.string)

  

 

おすすめ

転載: www.cnblogs.com/Crush999/p/11831223.html