requets
要求は、多くのurllibはより使用するのpython HTTPライブラリ使いやすく、シンプルに実装されています
それは、サードパーティのライブラリであるため、その使用の前に設置さcmdを
ピップリクエストをインストール
インストールが完了し、インポートされた後、通常の準備に使用します。
基本的な使い方:
requests.getは()標的部位のタイプを要求するために使用されるタイプのHttpResponseです
mport要求 応答= requests.get( 'http://www.baidu.com') 印刷(response.status_code)#印刷ステータスコード 印刷(response.url)#印刷要求URL プリント(response.headers)#印刷ヘッダ情報 印刷(response.cookies)#印刷クッキー情報 印刷(response.text)#テキスト形式でWebページのソースコードを印刷 バイトの印刷(response.content)#印刷の流れ
あなたの要求にヘッダー情報を追加します。
インポート要求 ヘッド = {} ヘッド[ ' のUser-Agent ' ] = ' Mozillaの/ 5.0 ' \ ' (マッキントッシュ; U;インテルのMac OS X 10_6_8; EN-US)のAppleWebKit / 534.50 ' \ ' (ヤモリのようにKHTML、)バージョン/ 5.1のSafari / 534.50 ' 応答 =要求。取得(' http://www.baidu.com '、ヘッダ=ヘッダ)
美しいスープ
簡単に言えば、美しいスープのpythonのライブラリである、最も重要な機能は、Webページからのグラブのデータにあります。次のように公式の説明は次のとおりです。
美しいスープは、いくつかの簡単なナビゲーション、検索を処理するためのPythonの型の機能を提供するパースツリーの機能を変更します。単純なので、その完全なアプリケーションを作成するために多くのコードを必要としない、文書を解析するために、ユーザによって捕獲に必要なデータを提供するツールキットです。 美しいスープを自動的に入力された文書をコードUnicodeに変換され、文書が符号化された出力をUTF-8に変換されます。文書は、コードを指定していない場合を除きあなたは、エンコーディングを考慮する必要はありません、そして、美しいスープは、自動的にエンコーディングを識別することはできません。その後、あなたはそれにコーディング元を説明する必要があります。 美しいスープは、Pythonインタプリタとして良いとして、異なる分析戦略や強いレートの柔軟性をユーザーに提供し、lxmlの、html6libとなっています。
eautifulスープは、HTMLパーサPythonの標準ライブラリはまた、サードパーティのパーサの数をサポートし、我々はそれをインストールしない場合には、PythonはデフォルトのPythonパーサ、lxmlのパーサより強力な、より速く、推奨インストールを使用しますサポートしています。
html.parserドキュメントフォールトトレラント機能
lxmlのブロックの速度、フォールトトレラント機能
唯一の非常に速く、XMLのXMLパーサーをサポート
html5lib遅く、フォールトトレランス最強
シンプルな小型の爬虫類の練習
インポート要求 BS4のインポートからBeautifulSoup デフgetHTMLText(URL): 試してみてください。 R = requests.get(URL、タイムアウト= 30) R = raise_for_status() r.encoding = "UTF-8" リターンr.text 除きます: 「」を返します URL = "http://www.baidu.com" 印刷(getHTMLText(URL))
インポート要求 BS4のインポートからBeautifulSoup URL = "http://www.baidu.com" R = reuqests.get(URL) r.encoding = "UTF-8" スープ= BeautifulSoup(R、 "XML") 印刷(soup.title.arrts) 印刷(soup.title.name) 印刷(soup.title.string)