爬虫類試験

クロール静的なWebページと動的Webページコードにどのように：

クロール静的コード：

　　データの静的なHTMLページは、（通常はリクエストを取得）ページに含まれています

　　静的なページが要求して、ソースコードライブラリを取得するために、BS4で分析し、再

　　インポート要求

　　のurl = "  " 

　　HTML = requests.get（URL）の.text

クロール動的な負荷のページ：

　　構造化データ：JSON、XMLなど

　　動的なページとの主な違いは、データがAjax技術によってリフレッシュされたときに、ということである静的なページと更新され、フロントページにデータベースからのクエリのデータを再レンダリングし、

　　データパケットを取得したHTMLデータをクロールいない、ネットワークに格納されています。

このクロール動的なページの2つの一般的な方法があります。

　　要求パケット網をフェッチ1

　　　　要求インタフェースは、パラメータの数を渡す必要があり、パラメータがクラックする必要があり、亀裂および亀裂パラメータJS

　　2.ヘッドレスブラウザのレンダリング

　　　　セレンブラウザなど、ブラウザのwebdriverをアナログなどのブラウザを呼び出すことができ、フレームワークをテストページ完成読み込みすべてのソースコード、ソースコードへのアクセスがBS4によって解析され、再

＃コーディング。8 = UTF- 
からセレンインポートwebdriverを

Chrome_options = webdriver.ChromeOptions（）
Chrome_options.add_argument（' --headless ' ＃無限モードが設定されている）、ポップアップブラウザウィンドウがない場合があります
ドライブ = webdriver.Chrome（chrome_options = Chrome_options）
drive.get（' http://public.163.com/#/list/movie ' ）
HTML = drive.page_source
 印刷（HTML）
drive.quit（）

おすすめ