クロール静的なWebページと動的Webページコードにどのように:
クロール静的コード:
データの静的なHTMLページは、(通常はリクエストを取得)ページに含まれています
静的なページが要求して、ソースコードライブラリを取得するために、BS4で分析し、再
インポート要求 のurl = " " HTML = requests.get(URL)の.text
クロール動的な負荷のページ:
構造化データ:JSON、XMLなど
動的なページとの主な違いは、データがAjax技術によってリフレッシュされたときに、ということである静的なページと更新され、フロントページにデータベースからのクエリのデータを再レンダリングし、
データパケットを取得したHTMLデータをクロールいない、ネットワークに格納されています。
このクロール動的なページの2つの一般的な方法があります。
要求パケット網をフェッチ1
要求インタフェースは、パラメータの数を渡す必要があり、パラメータがクラックする必要があり、亀裂および亀裂パラメータJS
2.ヘッドレスブラウザのレンダリング
セレンブラウザなど、ブラウザのwebdriverをアナログなどのブラウザを呼び出すことができ、フレームワークをテストページ完成読み込みすべてのソースコード、ソースコードへのアクセスがBS4によって解析され、再
#コーディング。8 = UTF- からセレンインポートwebdriverを Chrome_options = webdriver.ChromeOptions() Chrome_options.add_argument(' --headless ' #無限モードが設定されている)、ポップアップブラウザウィンドウがない場合があります ドライブ = webdriver.Chrome(chrome_options = Chrome_options) drive.get(' http://public.163.com/#/list/movie ' ) HTML = drive.page_source 印刷(HTML) drive.quit()