爬虫類試験

クロール静的なWebページと動的Webページコードにどのように:

クロール静的コード:

  データの静的なHTMLページは、(通常はリクエストを取得)ページに含まれています

  静的なページが要求して、ソースコードライブラリを取得するために、BS4で分析し、再

  インポート要求

  のurl = "  " 

  HTML = requests.get(URL)の.text

クロール動的な負荷のページ:

  構造化データ:JSON、XMLなど

  動的なページとの主な違いは、データがAjax技術によってリフレッシュされたときに、ということである静的なページと更新され、フロントページにデータベースからのクエリのデータを再レンダリングし、

  データパケットを取得したHTMLデータをクロールいない、ネットワークに格納されています。

このクロール動的なページの2つの一般的な方法があります。

  要求パケット網をフェッチ1

    要求インタフェースは、パラメータの数を渡す必要があり、パラメータがクラックする必要があり、亀裂および亀裂パラメータJS

  2.ヘッドレスブラウザのレンダリング

    セレンブラウザなど、ブラウザのwebdriverをアナログなどのブラウザを呼び出すことができ、フレームワークをテストページ完成読み込みすべてのソースコード、ソースコードへのアクセスがBS4によって解析され、再

コーディング。8 = UTF- 
からセレンインポートwebdriverを

Chrome_options = webdriver.ChromeOptions()
Chrome_options.add_argument(' --headless ' #無限モードが設定されている)、ポップアップブラウザウィンドウがない場合があります
ドライブ = webdriver.Chrome(chrome_options = Chrome_options)
drive.get(' http://public.163.com/#/list/movie ' 
HTML = drive.page_source
 印刷(HTML)
drive.quit()

 

おすすめ

転載: www.cnblogs.com/lskai/p/11982936.html