Python はクローラー コードを作成しますが、リクエストと beautifulsoup4 以外にどのライブラリが必要ですか? 【学習記録】

Python がクローラー コードを作成する場合、requests と beautifulsoup4 に加えて、使用できるライブラリがいくつかあります。一般的に使用されるライブラリの一部を次に示します。

  1. Scrapy: Scrapy は Python クローラー フレームワークであり、強力なクローラー ツールと便利なデータ処理機能を提供し、効率的なクローラー プログラムを迅速に作成できます。

  2. Selenium: Selenium は、ブラウザの動作をシミュレートできる自動テスト ツールです。ログイン、クリック、その他の対話型操作をシミュレートする必要がある一部の Web サイトにとって、Selenium は非常に便利なツールです。

  3. PyQuery: PyQuery は jQuery に似たライブラリで、CSS セレクターと同様の方法で HTML ドキュメントを操作するために使用でき、非常に便利です。

  4. lxml: lxml は、XML ドキュメントを迅速に解析できる Python XML 処理ライブラリであり、HTML ドキュメントの解析にも使用できます。

  5. request-html:requests-html は、request と lxml に基づくライブラリで、HTML ドキュメントを簡単に解析でき、JavaScript レンダリングと CSS セレクターをサポートします。

  6. pandas: pandas は Python データ処理ライブラリで、データを簡単にクリーンアップ、整理、分析でき、クローラ プログラムでのデータ処理に非常に役立ちます。

インストール方法:

次のように、ターミナルに pip install ライブラリ名を入力します。

pip install scrapy

上記のライブラリをインポートするコード例を次に示します。

import scrapy
from selenium import webdriver
from pyquery import PyQuery as pq
from lxml import etree
from requests_html import HTMLSession
import pandas as pd

おすすめ

転載: blog.csdn.net/whoas123/article/details/130022860