Python がクローラー コードを作成する場合、requests と beautifulsoup4 に加えて、使用できるライブラリがいくつかあります。一般的に使用されるライブラリの一部を次に示します。
-
Scrapy: Scrapy は Python クローラー フレームワークであり、強力なクローラー ツールと便利なデータ処理機能を提供し、効率的なクローラー プログラムを迅速に作成できます。
-
Selenium: Selenium は、ブラウザの動作をシミュレートできる自動テスト ツールです。ログイン、クリック、その他の対話型操作をシミュレートする必要がある一部の Web サイトにとって、Selenium は非常に便利なツールです。
-
PyQuery: PyQuery は jQuery に似たライブラリで、CSS セレクターと同様の方法で HTML ドキュメントを操作するために使用でき、非常に便利です。
-
lxml: lxml は、XML ドキュメントを迅速に解析できる Python XML 処理ライブラリであり、HTML ドキュメントの解析にも使用できます。
-
request-html:requests-html は、request と lxml に基づくライブラリで、HTML ドキュメントを簡単に解析でき、JavaScript レンダリングと CSS セレクターをサポートします。
-
pandas: pandas は Python データ処理ライブラリで、データを簡単にクリーンアップ、整理、分析でき、クローラ プログラムでのデータ処理に非常に役立ちます。
インストール方法:
次のように、ターミナルに pip install ライブラリ名を入力します。
pip install scrapy
上記のライブラリをインポートするコード例を次に示します。
import scrapy
from selenium import webdriver
from pyquery import PyQuery as pq
from lxml import etree
from requests_html import HTMLSession
import pandas as pd