- 必読リスト -
多くの本やチュートリアルは必要なく、Python クローラーに関してはこの 8 冊で十分です。
- ウェブサイト ブログ -
このプロジェクトは、主要な Web サイトの模擬ログイン方法とクローラ プログラムを研究し共有することを目的として、主要な Web サイトのログイン方法といくつかの Web サイトのクローラー プログラムを収集します。
URL: https://awesome-python
「Python3 Web クローラーと開発の実践」の著者は、自身のクローラーの事例や経験をこのブログで共有しており、内容は非常に充実しています。
ウェブサイト: https://cuiqingcai.com
スクレイピング.pro
Scraping.pro は専門的なコレクション ソフトウェア評価 Web サイトであり、scrapy、octoparse などのさまざまな海外のトップ コレクション ソフトウェア評価記事が含まれています。
ウェブサイト: http://www.scraping.com/
Scraping.pro
と比較して、Kdnuggets はビジネス分析、ビッグデータ、データマイニング、データサイエンスなどを含むより広い範囲をカバーします。
ウェブサイト: https://www.kdnuggets.com/
Octoparse
Octoparse は強力な無料コレクション ソフトウェアで、そのブログは幅広いコンテンツを提供し、理解しやすいため、Web サイト コレクションの予備ユーザーに適しています。
ウェブサイト: https://www.octoparse.com
ビッグ データ ニュース
ビッグ データ ニュースは Kdnuggets に似ており、主にビッグ データ業界をカバーしており、Web サイト コレクションはその下のサブコラムです。
ウェブサイト: https://www.bigdatanews
分析ヴィディヤ
Analytics Vidhya は、ビッグ データ ニュースと同様に、データ サイエンス、機械学習、Web サイト コレクションなどをカバーする、より専門的なデータ収集 Web サイトです。
ウェブサイト: https://www.analyticsvidhya
- クローラーフレームワーク -
スクレイピー
これは、Web サイトのデータをクロールし、構造化データを抽出するために作成されたアプリケーション フレームワークです。データマイニング、情報処理、履歴データの保存などの一連のプログラムで使用できます。
ウェブサイト: https://scrapy.org
パイスパイダー
Pyspider は、Python で実装された強力な Web クローラー システムで、スクリプトを作成し、機能をスケジュールし、ブラウザー インターフェイス上でリアルタイムでクロール結果を表示できます。
バックエンドは、一般的に使用されるデータベースを使用してクロール結果を保存し、タスクとタスクの優先順位を定期的に設定することもできます。
URL: https://pyspider
Crawley
Crawley は、対応する Web サイトのコンテンツを高速にクロールでき、リレーショナルおよび非リレーショナル データベースをサポートし、データを JSON、XML などにエクスポートできます。
ウェブサイト: http://crawley-cloud.com/
Portia
Portia は、プログラミングの知識がなくても Web サイトをクロールできるオープンソースのビジュアル クローラー ツールです。
ウェブサイト:https://portia
新聞
新聞は、ニュース、記事の抽出、および内容分析に使用できます。マルチスレッドの使用、10 を超える言語のサポートなど。
ウェブサイト:https://新聞
Beautiful Soup
Beautiful Soup は、HTML または XML ファイルからデータを抽出できる Python ライブラリです。
お気に入りのコンバーターを使用して、慣例的なドキュメントのナビゲーション、検索、および変更方法を有効にします。
URL:https://BeautifulSoup/bs4/doc/
Grab
Grab は、Web スクレイパーを構築するための Python フレームワークです。
単純な 5 行のスクリプトから、何百万もの Web ページを処理する複雑な非同期 Web スクレイパーまで、さまざまな複雑さの Web スクレイパーを構築できます。
URL: http://grab-spider-user-manual
Cola
Cola は分散クローラー フレームワークであり、ユーザーは分散操作の詳細を意識することなく、特定の関数をいくつか記述するだけで済みます。
プロジェクトアドレス: https://github.com/chineking/cola
- 道具 -
(1)バイオリン弾き
Fiddler は、Windows プラットフォームで最高のビジュアル パケット キャプチャ ツールであり、最もよく知られた HTTP プロキシ ツールでもあります。
この機能は非常に強力で、各リクエストとレスポンスを明確に理解できるだけでなく、ブレークポイントの設定、リクエスト データの変更、レスポンスの内容の傍受も可能です。
リンク: https://www.telerik.com/fiddler
(2)チャールズ
Charles は、macOS プラットフォームで最高のパケット キャプチャおよび分析ツールの 1 つです。
シンプルでシンプルなGUIインターフェースも提供しており、基本機能としてHTTPおよびHTTPSリクエストパケットのキャプチャ、リクエストパラメータの変更をサポートしており、最新のCharles 4ではHTTP/2もサポートしています。
リンク: https://www.charlesproxy.com/
(3)任意のプロキシ
AnyProxy は、Alibaba のオープンソース HTTP パケット キャプチャ ツールで、NodeJS に基づいて実装されています。
利点は、二次開発をサポートし、リクエスト処理ロジックをカスタマイズできることです。JS を記述でき、カスタマイズされた処理を行う必要がある場合は、AnyProxy が最適です。
GitHub アドレス: https://alibaba/anyproxy
(4)ミットプロキシ
mitmproxy は、SSL をサポートする Python ベースのパケット キャプチャ ツールです。クロスプラットフォームであり、コマンドライン対話モードを提供します。
GitHub アドレス: https://mitmproxy/
これは Python クローラー用のツールの概要です。考えられるほとんどすべてがここにあります。
URL: https://lartpang/spyder_tool
この Web サイトは、クローラー テスト (http および https) として使用できます。クローラー マシンに関する情報が返され、オンライン テストにも使用できます。
ウェブサイト: httpbin.org
この Web サイトでは、curl コマンドを Python リクエストにすばやく変換でき (他の言語も利用可能)、curl コマンドはブラウザーの開発者ツールからすぐに取得できます。
ウェブサイト:https://curl.trillworks.com
Web ページでは中国語が表示されることがありますが、Web ページのソース コードを表示すると Unicode 文字が表示されるため、オンラインで Unicode 文字を中国語に変換する必要があります。
URL:https://unicode_chinese/
このツールは、xpath の分析とデバッグを支援するために使用される Chrome 拡張機能です。
リンク: https://xpath-helper/
やっと:
[クローラーを学びたい人のために、Python の学習教材をたくさんまとめて CSDN 公式にアップロードしました。必要な友達は以下の QR コードをスキャンして入手してください]
1. 研究概要
2. 開発ツール
3.Python基礎資料
4. 実践データ