Python クローラー リソースの概要: 書籍リスト、Web サイト ブログ、フレームワーク、ツール、プロジェクト (リソース付き)

ここに画像の説明を挿入します

  • 必読リスト -

多くの本やチュートリアルは必要なく、Python クローラーに関してはこの 8 冊で十分です。
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します

  • ウェブサイト ブログ -

ここに画像の説明を挿入します
このプロジェクトは、主要な Web サイトの模擬ログイン方法とクローラ プログラムを研究し共有することを目的として、主要な Web サイトのログイン方法といくつかの Web サイトのクローラー プログラムを収集します。

URL: https://awesome-python

ここに画像の説明を挿入します
「Python3 Web クローラーと開発の実践」の著者は、自身のクローラーの事例や経験をこのブログで共有しており、内容は非常に充実しています。

ウェブサイト: https://cuiqingcai.com

スクレイピング.pro
ここに画像の説明を挿入します

Scraping.pro は専門的なコレクション ソフトウェア評価 Web サイトであり、scrapy、octoparse などのさまざまな海外のトップ コレクション ソフトウェア評価記事が含まれています。

ウェブサイト: http://www.scraping.com/

Scraping.pro
ここに画像の説明を挿入します
と比較して、Kdnuggets はビジネス分析、ビッグデータ、データマイニング、データサイエンスなどを含むより広い範囲をカバーします。

ウェブサイト: https://www.kdnuggets.com/

Octoparse
ここに画像の説明を挿入します
Octoparse は強力な無料コレクション ソフトウェアで、そのブログは幅広いコンテンツを提供し、理解しやすいため、Web サイト コレクションの予備ユーザーに適しています。

ウェブサイト: https://www.octoparse.com

ビッグ データ ニュース
ここに画像の説明を挿入します
ビッグ データ ニュースは Kdnuggets に似ており、主にビッグ データ業界をカバーしており、Web サイト コレクションはその下のサブコラムです。

ウェブサイト: https://www.bigdatanews

分析ヴィディヤ

ここに画像の説明を挿入します
Analytics Vidhya は、ビッグ データ ニュースと同様に、データ サイエンス、機械学習、Web サイト コレクションなどをカバーする、より専門的なデータ収集 Web サイトです。

ウェブサイト: https://www.analyticsvidhya

  • クローラーフレームワーク -

スクレイピー

ここに画像の説明を挿入します

これは、Web サイトのデータをクロールし、構造化データを抽出するために作成されたアプリケーション フレームワークです。データマイニング、情報処理、履歴データの保存などの一連のプログラムで使用できます。

ウェブサイト: https://scrapy.org

パイスパイダー

ここに画像の説明を挿入します
Pyspider は、Python で実装された強力な Web クローラー システムで、スクリプトを作成し、機能をスケジュールし、ブラウザー インターフェイス上でリアルタイムでクロール結果を表示できます。

バックエンドは、一般的に使用されるデータベースを使用してクロール結果を保存し、タスクとタスクの優先順位を定期的に設定することもできます。

URL: https://pyspider

Crawley
ここに画像の説明を挿入します
Crawley は、対応する Web サイトのコンテンツを高速にクロールでき、リレーショナルおよび非リレーショナル データベースをサポートし、データを JSON、XML などにエクスポートできます。

ウェブサイト: http://crawley-cloud.com/

Portia
ここに画像の説明を挿入します
Portia は、プログラミングの知識がなくても Web サイトをクロールできるオープンソースのビジュアル クローラー ツールです。

ウェブサイト:https://portia

新聞
ここに画像の説明を挿入します
新聞は、ニュース、記事の抽出、および内容分析に使用できます。マルチスレッドの使用、10 を超える言語のサポートなど。

ウェブサイト:https://新聞

Beautiful Soup
ここに画像の説明を挿入します
Beautiful Soup は、HTML または XML ファイルからデータを抽出できる Python ライブラリです。

お気に入りのコンバーターを使用して、慣例的なドキュメントのナビゲーション、検索、および変更方法を有効にします。

URL:https://BeautifulSoup/bs4/doc/

Grab
ここに画像の説明を挿入します
Grab は、Web スクレイパーを構築するための Python フレームワークです。

単純な 5 行のスクリプトから、何百万もの Web ページを処理する複雑な非同期 Web スクレイパーまで、さまざまな複雑さの Web スクレイパーを構築できます。

URL: http://grab-spider-user-manual

Cola
ここに画像の説明を挿入します
Cola は分散クローラー フレームワークであり、ユーザーは分散操作の詳細を意識することなく、特定の関数をいくつか記述するだけで済みます。

プロジェクトアドレス: https://github.com/chineking/cola

  • 道具 -
4 HTTP プロキシ ツール

(1)バイオリン弾き

Fiddler は、Windows プラットフォームで最高のビジュアル パケット キャプチャ ツールであり、最もよく知られた HTTP プロキシ ツールでもあります。

この機能は非常に強力で、各リクエストとレスポンスを明確に理解できるだけでなく、ブレークポイントの設定、リクエスト データの変更、レスポンスの内容の傍受も可能です。

リンク: https://www.telerik.com/fiddler

(2)チャールズ

Charles は、macOS プラットフォームで最高のパケット キャプチャおよび分析ツールの 1 つです。

シンプルでシンプルなGUIインターフェースも提供しており、基本機能としてHTTPおよびHTTPSリクエストパケットのキャプチャ、リクエストパラメータの変更をサポートしており、最新のCharles 4ではHTTP/2もサポートしています。

リンク: https://www.charlesproxy.com/

(3)任意のプロキシ

AnyProxy は、Alibaba のオープンソース HTTP パケット キャプチャ ツールで、NodeJS に基づいて実装されています。

利点は、二次開発をサポートし、リクエスト処理ロジックをカスタマイズできることです。JS を記述でき、カスタマイズされた処理を行う必要がある場合は、AnyProxy が最適です。

GitHub アドレス: https://alibaba/anyproxy

(4)ミットプロキシ

mitmproxy は、SSL をサポートする Python ベースのパケット キャプチャ ツールです。クロスプラットフォームであり、コマンドライン対話モードを提供します。

GitHub アドレス: https://mitmproxy/

Python クローラー ツールの概要

ここに画像の説明を挿入します

これは Python クローラー用のツールの概要です。考えられるほとんどすべてがここにあります。

URL: https://lartpang/spyder_tool

httpbin

ここに画像の説明を挿入します
この Web サイトは、クローラー テスト (http および https) として使用できます。クローラー マシンに関する情報が返され、オンライン テストにも使用できます。

ウェブサイト: httpbin.org

カールからPythonへ

ここに画像の説明を挿入します

この Web サイトでは、curl コマンドを Python リクエストにすばやく変換でき (他の言語も利用可能)、curl コマンドはブラウザーの開発者ツールからすぐに取得できます。

ウェブサイト:https://curl.trillworks.com

オンライン変換

ここに画像の説明を挿入します

Web ページでは中国語が表示されることがありますが、Web ページのソース コードを表示すると Unicode 文字が表示されるため、オンラインで Unicode 文字を中国語に変換する必要があります。

URL:https://unicode_chinese/

XPath ヘルパー

ここに画像の説明を挿入します

このツールは、xpath の分析とデバッグを支援するために使用される Chrome 拡張機能です。

リンク: https://xpath-helper/

やっと:

[クローラーを学びたい人のために、Python の学習教材をたくさんまとめて CSDN 公式にアップロードしました。必要な友達は以下の QR コードをスキャンして入手してください]

1. 研究概要

ここに画像の説明を挿入します

2. 開発ツール

ここに画像の説明を挿入します

3.Python基礎資料

ここに画像の説明を挿入します

4. 実践データ

ここに画像の説明を挿入します
ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/Z987421/article/details/133323552