[Pythonクローラー戦闘]クローラーの基本とPython環境のインストール

序文:

クローラーはPythonで最も一般的な開発プロジェクトであり、クローラー自体のアプリケーションオブジェクトは多様です(テキスト、ビデオ、写真、その他のファイルなど)。このビデオシリーズのコースでは、クローラープロジェクトの複数のケースを考え出します実際の戦闘で説明し、爬虫類プロジェクトで実際の戦闘を行うのを助け、爬虫類プロジェクト分析の実際のプロセスを開拓します。(このシリーズの各ビデオチュートリアルは、約5〜6分に制御されます)

最初の記事、クローラーの基本とPython環境のインストール

[Pythonクローラー戦闘] Python環境の構築とクローラーモジュールのインストール

爬虫類とは:

Webクローラー(Webスパイダー、Webロボットとも呼ばれます)は、特定のルールに従ってインターネット情報を自動的に取得するプログラムまたはスクリプトです。

まず、爬虫類の法的リスクを理解する必要があります結局のところ、私たちはプログラマーであり、これらのデータを違法な目的で使用することはありません。

クローラーの法的リスク
1.ターゲットサイトでWebサイトの意に反して違法なクロールとコンテンツの使用が禁止されている
2.クローラーがアクセスしたWebサイトの通常の操作を妨害している
3.法律で保護されている特定の種類のデータまたは情報をクロールする。
では、クローラー開発者として、リスクを回避するにはどうすればよいでしょうか。

1.ウェブサイトに設定されたロボット契約を厳守する;
2.訪問したウェブサイトの通常の運用への干渉を回避する;
3.商用化のためにクロールされたデータの使用を避ける;
4.取得した情報を使用および流布する場合、研究所はレビューする必要があるキャプチャされたコンテンツがユーザーの個人情報、プライバシー、または他の人のビジネス上の秘密に属することが判明した場合は、時間内に停止して削除する必要があります。
束と言った、実際には、2つのことをすることを約束します。

1. Baiduがキャッチできるものはキャッチできますが、Baiduがキャッチできないものはキャッチできません。キャッチするとき、ターゲットWebサイトの通常の動作に影響を与えないでください。

2.商品化のためにクロールするデータを直接使用しないでください。

Python環境のインストール手順:
Alibaba Cloudサーバー(Windows)バージョンを購入するか、Windowsマシンを準備する

関連ソフトウェア(python)をダウンロードしてインストール

関連チュートリアルは次を参照できます:1. Pythonのインストールと構成

ダウンロードしたのは:https://npm.taobao.org/mirrors/python/ x64のWindowsバージョンを選択します

インストールが完了したら、cmdを実行してpythonを実行し、正常に実行されるかどうかを確認してください

pip国内ソースを変更

クリックして表示

インストール関連の手順

python -m pip install --upgrade pip
pip install jupyter
pip install selenium
pip install pyquery
pip install request
#Run jupyter notebook
jupyter notebook
1
2
3
4
5
6
7
上記でインストールされたモジュールは次のとおりです。

requestは、httpまたはhttpsサイトをリクエストするために使用できる基本的なhttpライブラリです。

セレンは実際には統合されたテストツールですが、テストシミュレーションを使用してWebサイトシミュレーションの操作を実現できます。

pyqueryライブラリーは、非常に強力で柔軟なWebページ解析ライブラリーでもあり、Jqueryを使用したことがあれば、それに慣れているでしょう。

jupyterリアルタイムで実行し、リアルタイムでデバッグできるWeb IDE。

要約:

この記事では、爬虫類と爬虫類関連の規制を簡単に紹介します。インストール手順もビデオを使用して提供されます。次の記事では、プロジェクトの最初の実際のシリーズを実行します。BaiduFengyunリストをクロールして、後続のプロジェクトに備えます。

 

 

————————————————

おすすめ

転載: www.cnblogs.com/dfs23/p/12709893.html