1.新しいプロジェクトを作成します。
スクレイピースタートプロジェクトmyproject
2.新しいプロジェクトで新しいスパイダーファイルを作成します。
スクレイピーgenspider mydomain mydomain.com
mydomainはスパイダーファイル名、mydomain.comはクロールするウェブサイトのドメイン名です
3.グローバルコマンド:
startproject genspider 設定 runpider シェル フェッチ ビュー バージョン
4.プロジェクトでのみ使用されるコマンド(ローカルコマンド):
クロール チェック リスト 編集 解析 ベンチ
5.スパイダーファイルを実行します。
ガクガククロール<クモ>
5.1スパイダーファイルを実行してもログが表示されない
スクレイピークロール<spider> --nolog
6.スパイダーファイルに構文エラーがないか確認します。
こわいチェック
7.スパイダーパスの下にスパイダーファイルをリストします。
スクレイピーリスト
8.スパイダーファイルを編集します。
スクレイピー編集<スパイダー>
これは、実際には使いにくいvimモードをオンにすることと同じであり、IDEでの編集の方が適しています。
9. Webページのコンテンツをダウンロードし、現在返されているコンテンツをターミナルに出力します。これは、requestメソッドとurllibメソッドに相当します。
スクレイピーフェッチ<url>
10. Webページのコンテンツを保存し、ブラウザで現在のWebページのコンテンツを開いて、クロールするWebページのコンテンツを視覚的に表示します。
スクレイピービュー<url>
11. ipythonと同様に、テストに使用できるスクラップディスプレイを開きます。
スクレイピーシェル[url]
12.フォーマットされたコンテンツを出力する:
断片的な解析<url> [オプション]
13.システム設定情報に戻ります。
スクレイピー設定[オプション]
など:
$スクレイピー設定-BOT_NAMEスクレイピー ボットを入手
14.クモを実行します。
スクレイピーrunspider <spider_file.py>
15.スクラップバージョンを表示します。
スクレイピーバージョン[-v]
後で-vを追加して、スクレイピー依存ライブラリのバージョンを表示します
16.コンピュータの現在のクロール速度のパフォーマンスをテストします。
こぼれたベンチ