robotparserのRobotFileParserモジュール、クラスを提供して簡単にページをクロールできるかを決定することができ、どのページをクロールすることはできません。
まず、クラスを作成する必要があります。urllib.robotparser.RobotFileParser(URL =は、「」)、それはset_url()の設定で、また、着信URLは不可能であると述べました。
このクラスは、一般的に使用される方法:
- set_url():設定されたリンクのrobots.txtファイル。
- 読んで():読み取りおよび分析のrobots.txtファイルを、このメソッドは結果を返しませんが、ファイル操作を読んで、このステップが呼び出される必要があり、呼び出されていない場合は、次の判断はFalseです。
- パーサ():解析のrobots.txtファイル。
- can_fetch():最初のパラメータはuser_agentのであるが、第二の引数は、クロールのURLにある検索エンジンがURLをフェッチすることができるか否かを判断します。
- ファイルのmtime():最後のクロールを返しますし、時間のrobots.txtのプロトコルを解析します。
- 変更された():前回のクロールや分析など現在の時刻。
コード: