Pythonの爬虫類4 - モジュールurllibはrobotparserは、ライブラリを要求します

 robotparserのRobotFileParserモジュール、クラスを提供して簡単にページをクロールできるかを決定することができ、どのページをクロールすることはできません。

まず、クラスを作成する必要があります。urllib.robotparser.RobotFileParser(URL =は、「」)、それはset_url()の設定で、また、着信URLは不可能であると述べました。

このクラスは、一般的に使用される方法:

  • set_url():設定されたリンクのrobots.txtファイル。
  • 読んで():読み取りおよび分析のrobots.txtファイルを、このメソッドは結果を返しませんが、ファイル操作を読んで、このステップが呼び出される必要があり、呼び出されていない場合は、次の判断はFalseです。
  • パーサ():解析のrobots.txtファイル。
  • can_fetch():最初のパラメータはuser_agentのであるが、第二の引数は、クロールのURLにある検索エンジンがURLをフェッチすることができるか否かを判断します。
  • ファイルのmtime():最後のクロールを返しますし、時間のrobots.txtのプロトコルを解析します。
  • 変更された():前回のクロールや分析など現在の時刻。

コード:

おすすめ

転載: www.cnblogs.com/rong1111/p/12143005.html