PJzhang:実際のシーンロボットプロトコル

猫寧!

参考リンク:

https://bbs.360.cn/thread-15062960-1-1.html

https://ziyuan.baidu.com/college/courseinfo?id=150

 

ロボットにこのキーワードを参照してください、その定義を初めて目、Baiduの百科事典の紹介は次のとおりです。

ロボット爬虫類とウェブサイト間の合意で、爬虫類は、robots.txtファイルを表示するには、サイトにアクセスするのは初めての検索エンジンであることを、シンプルかつダイレクトTXT形式のテキストを使用して、対応する許可を伝えるために許可されています。場合は、検索スパイダーの訪問サイトは、それが最初のファイルの内容に応じて、訪問する検索ロボットの適用範囲を決定するために、存在する場合、サイトのルートディレクトリの下のrobots.txtがあるかどうかをチェックします。ファイルが存在しない場合、すべての検索スパイダーは、サイト上のすべてのパスワードで保護されたページにアクセスすることはできません。

 

robots.txtの使用例を示します。

https://cn.bing.com/robots.txt、これはお祭りが参加し、検索する必須robots.txtファイルです。

ユーザーエージェント:msnbotメディア

禁止:/

許可:/目?

 

ユーザーエージェント:のtwitterBOT

禁止:

 

ユーザーエージェント: *

禁止:/アカウント/

禁止:/アンプ/

禁止:/ BFP /検索

禁止:/ビング・サイトの安全性

禁止:/ブログ/検索/

禁止:/エンティティ/検索

禁止:/ FD /

禁止:/歴史

禁止:/ホテル/検索

禁止:/画像?

禁止:/画像/検索?

禁止:/画像/検索/?

 

サイトマップ:http://cn.bing.com/dict/sitemap-index.xml

 

Webサイト運営者は、検索エンジンでインデックス化一部のページをしたくない場合にのみ、それは、robots.txtのを使用することになりますそれ以外の場合は、駅のデフォルトが、検索エンジンのクロールに含めることができることを意味します。

ルートディレクトリに配置されたrobots.txtファイルは、コンテンツが空行で割った中間体、複数のレコードを含んでいてもよい、robots.txtのに何場合、ステーションを示すことクロールできます。

エージェントユーザー:*、それはすべての爬虫類のために表しています。

エージェントユーザー:のtwitterBOT、爬虫類のこの種のためのtwitterBOTを表明しました。

禁止:/ BFP /検索は、クローラが表現にアクセスすることはできませんが/例/bfp/search/abc.html,/bfp/searchabc.htmlのために、すべてのページのURLを検索/のBFPで始まり、そしてもちろん、彼らは、特定に直接アクセスしていませんURLも可能です。

許可:/ BFP /検索/ VIP、急行爬虫類は、すべての検索/ VIPの最初の/ BFP / URLのページにアクセスすることができます。

サイトマップ:http://cn.bing.com/dict/sitemap-index.xml、これは、サイトマップファイルである爬虫類知らせます

許可するとの組み合わせを禁止、柔軟性のページのコンテンツクローラが訪問し、ボード全体の状況につながることはありません。

 

大文字と小文字の間にここで厳密に区別。

 

*アスタリスクは0文字以上の文字を表します。

$、ドル記号は、ターミネータを表します。

これらは、2つのワイルドカードです

 

サイトにアクセスするすべての検索エンジンのための任意のディレクトリを禁止します。

ユーザーエージェント: *

禁止:/

 

任意のディレクトリには、サイトへのすべての検索エンジンへのアクセスを許可します

ユーザーエージェント: *

許可:/

 

サイトディレクトリのBaiduへのアクセスを禁止します

ユーザーエージェント:Baiduspider

禁止:/

 

唯一の任意のディレクトリBaiduのサイトへのアクセスを許可

ユーザーエージェント:Baiduspider

許可:/

 

禁止ディレクトリ/ ABC /訪問の初めに、除いてhtmlファイルの拡張子

ユーザーエージェント: *

禁止:/ ABC /

許可:。/ ABC / * htmlの$

 

すべての動的ページサイトへのアクセスをブロックし、文字はすべて英語の文字があることに注意してください

ユーザーエージェント: *

禁止:?/ * *

 

上記は、あなたが、よく知られたサイトのrobots.txtファイルを見ることができる検索エンジンは、侵入テストのパスをクロールするために、時には新たな発見やインスピレーションが存在することになるようにする必要はありませんお互いを理解するために、いくつかの基本的な説明です。

http://www.dianping.com/robots.txt、(重合パブリックコメントは、ように、このようなクーポン、写真、アカウントなど7つのディレクトリ間でクロールすべての爬虫類を、必要としません見ることができましたが、絶対禁止の愛は、ネットワークを助けるために地元の生活情報)と、口の網(アリババの生活情報プラットフォーム)パブリックコメントドメインwww.dianping.comに何もクロールの両方爬虫類の言葉。

すべての内容

ユーザーエージェント: *

 

禁止:/クーポン/

禁止:/イベント/

禁止:/ thirdconnect /

禁止:/メンバー/

禁止:/アルバム/

禁止:/ dplab /

 

ユーザーエージェント:www.aibang.com禁止:/

ユーザーエージェント:aibang.com禁止:/

ユーザーエージェント:aibangの許可しません:/

ユーザーエージェント:許可しないaibangspider:/

ユーザーエージェント:aibang-クモのDisallow:/

ユーザーエージェント:aibangbotの許可しません:/

ユーザーエージェント:aibangボットのDisallow:/

ユーザーエージェント:koubeispiderの許可しません:/

ユーザーエージェント:koubei.com禁止:/

 

慎重に読んでrobots.txtのサイト、多分私達は剣のインターネットアリーナの残光の一部を見ることができます。

 

おすすめ

転載: www.cnblogs.com/landesk/p/10984431.html