Nginx がスパイダーをブロックする仕組み
1. Nginx 設定パラメータを変更する
ファイル /www/server/nginx/conf/agent_deny.conf をこのディレクトリに追加する必要があります
#Scrapyなどのツールによるクローリングを禁止する
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
403 を返します。
}
#指定された UA アクセスを禁止します。UA が空の場合は、機関車を通常どおりに解放するなど、アクセスできます。
if ($http_user_agent ~ "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|YandexBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider |DigExt|HttpClient|MJ12bot|heritrix|Bytespider|Ezooms|JikeSpider|SemrushBot" ) {
403 を返します。
}
#GET|HEAD|POST 以外のクロールを禁止する
if ($request_method !~ ^(GET|HEAD|POST)$) {
403 を返します。
}
上記の内容をファイルに追加して保存します
2. Web サイト設定ファイルを変更する
ウェブサイト ---> 設定 ---> プロフィール
ルート/www/wwwroot/niuzheng.net ;
Agent_deny.conf を含めます。
#SSL-START SSL 関連の設定。次の行のコメント化された 404 ルールを削除または変更しないでください。
#エラーページ 404/404.html;
3. nginxを再起動して有効にします