百度爬虫类型(Baiduspider)及robots设置方法

Baiduspider的user-agent是什么?百度各个产品使用不同的user-agent:
产品名称 对应user-agent
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
网页以及其他搜索 Baiduspider


你可以根据各产品不同的user-agent设置不同的抓取规则,如果你想完全禁止百度所有的产品收录,可以直接对Baiduspider设置禁止抓取。在robots.txt中禁止爬虫抓取( robots.txt写作方法

以下robots实现禁止所有来自百度的抓取:
User-agent: Baiduspider
Disallow: /

以下robots实现仅禁止来自百度视频搜索的抓取:
User-agent: Baiduspider-video
Disallow: /

以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:
User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/
请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果 Baiduspider-cpro给您造成了困扰,请联系[email protected]






猜你喜欢

转载自ryee.iteye.com/blog/648120
今日推荐