要确保页面不被抓取,需要使用robots文件。
要确保页面不被收录,要使用noindex meat robots标签
1、robots文件
user-agent:* 适用于所有蜘蛛 baiduspider—百度蜘蛛,googlebot—谷歌蜘蛛
Disallow 禁止抓取哪些文件或目录
Disallow:/upload/
Disallow: .jpg$ 禁止抓取所有.jpg文件
Disallow: *.html 禁止抓取所有html文件
Disallow:/upload/index.html
Allow 告诉搜索引擎应该抓取哪些页面,由于不指定就是允许抓取,所以allow单独写没有意义
2、noindex meat robots标签
<meat name=”robots” content=”noindex,nofollow”>
Google、必应、雅虎支持的标签如下:
Noindex:不要索引本页面
Nofollow:不要跟踪本页面上的链接
Nosnippet:不要在搜索结果中显示摘要文字
Noarchive:不要显示快照
Noodp:不要使用开放目录中的标题和描述
百度支持:Nofollow和Noarchive
只有禁止索引时,使用meta robots才有意义
3、nofollow属性