随笔knows

1.  robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件
robots.txt是一个纯文本文件,用于声明该网站中不想被蜘蛛访问的部分,或者指定蜘蛛抓取的部分。不是规定,而是一种约定,需要蜘蛛自觉遵守的一种习俗
当蜘蛛访问一个站点时,它会首先检查该站点是否存在robots.txt
如果找到,蜘蛛就会按照该文件中的内容来确定抓取的范围
如果该文件不存在,那么蜘蛛就沿着链接直接抓取
Robots.txt文件的存放位置
网站根目录下,通过“域名/robots.txt”能正常访问即可,如http://域名/robots.txt

猜你喜欢

转载自www.cnblogs.com/L6y1a/p/12564823.html