网站蜘蛛日志分析解读，SEO站长自查诊断

什么是网站日志

通过百科我们也可以了解到，所谓的网站日志指的就是记录web服务器接收处理请求以及运行时错误等各种原始信息的以log结尾的文件。这里站长们要注意的是文件以log为后缀，只需将其下载下来使用工具分析即可。

网站日志怎么获取

不同的服务器和虚拟主机存放的log文件位置还是有一定差别的，但一般获取方法还是比较简单的，如博主服务器安装的是宝塔面板，网站日志文件存放在文件-wwwlogs文件夹中，找到对应网站的log文件然后下载下来。

网站日志分析工具

网站日志分析工具是有很多的，比如在线的网站日志工具拉格好(http://www.loghao.com/)，另外博主常用的是光年网站日志分析工具。这些工具大同小异，文件和工具都有了，下面我们就深入探究下如何分析这些网站数据。
在这里插入图片描述
　　常见网站蜘蛛有哪些

BaiDu Spider：即是代表百度搜索引擎蜘蛛，从上图可以看到尹华峰SEO博客的搜索引擎爬虫来自百度，占比52%

Sogou Spide：代表搜狗搜索引擎蜘蛛，访问次数虽少，但是抓取总量却很大，这让博主发现了其中的猫腻，原因就是本站某个栏目被人攻击，挂了大量给搜狗搜索引擎蜘蛛抓取的黑链。

谷歌蜘蛛：表示Google搜索引擎蜘蛛，做谷歌SEO的站长需要多加注意。

Alexa Spider：代表网站全球排名搜索引擎蜘蛛，该爬虫主要分析网站的访问流量，并统计网站全球排名，当前本站在全球排名610481位。

除此之外，其实还是有其他搜索引擎爬虫的，如Yahoo蜘蛛、360Spider等，以上只是本站的搜索引擎蜘蛛概要分析，因为刚换服务器的原因，目前蜘蛛抓爬的数据体量是比较小的，仅供参考。通过日志工具主动与搜索引擎蜘蛛沟通，我们还可以进一步分析网站抓取情况和状态码分析。
在这里插入图片描述
　　网站蜘蛛日志分析解读

目录抓取：可以分析网站目录的抓取量，了解搜索引擎蜘蛛的爱好。通过上图可以看到Sogou Spide主要抓取了我的/kjzx/目录，同其他目录对比抓取量比较大，出现异常。于是我进入网站根目录进行查看，发现了挂黑链的脚本文件，这也印证了博主前面的判断。

页面抓取：页面抓取量是比较稳定的，没有哪个页面抓取量大而出现异常，这里博主就不再截图，但博主发现抓取量最大的页面就是robots.txt文件，所以站长们设置好robots规则也是很重要的。
在这里插入图片描述
　　状态码返回分析解读

200代表搜索引擎蜘蛛访问成功；

404代表页面无法访问；

301代表页面跳转；

304代表客户端已经执行了GET，但文件未变化；

500状态码表示服务器遇到错误，无法完成请求；

403状态码表示服务器拒绝请求。

以上是本站遇到的一些蜘蛛状态码(更多状态码请参考：网站日志常见HTTP状态码分析)，站长尤其是查看非200值的状态码，分析这些异常的URL路径，很容易就找到网站症结之所在。

网站日志的作用

网站日志分析对SEO站长来说应该是必备技能，无论是新站还是老站，网站日志分析都有很大的作用。通过日志分析了解网站蜘蛛抓取频次、是否被关进沙盒、网站是否被K、查找异常抓取等。

结语：通过网站蜘蛛日志分析，SEO站长可以很好自查诊断网站是否出现问题，不仅可以了解网站的健康状况，通过抓取量还可以进一步了解搜索引擎蜘蛛的爱好，清楚网站内容运营的重心之所在，也可以起到很好的指导作用。

网站蜘蛛日志分析解读，SEO站长自查诊断

猜你喜欢