案例分析:为什么GOOGLE不收录网站

经常看到这样的言论:为什么baidu不收录我的网站,怎么我的首页不被google收录。以前也没有在意过,因为自己也没有碰到过这样的现象。不过这次在弄一个新站(http://dasile.com)的时候,遇到了这个现象。网站一直没有被google收录,所以结合这次的经验,谈下自己的看法,抛砖引玉,希望大家一起讨论。注:案例分析是基于google,对于baidu,也可稍作借鉴。

 

开始正题:按照以前的经验,要让一个网站被google收录还是很简单的,哪怕是一个全新的域名。这里也稍微介绍下几种方法:

1.最有效的:当属提交网站地图,开通google站长工具,提交下sitemap.xml。基本上过几个小时,日志中就会显示googlebot的踪影,第二天网站就会出现在索引中。

2.较快捷方便的:用digg,reddit,delisious收藏下网站的首页,然后再ping下相应地址。我一般都这么操作,有一次过了几个小时,就发现网站首页被google放出。类似的操作包括在一些权重高的书签站,百科问答站,论坛留一条链接。

3.最懒惰的:直接向google提交网站,坐等收录,基本上几天内也会被索引。

可是这一次我按照上述几点操作后整整两个礼拜后,网站还是没有出现在索引中:

这里也稍微说下这个域名,域名dasile.com是10月份抢注的,96年开始启用的老域名,6个字母,一般认为权重还是不错的。可是为什么google久久不收录;相对收录要求更要的baidu也已经放出了首页。以下是我对此的一些分析:

第一步:查看网站访问情况。用软件检查了下网站的基本情况,包括robots.txt,.htacces文件的书写;页面访问返回码,HTTP header信息等基本参数。一切正常。

 

第二步:查看网站日志。发现有googlebot的踪迹,并且抓取的还不少。

网站的一切正常,google的抓取也正常,但是为什么迟迟不放出页面呢。一筹莫展之际,我想到用google站长工具(GWT)来查看相关信息。

进入后台后中的crawl test,用Fetch as Googlebot抓取首页,发现一切正常。如下图:



不过顺便发现个小技巧,当你fetch一个页面显示成功后,会有一个submit to index的提示,即将页面提交到索引中。对于网站中一些很难被抓去的页面可以用这个方法来增加收录。

接着查看后台中的Crwal error这一项,结果如下图:

发现有三个页面抓取时显示404,不过我的网站上根本没有这三个页面,我选取第三条链接查看其Linked From page。如下图:

不知道大家发现没有,时间显示是2010年5月,可是我在上文中说过这个域名是今年10月才抢注的。为什么会出现去年的数据呢。最后,我查下些资料,才确定这个域名曾经被google惩罚过。

知道了网站没有被收录并不是自己操作不慎导致,就只能在不断完善网站内容,提升权重的同时静静等待了。这个案例操作主要是通过一些知识和工具科学的判断分析网站不被收录的原因。除了所学到的知识,还有以下两点启示

1.一个域名到期删除并被重新注册后,前账并不一定完全一笔勾销。从上面的例子可以很明显的看到以前的一些数据还是会出现并影响现在的网站情况,包括收录,权重,排名等。这一点或许也可以解释为什么采用不同的域名来做关键词排名时间会完全不同,特别是一些人抢注一些到期的公司网站域名来实现快速排名。

2.在不确定一个域名是否有过不良记录,或者对建站有什么影响时,建议注册一个全新的域名。关于如何选取一个好域名,可以在以后的文章中谈下。 

如果大家有什么建议或者看法,欢迎交流。作者lemar,文章分析出处:http://dasile.com 转载请注明

猜你喜欢

转载自lemar-shao.iteye.com/blog/1306964