实时观察网站日志 识别蜘蛛动态

作者:萧钧 时间:2013-08-16 分类:SEO观察 评论:0条 浏览:1318

相信大家对百度蜘蛛都很了解,站长们都是欢迎蜘蛛的光临,但是否真正了解百度蜘蛛的来意,相信这点大家才是非常关心的话题了,现编者根据以往观察网站运行的日专给大家分享一下,不对之处还请指正:

 

一、整点式爬行,这种爬行争对新站或即将要被降权的网站,指的是每天24小时,每小时百度蜘蛛都会对你网站首页进行爬行,并且爬行数量基本一致。这是新站当中最常见的,也只对新站才会出现,这种怕行百度一定不会收录,并且快照也不会更新。这是百度对你网站的一种考察,这类爬行是百度对你网站首页内容的分析,网站是否有更新,更新的力度如何,内容是否充实等等,顺便也会爬一些首页上的数据回去对比分析,并带回文章的URL路径,安排蜘蛛的下次爬取目标。另一种就是对于百度认为你站已经正常了的,或因网站出现问题,如服务器不稳定,网页经常无法打开,网页有违法问题等等,就会出现类似的爬行方式,那么你就要小心了,出现这种爬行方式,你的站多半会被降权。其表现为次日首页的快照日期未更新或回滚到之前的日期,收录停止,甚至严重的会删除掉一些已收录的网页。那么做为站长的你就要检查下网站看那方面出了问题,并且及时修正问题就不严重了,在两三天内就是恢复。

 

二、 确认收录爬行,有点类似于谷歌蜘蛛爬虫,各个爬虫分工明确,有条不紊,各行其职。这种爬行方式若出现在你的网站日志里,那么恭喜你,你的网站已通过审核期,百度开台正式收录你的网页了。确认收录爬行就是指你网站有新的内容出现后,百度蜘蛛第一次爬行过后,收录是一定不会给你放出来的,这时百度还有很多因素不能确定,如果百度蜘蛛认为有必要进行对比计算的话,那么百度蜘蛛就还需要再进行第二次爬行,对爬取的内容与存在于索引库中的内容进行对比运算、比较计算的,文章内容是否新鲜,与索引库中内容是否重复等,如果认为你这个文章内容是有必要收录,百度蜘蛛会进行第三次爬行,爬行后会立即放出收录页面。如若网站权重高,百度就不会重复如些动作,即一次通过,直接先放出来,然后进行排名的运算,最后根据运算结果得出与索引库中有高度重复文章将会慢慢删除掉,这就是为何有些网站头天收录第二天就没有了,头天收录排名第一,次日就见不到踪影了,正是这个原因。

 

三、爆发式或间隙式爬行,经常在网站日志中看到百度蜘蛛能在短时间内爬行数百次。百度蜘蛛如此高效率的爬行,说明网站在这个时段的更新效率非常高, 百度蜘蛛已撑握了你的更新规律,有时更新一篇文章能达到秒收录,随即发布随即就可以在百度搜索文章URL路径就看到已被收录了,而有时发布一篇文章还要等一个多小时或更久都才收录,这就是蜘蛛没来爬取造成,秒收的也并非是权重高,只能是碰巧跟蜘蛛遇上了。

 

四、圈养式爬行,这种相当于是自己家养的专属百度蜘蛛,整日游荡于网站之上,只要一发现更新,只要发现了一点点更新随即爬取发送到索引库建立索引并即刻放出来,并且在排名上给高权重,这种网站才是真正的权重高,收录快,真正的秒收录。

 

综上所述,希望站长们时时刻刻都要关注网站运行日志,这篇文章只是分析了日志对百度蜘蛛爬行状态的分析,尤其是新站,要养成每日分析日志的良好习惯,根据日志的实时信息调整网站,更新文章,让新站早日走出百度考察期。

标签:

相关推荐
更多

加樊泽敏为微信好友