百度收录天骄网的一个小测试(网站iis日志分析报告)
日期:2007-9-7 17:17:56
今天查看网站的iis日志,发现在9月5日下午3点21分左右,百度的蜘蛛抓取了http://www.tj66.net/Yuwen/jiaoshijie/609.html以及http://www.tj66.net/Yuwen/jiaoshijie/548.html等页面,做下记号,等百度更新的时候,看下百度是具体什么时间更新这两篇文章的。
在9月6日百度更是从凌晨一直抓取到第二天深夜,达到1468次的高频率抓取。若是正常索引,三天后的百度小更新应该有3000篇左右的新收录量,但是现在天骄网全站收录也不过3000篇,因此我在这里做个大胆判断:百度正在对天骄网进行整站抓取,不久将进行大更新,将会有超过1万以上到3万左右的收录量。我当然希望我自己的这个判断是正确的,否则问题肯定很大:百度只抓取,不更新,这其实就是对天骄网的降权处理!遭遇降权可不是一件什么好事!
另外,我在robots.txt文件里面已经设置禁止抓取动态页面了,连续三天的观察,Google以及雅虎,搜狗等搜索引擎都在新访问的时候抓取一下robots.txt文件,并且绝不抓取动态页面,在谷歌搜索引擎键入site命令的时候,也几乎找不到有动态页面的收录,说明我的这个配置是正确的。但是三天来的观测,我发现百度蜘蛛抓取的很多都是动态页面,甚至是一些丝毫无用的页面,比如下载地址,报错链接,评论链接页面的抓取。看来百度的蜘蛛不大理会这个标准,或许它一个月读取一次robots.txt文件,在大更新的一个月内就遵循首次读取的robots.txt文件?
唉,最搞不懂的,就是女人和百度!
9月20日,百度大更新,验证结果:
www.tj66.net/Yuwen/jiaoshijie/609.html 31K 2007-9-4 - 百度快照
www.tj66.net/Yuwen/jiaoshijie/548.html 33K 2007-9-4 - 百度快照
所属分类:
文章来源: 天骄网
作者: 独孤天骄 浏览: