新博客开张三天,google收录了。可是看了一下收录的页面,Betty又汗了。Betty明明已经在robots.txt里面写了Disallow: /*.php$
Disallow: /category/*/*

也提交了xml格式的sitemap,避免它收录重复内容和后台页面,可是google的收录结果里面还是有blog.myfairland.net/tech/wp-login.phpblog.myfairland.net/tech/category/blog/这样的页面。

Betty的上一个blog也是这样,在有robotx.txt和sitemap.xml的情况下,google开始收录时仍然收录了这些被禁止的页面,过了一阵子时间才消失。好像google在收录的最初是不看robots.txt和sitemap.xml的,过一阵子之后才会处理。正如那句常见的话,“您的提交我们已经收到,处理可能需要数小时乃至数天的时间”。google收录页面和处理robotx.txt、sitemap.xml等文件可能不是同步的。