新博客开张三天,google收录了。可是看了一下收录的页面,Betty又汗了。Betty明明已经在robots.txt里面写了Disallow: /*.php$
Disallow: /category/*/*
也提交了xml格式的sitemap,避免它收录重复内容和后台页面,可是google的收录结果里面还是有blog.myfairland.net/tech/wp-login.php、blog.myfairland.net/tech/category/blog/这样的页面。
Betty的上一个blog也是这样,在有robotx.txt和sitemap.xml的情况下,google开始收录时仍然收录了这些被禁止的页面,过了一阵子时间才消失。好像google在收录的最初是不看robots.txt和sitemap.xml的,过一阵子之后才会处理。正如那句常见的话,“您的提交我们已经收到,处理可能需要数小时乃至数天的时间”。google收录页面和处理robotx.txt、sitemap.xml等文件可能不是同步的。
本文作者:Betty | 本文地址: https://myfairland.net/google-disobeys/
本站文章除特殊标明者外均为原创,版权所有,如需转载,请以超链接形式注明作者和原始出处及本声明
[…] google官方blog的沙发暂时是抢不到了……原来Google虽然收录了Betty的这个博客,但goole的博客搜索还没收录这个blog呢,而根据这篇文章的说法,google blog上列出的”links to this post”(链接到这篇日志的日志)并不是根据pingback或trackback,而是根据google blog search里收录的反向链接……Betty的博客还没被google博客搜索所收录,博客本身都搜索不到,反向链接就更搜索不到了,当然也就不会显示在”links to this post”里了 […]