不要让你的网站Sitemap误导了Google蜘蛛

来源:07素材网 01月12日 12:15
最近众所周知的因素,博客除了固有的几个访客外,基本没有来自百度的访客了,索性趁势修改博客关键字等信息了(因为之前也有大动的想法一直没有实施),也因此导致Google过来的流量也下降了,虽然前几天Google抽的收录直接三万以上,好在现在恢复到了3000左右,但是收录再多,被索引到还是没有一点用,可谓收录不在于多,而在于精啊。

查看Google的收录信息,很大一部分是标签、分类、归档之类的。最近闲来无聊就在robots.txt里面限制了标签、分类、归档之类没必要收录的内容,但是一直没有效果,今天登陆Google的“网站管理员工具”,才恍然大悟,原来是我自己让Google纠结了。大家在发布一个新网站的时候,一般会配合一个最基本的XML Sitemap以更好的被搜索引擎索引,我的博客也不例外的从建立初期就安装了一个名为“XML地图生成器”的插件,主要用于生成Google可以认识的XML形式站点地图,这里我默认设置了标签、分类、归档、页面、文章和首页都包含,这样生成的站点地图就会包含博客所有全部的符合条件的内容了,并且之前我也在Google的“网站管理员工具”中提交过Sitemap了,Google的爬虫自然优先去爬Sitemap包含的内容了(个人认为)。

直至今天登陆工具,我才发现,原来robots.txt里面限制了标签、归档等不能收录,但是在Sitemap里面有这些内容,这样以来就让Google纠结了,到底是收录好呢?还是不收录好呢?于是,在网站管理员工具的站点地图详情中便看到了警告,就是Sitemap contains urls which are blocked by robots.txt.很明显,警告就是因为你的设置让爬虫不知所措,找到原因赶紧下手了,把Sitemap更新下,现在等待Google反应中。

其实Sitemap对于小网站来说没啥必要,Google的John Mueller在Google Webmaster Help里也回答了大家的疑虑:
1、要看网站的规模大小,你不是非要有一个Sitemap文件,我们也会自己索引到所有的内容。
2、当然,如果有一个Sitemap文件的话,你可以随时查看独立的URL地址是否已经正确被索引了。

也就是说对于小站来说,Google完全有能力在没有Sitemap的情况下索引到整个网站。如果你只是想查看URL地址是否被正确索引了的话,Sitemap当然可以做到,但对于小网站来说这样有点多此一举,因为你完全可以将自己的地址输入到Google去搜索来看看被收录的情况,因为你的网站压根也没几页嘛。

相反,不合理的Sitemap则会让Google收录不正常,小子认为,即使你设置robots.txt限制了某些目录等,Google还是会优先根据Sitemap爬网页的,不然网站管理员工具里面也不会出现警告Sitemap里的内容被robots.txt禁止的警告了。
原文出处:https://www.poorren.com/do-not-sitemap-google-bot
版权声明:本文来源地址若非本站均为转载,若侵害到您的权利,请及时联系我们,我们会在第一时间进行处理。

头条

在使用SQLite3时遇到的几个坑

在使用SQLite3时遇到的几个坑

《本打算在SQLite3数据库里执行一个查询语句,使用的是php语言,起初遇到的是权限问题: permission denied,因为SQLite3数据库文件和PHP执行者属于两个不同的用户,首先需要对这个文件执行mode 777的权限开放,然后,又遇到了下面这样的PHP错误