对于网站来说,网站地图并不是必须的,但是对于搜索引擎来说,却是很有益的。网站管理员也可以很容易地将网站上可用于爬行的网页告知Google /baidu等搜索引擎。Sitemap 它是一个 XML 文件,它列出了一个网站的完整或者部分URL以及每个URL的附加schema元数据,这样搜索引擎就可以使用网站地图查看网站上的最新网页,或者所有的网页,包括所有的图片、视频内容等等。结构大致是下图所示:
在左图中,假如是一个baiduspyder,它会立即在一个网站地图中从首页(homepage)找到第9页,因为它是顺着首页慢慢深入爬行,进而找到第9页。但是呢,在右图所示的网站上,它就将不得不跳过6个网页才能找到第9页,这样的话就会很慢很慢,效率也很低。
使用xml sitemap网站地图的好处
第一个好处围绕着网站能够将额外的信息传递给搜索引擎,比如,你网站有的页面蜘蛛没有发现,但是你的网站地图恰恰列了,那么蜘蛛就有概率去发现并且去抓取它;它可以提供搜索引擎的抓取优先度信息。在网站地图中有一个可选的标签,那就是用于页面的优先级。这表明了一个给定页面对于网站上其他所有页面的重要性,搜索引擎也会根据优先级信息对网站进行检索,比如我们可以把首页调成1.0;传递页面更新时间信息,怎么理解?大家都知道sitemap有另外两个可选的标签(lastmod 和 changefreq)选项,它可以将更多的信息传递给搜索引擎,帮助他们以更优化的方式爬行你的网站,"lastmod"告诉它们,当页面最后一次更改时间,而changefreq 则指出页面可能会改变的频率,这样蜘蛛时间长了就会慢慢遵循这个规律去爬行,就像你选一家餐厅,你熟悉了菜单,自然第二次去点菜就知道怎么点了。
那么怎么去看蜘蛛的爬取情况,知道自己跌网站地图的设计效率呢?那就是:
1、网站日志weblog分析
2、Google/baidu 站长后台的爬取信息统计
比如下图是Google站长后台的统计情况,大家可以自己去看看:
那么很多人会问:网站地图能不能帮助我提高搜索排名。根据我的经验呢,其实没发现多大帮助,其实网站地图不是一个排名因素,在网站地图中列出 url 对更高的搜索排名没有什么直接影响,我更多的觉得对蜘蛛的爬取起到积极作用。所以呢,就像开头说的,不是每个网站都需要的网站地图。如果你需要一个,也并不一定非得是一个sitemap.xml。你完全可以设计多种类型的网站地图,比如一个 RSS 源或者一个 sitemap.html 的特殊扩展,比如我们看到京东,天猫的导航,其实也是一种sitemap,只是它是直接展现的而已,实际上它就是一种html网站地图,再比如hao123导航也是如此。
什么情况下需要sitemap网站地图?
这个问题仁者见仁,一般情况下,是没有硬性规定,非要用的,都是结合自己网站seo优化情况去判断:
1、你有一个规模很大的网站,比如论坛,CMS类型: 一个有100页的网站并不是很大。即使是一个有1000页的网站也是相当小的,而且一个网站地图有时候也没有必要。然而,对于更大的网站,这个时候你绝对应该考虑一下使用。比如你操作有一百万页的门户网站,或者电商平台。
2、你有了一个新网站,并且经常更改你网站的内容: 这个时候,网站地图可以帮助爬虫在发布后的一段时间内找到一个全新的网站,并且更快地索引新网页
3、当你的网站索引出现大幅度下滑的时候,可以考虑设计网站地图
sitemap的格式选择
一般的话,xml,html,Image sitemap,video sitemap以及RSS是最常用的,比如图片地图可以为每个网页添加多达1000张图片,图片不一定要和你的网站在同一个域下,你完全可以使用 CDN (内容传递网路)。rss其实也是和xml差不多,只是格式不一样,有兴趣的同学可以去看看开发文档:http://www.rssboard.org/media-rss,最后,建议大家避免使用网站地图生成器,因为很多生成的地图都是不会变化的,最好找你们的技术开发人员去设计一套动态的
在选择网站建设公司的时候要看看网站后台的操作是否简单方便,因为有一些网站后台设计的很不利于运营人员操作,尤其是发布新闻、发布产品、更新栏目内容的时候很不方便。我身边有一家公司的网站是南京某家建站的公司做的,据说做了几个月,问题还是一大堆,后台操作很不方便,且不说不专业的人了,就我这只程序猿都嫌麻烦。一个便于操作的后台,是不需要怎么培训就能够很快上手操作的。
互联网中存在很多的浏览器,而每个不同的浏览器的兼容性是不一样的,如果一旦兼容性出现问题,会影响到网站的正常打开情况,所以企业在验收网站时,一定要对其兼容性进行详细的检查。可以分别来测试不同的浏览器下网站的状态,是否有乱码或者布局混乱的状况。