谈如何提高网页信噪比

learner00 2011-06-09

网页信噪比是指一个网页上的文字内容与所有HTML代码的比率,这同样是我们所必须了解的SEO基础知识。从搜索引擎的原理来讲,其抓取系统首先是将整个网页下载下来,然后将里面的文字内容提取出来,经过分析去除HTML格式,清除噪音,然后分词,最后存入索引库。

在这个过程中,搜索引擎也会经过去噪的过程,我们很明显地就能知道,网页信噪比越高,搜索引擎蜘蛛抓取的效率越高,搜索蜘蛛每天要处理的文档非常之多,如何能够快速的提取网页的主题信息是个重要任务。

其实信噪比的概念来源于声学,原本是指输出的声讯信号与产生的噪音的比率,应用到网页上实际上不单单是指所有本文与代码的比率,还包括了当前页面文本内容中的有用信息与无用信息的比率。

何谓有用信息,就比如我这篇文章的主题是网页信噪比,整篇文章有1000个字,而当前页面所有的文字内容有2000个文字,而其他文字是与信噪比无关的,那这些无关的信息就是噪音了。所以,提高网页信噪比分为两个方面:包括优化代码和优化内容。

一、去除噪音代码

我们知道,搜索引擎去噪的第一步则是清除HTML格式,那么提高网页信噪比的第一步就是优化HTML代码。为什么我们常说,网页代码要符合W3C标准、代码要简洁、要用DIV+CSS,其实都是基于这个原理。

实际上,很多朋友只是看到网上的文章说要这样去写代码,但却不知道为何要这么做,这也是我建议大家先学习SEO原理的原因(我知道,实践大于理论,但如果理论都没有,怎么去实践,没有一个出发点)。去除噪音代码包括以下几个方面:

(1)减少JS使用,必须要用的JS代码进行封装。

(2)将CSS代码进行封装。

(3)减少DIV层嵌套(很多朋友不知道原理的话,一味地追求DIV+CSS,却同样产生大量冗余的代码。)

(4)减少图片、FLASH的使用

二、去除噪音内容

同样的,搜索引擎提取网页文本内容后,还要进行分析二次去噪,也就是确定当前网页的主题。那么在这个过程中,我们如何让搜索引擎更精确地判断我们的网页主题(这也就是相关性的问题),如何提高网页的相关性?那么就是降低页面噪音内容。

我们很常见的就是一些电子商务网站的商品详细页面,可能一部分做电子商务网站SEO的人员并未注意,在产品介绍内容下面有一些关于配送方式或者帮助信息的说明,这些内容的存在,提高了各个产品页的相似度,同时也降低了信噪比。

这些信息从用户体验的角度来讲是友好的,是提升网站的信任度,但从搜索引擎的角度来讲是有一定不利的,所以我们可以将这些内容使用IFRAME或者JS来封装调用,这样双方都照顾到。主要也是有包括以下几个方面:

(1)重复内容进行封装调用

(2)导出不必要的链接列表进行封装调用

(3)精简版权信息

(4)增加相关内容的文本长度