信噪比分析 区分有用信息和干扰信息

ycsx0 2010-06-03

关于信噪比的定义,网上广泛流传的定义是:指网页中的文本内容部分与生成这些文本而产生的html标签内容的比率;小鹏认为应该更广义的理解是:网页中的文本以及各种因素(包括图片,flssh,css等链接 )和网页html标签内容的比率.

关于信噪比的定义,网上广泛流传的定义是:指网页中的文本内容部分与生成这些文本而产生的html标签内容的比率;小鹏认为应该更广义的理解是:网页中的文本以及各种因素(包括图片,flssh,css等链接 )和网页html标签内容的比率.

那么针对上面这两种定义,我还是认为非常的不恰当,没有抓住本质的东西.不管是声学方面对于信噪比的定义还是数据通信领域里的信噪比,在定义概念的时候,都强调了有用信息跟干扰信息之间的比较.比如数据通信领域对于信噪比(S/N)的定义就是信息与噪声之比。那么类比到搜索引擎检索领域,网页内容信噪比的定义应该依然是网页有用信息跟干扰信息之比。

以有用信息跟干扰信息之比这种定义来看,之前提到的两种定义,都认为网页中的文本(或加上其他因素如包括图片,flssh,css等)成了有用信息,而产生的html标签内容减去这些有用信息的为垃圾信息。这显然太过于牵强。难道搜索引擎能识别的文本信息就一定是有用信息???而之外的其他信息就是干扰信息?

所以理解信噪比的关键就在于什么是有用信息,什么是干扰信息。

而对于这一点,我理解的是:搜索引擎对于其所抓取的内容会有一个基本的判断,判断该页面内容对应的主题及所有可能的关键词并将其进行排序。是否为有用信息和无用信息,对于搜索引擎来说,是针对具体关键词而言的。所以网页的信噪比跟具体某一关键词的信噪比应该有所区分。具体关键字的信噪比是网页中对该关键字检索有利的信息和干扰信息之比。而网页的信噪比为该页面核心关键字的信噪比。

网页中如果存在搜索引擎认为与某一搜索词没有任何相关性的内容(即搜索引擎无法判断该段内容与搜索关键词之间的关系),那么这些内容既为该关键词的干扰信息。这些干扰信息可能包括flash,图片,及与关键词没有相关、却十分冗长的段落文本等。同理,网页的干扰信息即为网页核心关键词的干扰信息。

对于flash,图片,js等搜索引擎不能识别的东西来说,对于任何关键词都被列入了干扰信息。而且,对于文字内容比较多的站点来说,信噪比跟关键词密度的概念比较接近。至于具体的html的代码语句符号,我觉得对于搜索引擎来说,其对于网站排名的影响,更多是影响了网站代码的合理和正确性,影响了网站的访问速度。而不是被搜索引擎列为干扰信息,影响排名的。所以,我也可以预言,如果多余的代码不是太过分,导致网页出错或不符合某些标准或使得网页文件太大。对排名的影响几乎是可以不考虑的。一般情况下,搜索引擎都直接忽略了这些代码符号语句,也从来没有在哪个搜索引擎的搜索结果中看到html里面的那些语句定义符号出现过。

上面所讨论的信噪比概念,体现在具体搜索引擎优化操作中,就是需重视网页核心关键词的信噪比,而不可能考虑所有可能关键词的信噪比。对于一个比较合理的站点来说,搜索引擎可以通过网站的Title,Meta等去识别网页的核心主题,那么网页的段落中出现与Title和Meta相呼应的内容就非常重要,这些内容可能会列为有用信息,那么其他的一些信息,虽然也是文本,但如果冗长而与标题Meta不相关,就应该果断舍弃,或使其相关。不然则直接增加了网站核心关键词的信噪比。

还有一个需要注意的是,设计网页需要考虑如何让搜索引擎识别核心关键词和主题。如果搜索引擎连主题都很难理解,那么谈网页信噪比也没有意义。具体如何让搜索引擎识别核心关键词和主题,则是另一个话题,择日再论。 当然本文的想法尝未经实践证明,提出来引导大家思考而已。