搜索引擎判断链接价值的17个因素解析

daojun 2012-02-17

当你进的项目进行到一定深度时,就会开始进行链接建设了。客户想知道为什么链接建设那么重要?你就拉出那张“影响网站排名的因素”给他看,指出外链在影响网站搜索引擎排名所占的比重后,他们就会明白了,不过他们又有了另一个问题:

在网页搜索引擎排名上,Google 是怎样决定某个链接带给这个网页多少排名分值呢?

让我们来详细回答一下这个问题。你会发现很多最重要的影响搜索引擎判断一个链接价值的因素和分析。

开始前,有一个很重要的概念需要说说:


可能你注意到了,搜索引擎已经越来越依赖对整个网站的评估多于对某个网页的评估。这就是有时你会看到某些新网页或者只有很少链接的网页排名却很高,仅仅因为它们是在一个重要的、被信任的和外链极好的网站(域名)上。在有关影响搜索引擎排名的因素调查中,我们称之为“网站的权威性”,而且这个因素被 Google 算法(按照投票集合的观点)认为是最重要的。网站(域名)权威性可能基于网站链接图来计算的,而不是基于网页的链接图,下面的列表里,一些标准可能只影响上面其中之一,一些则两个都影响。

#1 – 内部链接 VS 外部链接
当搜索引擎首次通过评价链接到的网页的受欢迎程度、重要性和相关性来判断链接的价值时,它们发现了经典的基于引用的规则——就是指其他人说你好顶过你自卖自夸说千句好要重要,也更可信。因此,内部链接虽然也会带来某些分值和权重,但外部链接带来的要多得多。

当然,这并不意味着好的内部链接架构就不重要了,或者说对内部链接做的一切(有好的锚文本,www.ttplay8.cn,去掉不需要的链接等等)不重要了,只是说一个网站或某个网页的在排名上的表现高度依赖别的网站怎样引用和评价它们。

#2 – 锚文本
对 SEO 们来说,很明显,锚文本在搜索引擎排名公式中是最重要的因素之一,所以不要奇怪在链接的众多属性中,搜索引擎特别关照这个定位文本的属性。

我们的实验(和以往很多经验)显示,“完全匹配”的定位文本比那些只是被包含着目标关键字的定位文本要来的有益的多。个人观点,搜索引擎不会远离这个标准,尤其对于那些通用(不含品牌的)的关键短语来说,这也是造成很多对 SERPs(搜索结果页面)过于优化和修饰的原因。

#3 – PageRank
无论这个页面排名叫什么,微软叫 StaticRank,Yahoo 叫 WebRank,Google 叫 PageRank,这些都是基于一种递归的、基于马尔可夫链的链接分析算法,是所有搜索引擎排名系统的一部分。PageRank 等排名系统使用的是一种投票的算法,而且和投票网页的影响力和多少有关。

关于 Pagerank 有几点很很重要的基本概念需要知道:

每个网址天生就都被分配了一些数量的 PageRank。
如果一个网页有“n”个链接,每个链接传递出去的页面排名被那个网页的页面排名除于“n”(一个网页上链接越多,那个网页上每个链接传递出去的 PageRank 就越低)
一种通过多次的迭代算法用来计算网络的整个链接图的流向,并以此计算出某个网址的排名分数。
在 Google 的工具条上的 PageRank 数值是指数形式的页面排名,所以页面排名 4 比页面排名 3 要重要 8-10 倍。
页面排名可以通过页面层次的链接图来计算,并给出某个单独的网址 PageRank,popoho.fzl1314.com,但是页面排名也可以通过在网站(域名)级别的链接图来计算,通过计算网站间的链接来决定网站的重要性和排名。

#4 – 信任排名机制
关于信任排名机制的基本概念,请参考斯坦福的论文 – 用信任排名打击网络垃圾。信任排名的基本观点就是互联网上“好的”和“值得信赖”的网页都紧密的链接在一起,然后让垃圾网页只能在这个核心外游荡。因此,通过迭代算法和类似于页面排名的衡量标准让只有来自信任网站的源传递更多的排名权重。信任排名可以用来预报某个网页的质量高低和是否是垃圾网页。

当搜索引擎不披露有关这个衡量标准的相关数据时,有可能某种“距离可信赖信息源距离“的公式应用在页面排名的算法中。另一个有趣的地方是还有一个叫反-信任排名的指标,这个指标用来检测谁链接到那些已知的垃圾站点上,这个可能也是影响排名的一个因素。页面排名和信任排名(以及反-信任排名,reverse-trustrank)都可以在页面层面级别和网站级别来计算排名。

从以上可以直觉地得到一点:从可以信赖的网站得到外链,而且不要链接到垃圾网站。

#5 – 域名权威性
虽然“域名权威性”经常可以在 SEO 界看到(比如域名权威性在影响网站排名的因素中占有很大比重),但是一个正式的、通用的定义却还没有。大多数人都用它来描述搜索引擎根据一个网站的链接数据得来的综合链接广泛度、网站的重要性和可信赖程度。(可能有些搜索引擎还综合一个域名存在的年限因素)

搜索引擎可能通过计算链接并定量地使用评分的方法来确定一个域名(网站)的权威性,而不是只用含糊的言语来描述,所以这是一个值得留意的数据。同时,你从获得外链的域名得到的排名权重可能比单独网页得到的要重要(或重要的多)。

#6 – 外链链接源的多元性
在我们对相关数据的分析后发现,没有哪个因素比来自网站根部的外链对排名的影响大。这显示出这是一个很难控制垃圾网站的指标也显示出外链的重要性和广泛性。

虽然没有因果关系,但很多 SEO 都经验主义地建议你外链网站的多样性对你网站/网页的排名有好处。根据这个逻辑,从一个曾经已经链接到你网站再得到链接比从一个全新的网站得到链接相比,对你的排名提升没有任何价值。这同时说明,从那些本来就多样性的网站得到的链接比那些低多样性网站得到的链接有价值的多。

#7 – 外链来源和目标的唯一性
搜索引擎有自己的一套办法来判定和预测网站间的关系和拥有关系。这包括(但不限于):

大量的共享和反向链接
域名注册数据
共享域名主机 IP 地址或 IP地址的 C 段
公开的收购和关联交易信息
机器可以阅读的公开市场协议
如果搜索引擎判断两个网站间预先存在某种关系,那么可能会对两个网站间链接的“编辑性”质量做抑制处理,它们可能会选择降低分数或干脆忽略这些链接。传闻在这种“网络”中的链接传递很小的价值(尤其是利用经典的“网站范围”建设链接策略形成的链接)。

#8 – 链接在页面上的位置
微软是第一个披露搜索引擎如何处理“区块层级”的(参见微软研究所的文章VIPS : Vision-based Page Segmentation Algorithm基于视觉的网页页面区域算法)。

从那以后,许多 SEO 都报告他们在 Google 和 Yahoo!发现了同样的效果和影响。对于我们也一样,比如,在内部链接中,页脚上的链接不可能提供和页面顶部导航链接一样的效果。还有报告说,为了与不断泛滥的链接广告做斗争,搜索引擎们都降低了从边栏和页脚来的外部链接的分值(价值)。

SEO 们都趋于同意一点:从网页页面“内容”部分来的链接是最有价值的,不管从排名价值来说还是从点击流量来说。(关于页面优化和关键字定位,请参考:网页搜索引擎优化和关键字定位指南)

#9 – 主题相关性
搜索引擎有很多方法对两个网页(网站)进行内容主题分析并判断网页(网站)间是否类似和相关。几年前,Google 实验室推出一项自动分类工具,可以根据 URL(网址)来预测任何虚拟内容的分类和子分类(包括医疗、房地产、市场营销和运动等 10 多个分类)。有可能搜索引擎会使用这种自动主题分类系统来判断网页和链接的“相邻性”,并作为提高网页(网站)排名质量的一项额外措施。

我本身并不担心主题相关性的有关问题,如果你从一个和主题无关的站点( 比NYTimes.com)或一个主题明确的博客得到一个外链,我想这可能对你的排名有好处。我感觉这可能是搜索引擎为了防止垃圾链接或作bi行为说采取的一种分析手段。

#10 – Content & Context Assessment 内容和上下文评估
虽然主题相关性能给搜索引擎提供链接间关系的有用信息,那么可能源链接所在的网页页面内容和上下文更能提供用于决定此链接传给目标网页的价值。在内容和上下文分析里,搜索引擎会通过机器分析/分词来分析和辨析为什么这个链接会存在在这个网页上。

当链接被特意编辑,产生某种模式。链接通过可接受的 HTML 规范、字词用法、措辞等,嵌入到内容中,指向相关的内容来源。通过详细的模式匹配(有可能通过学习大量的数据),搜索引擎可能会分辨出“符合规范的”和“特意编辑”的链接与故意隐藏的(通过作bi)间的区别,或者分辨出哪些是符合内容规范哪些是付费链接,等等。


#11 – 地理位置
一个链接的地理位置高度依赖于这个网站所在的地理位置,不过搜索引擎,尤其是 Google,可能会通过特定的方法来分析大量的数据来精细确认某个网站根域名、子域名或子目录的地理信息。可能包括:

主机的IP地址的位置
顶级域名的后缀中的国家代码(比如.cn, .de, .co, .uk 等)
内容的语言
在本地搜索引擎或地区性网站目录中的注册情况
和具体物理地址(实际地址)相关联
指向网站(或某个栏目)链接的地理位置
从某个指定地区的网站得到外部链接可以帮助网页(或整个网站)在那个地区的搜索中排名更好。同样的,如果你的链接信息显示你强烈倾向于某个地域,那么可能你在其他地方就表现的差点,即使你网站的某些地域信息显示你是现在的地方(比如网站主机的IP地址,域名后缀等)。

#12 – Rel=”Nofollow”的使用
虽然在 SEO 的世界里,nofollow 议题好像已经出现了很久,其实这个用法开始与 2005 年的一月,从 Google 宣布她会支持新的 HTML 标签开始。非常简单,rel=“nofollow”这个标签告诉搜索引擎,这个链接不是我特意推荐和“选出”的,你不用再往前走了,这会提升这个页面本身在搜索引擎查询中独立的排名标准。今天,我们统计了一下,在互联网上大约有 3% 的链接采用了 nofollow,而且,大概有一半的网站在内部使用了 nofollow,远比用在外部链接上的多的多。

在 SEO 圈子里,对不同的搜索引擎是否、如何及怎样严格地遵守这个 nofollow 协议,大家还存在一些疑问。不过一般说来,举例来说,虽然 Wikipedia 的外部链接都采用了 nofollow 标签,但 Google 还是对这些引用外部的链接有些许的排名分数。

#13 -链接类型
链接有很多类型和形式,最大的3类是:

直接使用 HTML 文字链接
图片链接
Javascript 链接

Google 近日宣布他们不仅抓取这些链接,而且还通过他们传递排名评价分数(那些使用 Javascript 进行付费/广告链接的人对这个反复的政策有很多不爽)。多年来,他们已经把图片的 alt 属性中的文字和对待链接中的锚文字那样对待了。

但是,不是所有类型的链接都是被平等对待的。在一些闲暇的测试和样例中显示,直接的含有锚文字的 HTML 链接传递最多的排名价值,接下来就是富含关键字 alt 属性的图片链接,最后就是 javascript 链接(至少在我们的经验中,javascript 链接还是没有被平等地对待和评价的)。链接建设者们,内容审查,小工具创造者和那些有嵌入内容的人应该(我的观点),对于搜索引擎对非标准链接传递的排名价值的能力要有最坏的打算,所以,对链接类型来说,使用标准的保护锚文本的 HTML 链接是最好的优化方法。


#14 – 链接到源页面的其他链接
当页面上的链接链到外面去时,这个页面上的数量和目标也可能被作为评价因素计入传递排名价值中去。

正如我们在 3 中提到的,搜索引擎类似“页面排名”似的算法会把页面上的排名值除以链接数然后再传递出去。再补充一点,搜索引擎可能把链接到外站的数量作为一个判断这些链接的质量和价值的因素。 例如,一个页面只是链接到少数专门内容的外链资源和大量链接指向很多不同外部网站的情况在搜索引擎里可能有不同的认定情况。 不是一定说谁好谁坏坏,但搜索引擎可能会传递对链接认可,有可能来自被其认定为低价值链接来源的链接会被贬值价值。)

搜索引擎也会看链接页面还支持哪些站点。如果一个链接页面链到被认为是 spam 的低质量的页面当然由此获得的价值会比链接到高质量的域名和 URLs 所获得的要少。

#15 – 域名,页面和链接的惩罚
几乎每个 SEO 行业人的都知道,搜索引擎的惩罚会使某个网站丧失传递排名价值的能力。如果一个网站失去这个推荐链接的能力,则从这个网站获得的外链将没有搜索引擎的排名价值。有时搜索引擎会展示出政策性的惩罚结果(不能参与排名,PR 降低等等),但如果一直是惩罚状态则会影响系统获取数据。

#16 -内容/嵌入模式
由于网站内容许可和分发、网站嵌入类小工具、各类积分排名和分布式的嵌入性链接变得越来越流行,搜索引擎已经开始寻找方法以防淹没在这类技术中。我不相信搜索引擎们不想要这种大量的链接来应用于他们的系统,可能他们只是担心过度计入和过度突出某个网站。

最后,我认为内容模式探测和链接模式探测在搜索引擎如何评估链接的多样性和质量中扮演了一个重要的角色。如果搜索引看到,比如,一段有相同链接的文字存在于千百个站点上,那可能并不表示一个级别的推荐。“编辑性”的本质是高度相同的文章片段,在那些明显不同,自动生成的链接可能被打败,但是从搜索引擎的焦点看,如果能够分辨和过滤有这些属性的链接将被证明是对付人为操纵的有效方法。

#17 – 现在的/历史的数据
链接出现的时间和数据是这个列表的最后一项。当搜索引擎爬行网络查看看是否是新网站,新网页和旧的高分链接,他们使用这个数据来和垃圾网站战斗,辨认权威性和相关性甚至传递很好的新鲜信息给网页可以很容易获得很多外链。

搜索引擎如何使用这些吸引链接的模式还在辩论和观察,但是这些数据肯定是被使用、处理和用来帮助排名算法做的更好(并且减少网络上的垃圾链接在排名中的影响 – 尤其是大量的链接购买和滥用)

相关推荐