A-A+

2018年8月谷歌核心算法大更新,如何趋利避害对电商网站排名影响?

2018年09月14日 SEO推广 暂无评论 阅读 263 次

核心算法更新,YMYL网站首当起冲,那么什么是YMYL网站?

北美时区 8月1日,谷歌核心搜索算法又更新,这是谷歌2018年第3次更新算法,但许多SEO专业人士表示,这是谷歌自2012年以来,最重大的一次算法更新。

2018年8月谷歌核心算法大更新,如何趋利避害对电商网站排名影响?

 

本次谷歌对其算法可以说是进行了一个全方位的更新,如下图算法更新后,各个指标都出现了巨大的波动,并且持续了近一周的时间:

搜索结果页面指标(SERP metrics)

2018年8月谷歌核心算法大更新,如何趋利避害对电商网站排名影响?

 

高级网页排名(Advanced web rankings)

2018年8月谷歌核心算法大更新,如何趋利避害对电商网站排名影响?

哪些网页受到的影响最大?

SEO工具收集公司Sistrix研究指出,YMYL(Your Money or Your Life)网站或网页将受到最大的影响。电商网站或有金钱往来的网页、金融相关网页、医疗资讯网页等都属于YMYL。据悉,受谷歌算法更新影响,像潘多拉(Pandora)、My Protein和英国国民医疗保健服务系统(Wales NHS)的股价分别下跌了28%、24%和18%。

谷歌新算法会考虑哪些点?

一如往常,谷歌并没有透露太多的跟算法更新有关的信息,但一些SEO论坛和社区人员表示,谷歌新算法会着重考虑以下3点:1、网站在移动端的表现;2、网站内容和站内链接数;3、网站加载速度。

在谷歌更新了算法以后,许多SEO人员都表示网站在搜索结果中的排名下降,网站流量少了。为避免你的网站也出现同等情况,你应该从以下几点入手,来确保自己的网页在搜索结果中拥有领先位置:

1、 移动端网站优化

本月,许多品牌一直在抱怨自己网站排名变差,事实上,很大一部分是因为它们的网站没有移动版。

谷歌移动优先索引现在正在全面进行中,那些没有移动版网页的网站在谷歌的新算法之下,处境堪忧。

当然,网站仅仅拥有一个移动页面是不够的,一个用户友好的移动页面将最大化网站在谷歌搜索中的排名。通常,一个用户友好的移动页面会注意以下2个细节:

(1)许多在桌面端显示的内容,到了移动端会被隐藏起来,这并不利于用户浏览。SEO人员可以多设置一些选项卡,方便用户点击来了解更多内容,而不是直接不显示。

(2)弹窗不要遮盖住内容,你可以将它们放在屏幕的底部。

2、 创建优质内容

在这么一个内容为王的时代,谷歌看重拥有专业知识,具有权威性,获得用户信任的网站,尤其是医药信息这类YMYL网站,谷歌希望为用户提供真实可靠的医学信息,最好内容能够来自可信的医生或教授,而不是玩弄SEO技巧的博客写手。毕竟,每个在谷歌搜索健康信息的用户都不想被一些虚假信息弄得焦虑不安。

例如,医疗保险比较网站MediCompare,该网站都是利用博主内容在充实自己的网站,在谷歌新算法推出后,该网站的排名就一落千丈。但在该网站进行了一系列操作,包括删除了所有外链、增加内链,并删除了大量博客内容后,该网站的排名在48小时内获得了恢复:

8月1日至8月12日

 

2018年8月谷歌核心算法大更新,如何趋利避害对电商网站排名影响?

8月13日至8月15日

 

2018年8月谷歌核心算法大更新,如何趋利避害对电商网站排名影响?

你或许会问,谷歌是如何判断一篇关于糖尿病、癌症或某种疾病的文章是否由专家撰写的?事实上,谷歌并没有公布其判断依据,但普遍看法是:博客写手的内容很多都是参考其它网站,与专业的医疗人员相比,他们通常只根据别人的意见给出自己的观点,而且无法给人们提供更多的参考案例和资料。

3、网站加载速度

网站访问速度和加载时间一直以来是谷歌关注的一个重点,也影响着网站的排名。之前或许有些网站在网速方面不过关,仍可以在搜索结果中排名第一,但在谷歌更新算法后,这样的情况不可能再发生。

因此,建站人员或SEO人员在随后的网站构建和优化中,应该将网站访问速度和加载速度考虑在内,从各个细节入手加快网站运转速度,例如将图片压缩到100KB以下,尽可能压缩代码等。如果你还不了解自己的网站的运行速度,可以使用GTmetrix、Googles Pagespeed Insights等站点测速工具来了解自己网站的表现情况。

事实上,谷歌算法更新无非是希望能给用户提供最佳的浏览体验,这与网站所有者的目标是一致的,毕竟良好的浏览体验将为网站带来更多的流量。如你能从上面3点入手加以优化,你不仅能在谷歌获得良好的排名,也将获得用户青睐。

 

 

谷歌Google算法历史上推出了哪些

马加比更新(Maccabees Update)

上线时间:2017年12月12号

受影响网站:刻意为各种关键词组合建立大量着陆页,比如“地名A+服务a“、”地名A+服务b”、“地名B+服务a”等等,为了覆盖这些关键词,制造大量页面,质量通常不会高。

马加比这个名字是 SERoundtable.com的Barry Schwartz起的,不是Google官方给的名字,因为Google貌似不会再公布算法更新了,更不要说起名字了。Barry Schwartz起这个名字是因为这次更新发生在犹太人的光明节期间,光明节是纪念马加比家族的。Google在某种程度上确认了这次更新,不过只是说,在这段时间上线了几个小更新,是提高相关性日常工作的一部分。

移动优先索引(Mobile First Index)

上线时间:2017年10月中旬

受影响网站:移动优先索引指的是Google优先索引网站移动版本,并作为排名依据。以前都是索引PC版本并计算排名的。移动优先索引Google在2016年底就开始宣传了,但一直没有推出,估计影响面比较大。2017年10月中旬左右,Google透露一小部分网站已经开始转为移动优先索引。

猫头鹰更新(Project Owl)

公布时间:2017年4月25号

受影响网站:虚假新闻内容,如编造的假新闻,极度偏见、煽动仇恨,谣言等。参见以前写的关于猫头鹰算法的帖子。

弗雷德更新(Fred Update)

上线时间:2017年3月8号

受影响网站:广告过多的低质量内容站,这类网站之所以存在,就是为了放 Adsense之类的广告,并没有提供给用户更多价值。
为什么叫Fred更新呢?因为SEO们问Google员工Gary Illyes这次更新叫啥名字时,Gary Illyes随便给了个名字,貌似是他养的鱼的名字,为什么想起这条鱼的名字呢?因为Gary Illyes刚给这条鱼拍了张照片,就是右边这张。Gary Illyes说,以后除非另行说明,不然所有更新都叫Fred了。就这么任性,就这么草率。

移动页面干扰插页惩罚算法(Intrusive Interstitial Penalty)

上线时间:2017年1月10号

受影响网站:这个惩罚算法针对移动页面:挡住主题内容的弹窗,干扰用户访问的大幅插页式广告,用户需要关掉插页才能看到页面实际内容,有时候需要等5-10秒才能关掉。不过据统计,被惩罚的网站并不多。

企鹅更新4.0(Penguin 4.0)

上线时间:2016年9月23号,10月12号左右完成

受影响网站:和以前的企鹅更新一样,受影响的是有低质量外链的网站。Penguin 4.0是最后一次企鹅系列算法更新了,因为企鹅算法以后成为核心排名算法的一部分,实时更新。

另外,以前的企鹅更新是惩罚网站,4.0是不计算低质量外链,降低负面SEO的可能性。

移动友好算法2(Mobile Friendly Algorithm 2)

上线时间:2016年4月21号

受影响网站:2015年4月21号第一次Google移动友好算法的一次更新,使更多移动友好页面能被用户看到。

APP安装插页广告惩罚(APP Install Interstitial Penalty)

上线时间:2015年11月2号

受影响网站:页面会弹出大幅、遮挡主体内容的插页,要求用户下载APP,这种页面被认为不移动友好,在移动搜索中会被降低排名。页面可以建议用户下载APP,但广告不要大幅甚至全屏,做成顶部banner之类的是没问题的。

RankBrain

上线时间:消息公布时间是2015年10月26号,通过 Bloomberg的一篇文章。算法上线时间应该是数月前,2015年上半年。

RankBrain严格说来不算是排名算法,而是以人工智能为基础的深入理解用户查询词的系统,尤其是长尾的、不常出现的查询。2015年刚上线时,15%查询词经过RankBrain处理,可能是效果很好,2016年开始所有查询词都经过RankBrain处理。RankBrain的例子参考以前的帖子。

被黑网站删除算法(Hacked Spam)

上线时间:2015年10月

受影响网站:被黑的网站,包括病毒、引导流量到色情、侵权产品、非法药物网站等。这些页面会从搜索结果这直接删除,所以有时候搜索结果页面可能只有8、9个结果。以前通常是在搜索结果中标注这个页面可能被黑了,现在直接删除了。5%左右的查询受到影响。检查自己网站是否被黑还是挺重要的。

熊猫算法4.2(Panda Update 4.2)

上线时间:2015年7月18号

自2011年推出以来,熊猫算法经历了近30次更新,Panda 4.2是最后一次,几个月才完成。这之后,熊猫算法成为Google核心算法的一部分,虽然还会有更新,但不再单独给名字了。

质量更新(Quality Update)

上线时间:2015年5月1号左右

受影响网站:内容质量低的页面,但不是熊猫算法。Google虽然确认了这次更新,但表示,这只是Google经常做的算法更新之一,调整了评估内容质量的方法,没什么特殊的。

移动友好算法(Mobile Friendly Algorithm)

上线时间:2015年4月21号

受影响网站:在移动搜索中给予移动友好的网站排名提升。也被称为Mobilegeddon – 天劫算法。

所谓移动友好,其实没那么复杂,用户能正常在手机访问页面就行了,所以字体不要太小,字距行距不要太小,用户不需要左右拉屏幕,手指头点击链接时不会点错地方,速度够快等等。自己用手机看看自己网站就知道是否移动友好了。也可以参考一下本博客移动SEO的帖子。

移动友好算法是针对页面级别的,需要页面重新抓取、索引后才能判断是否移动友好。所以算法本身4月底上线,但受影响的页面可能不是马上见到效果。

Google曾经预报说移动友好算法比熊猫和企鹅更新的影响还要大,但由于Google很早就提醒SEO们移动友好的重要性,很多网站已经做了移动优化,所以这次更新没有预计的那么有震撼性。

HTTPS更新(HTTPS Update)

上线时间:2014年8月7号

受影响网站:使用了https的页面排名会稍微提升一点。Google声明这只是个很小的排名因素,但事实上对网站采用https起到了很大推动作用。

鸽子更新(Pigeon Update)

上线时间:2014年7月24号

受影响网站:鸽子更新是本地搜索算法的一次更新,改进了距离和定位排名算法参数。这个名字不是Google起的,是SearchEngineLand给起的。之所以取“鸽子”这个名字是因为,鸽子会回家,有本地意识。

蜂鸟更新(Hummingbird Algorithm)

上线时间:2013年8月

受影响网站:蜂鸟更新是一次排名算法的重写,改进对查询词真实意图的理解,更重要的是未来的扩展性。虽然代码是完全重写的,但排名因素及参数大概变化不多,所以上线后基本上SEO行业没有人注意到。

发薪日贷款算法(Payday Loan Algorithm)

上线时间:2013年6月13号

受影响网站:针对垃圾和黑帽手法盛行的一些行业的查询词重点打击,如payday loan(发薪日贷款,一种小额、短期、利息高的贷款,一般下个发薪日就还上)、色情等。这些行业常用的作弊手法也经常是非法的。

2014年5月16号,发薪日贷款算法2.0上线,2014年6月12号,算法3.0上线。

完全匹配域名惩罚(EMD Update)

上线时间:2012年9月29号

受影响网站:低质量的完全匹配域名(exact match domain)网站,也就是域名与目标关键词完全一样。URL中包含关键词对排名有一些帮助,所以不少SEO用目标关键词注册域名。这种域名确实有过好处,但现在内容不行的话可能被惩罚。

DMCA惩罚算法(DMCA Takedown Penalty)

上线时间:2012年8月13号

受影响网站:DMCA,Digital Millennium Copyright Act,数字千年版权法案,根据这个法案,版权作品被侵权,版权所有人可以向服务商要求删除侵权内容,服务商可以是主机商,域名注册商,ISP,以及搜索引擎。DMCA算法就是对收到很多侵权投诉删除要求的网站,Google给予排名惩罚。

DMCA Takedown Penalty又被称为pirate update海盗算法

2014年10月21号,DMCA惩罚算法上线2.0版本,很多BT种子网站、视频网站被大幅惩罚。

企鹅更新(Penguin Update)

上线时间:2012年4月24号

受影响网站:Google的官方帖子声明打击的是违反Google质量指南的垃圾网站,后续排名变化的分析表明主要受惩罚的是为获得排名制造大量垃圾外链、低质量外链的网站。企鹅算法1.0影响了3.1%英文查询,3%左右的中文、德文等查询。

企鹅算法和熊猫算法是两个最著名的Google惩罚性算法,受到影响的网站范围大,据调查,60%的SEO反映自己网站被Penguin算法惩罚了。

企鹅对今天的SEO方法,尤其是外链建设方法,产生了很大影响。不仅制造外链要非常小心,大部分以前常用的方法现在都被Google明确警告可能会被惩罚,现在SEO们更头疼的是怎样删除低质量外链和以前发的垃圾外链,这比制造外链还困难。

页面布局惩罚算法(Page Layout Algorithm)

上线时间:2012年1月

受影响网站:第一屏显示过多广告的页面被降低排名。因此也常被称为Ads Above The Fold(第一屏广告)算法。

1%的查询词受影响。被惩罚的网站修改页面布局后,Google重新抓取、索引,如果页面用户体验已经改善,就会自动恢复。

2012年10月9号,Page Layout 2.0,2014年2月6号,Page Layout 3.0分别上线。

新鲜度更新(Freshness Update)

上线时间:2011年11月3号

受影响网站:Google官方帖子明确表示:更新鲜的内容会被更多展示在搜索结果中,尤其是最近的事件或热门话题、定期举办或发生的事件(如奥运会之类)、经常会更新的信息(如最新产品)。影响了35%的查询。

当然,这只适用于更需要新鲜信息的查询,有的查询并没有太大实效性,如菜谱,就不必太担心。

熊猫更新(Panda Update)

上线时间:2011年2月24号

受影响网站:内容低质量的页面排名被降低,如转载、抄袭的内容,大量用户发的垃圾留言、主体内容太少、关键词堆积等等。

熊猫更新打击面大,影响大致12的查询结果,对现今SEO方法产生了重要影响。Panda算法最初是后台计算,集中上线,从2011年上线到2015年融入到核心算法中,经历了近30次更新。https://www.laozhuseo.net

熊猫算法更新最初被SearchEngineLand命名为Farmers Update,内容农场更新,后来Google自己公布了算法代码是Panda,和咱们的熊猫没关系,是Google内部开发此算法的主要工程师之一的名字叫Panda。

采集惩罚算法(Scraper Algorithm)

上线时间:2011年1月28号

受影响网站:Matt Cutts的博客帖子公布的这个算法,采集、抄袭的内容页面被惩罚,奖励原出处。2%查询受影响。

负面评价处理(Negative Review)

上线时间:2010年12月1号

受影响网站:这个算法是由于 Google的人读到纽约时报的一篇报道,一位顾客在某商家的体验很差,所以上网写了负面评论,但负面评论却给商家带来更多链接,链接又导致商家网站排名上升,带来更多生意。Google很快采取措施,检测这类负面评论,降低相应商家排名。

咖啡因更新(Caffeine)

上线时间:2010年6月1号

受影响网站:咖啡因更新是一次索引系统代码的重写,新系统比旧系统50%的内容更新,索引数量也更大,更有扩展性,速度更快。原来的索引系统是分层的,有的内容(重要内容)抓取索引更快,有的内容就得等比较长时间。咖啡因系统把网络分成小区块,持续更新索引库,发现新页面,或老页面上的新内容,直接进入索引库。

Mayday Update

上线时间:2010年4月28号-5月3号

受影响网站:根据Matt Cutts的视频说明,Mayday更新主要针对长尾查询词,算法会寻找哪些网站的页面质量更符合要求。当然这种说明说了也是和没说差不多。SEO们的观察是,受影响的主要是大型网站上离首页点击距离比较远、没什么外链、内容没有什么附加价值的页面 — 很多电商网站的产品页面就是这样的,内容是供应商给的,也不大可能有外链。

Mayday指的是发生在5月份,不是求救的那个Mayday。

页面速度因素(Page Speed Ranking Factor)

上线时间:2010年4月

受影响网站:顾名思义,打开速度快的页面排名会给予提升,虽然幅度不大。速度的测量包括蜘蛛抓取时页面的反应速度和工具条记录的用户打开页面时间。

2013年6月,Matt Cutts暗示,速度特别慢的页面可能会被惩罚,不过也不用特别担心,除非页面速度慢到一定程度。

Vince/品牌更新(Vince/Brand Update)

上线时间:2009年2月1号

受影响网站:大品牌网站页面在很多查询结果中(都是非长尾的大词)排名显著提高,所以最初被称为品牌更新。以前帖子写过Vince/品牌更新。

Matt Cutts后来解释,这次更新其实其实只是很小的变化,负责的Google工程师名字叫Vince,所以Google内部代码名称是Vince。这个变化并不是刻意针对大品牌,而是提升信任度在排名中的作用,而信任度、质量、链接这些方面,大品牌更有优势,所以表现出来的效果好像是大品牌页面被提升。

Dewey Update

上线时间:2008年3月

受影响网站:不明,SEO行业观察到排名剧烈变动,但没有找到明显规律。Dewey这个名字的来源是因为Matt Cutts在 webmasterworld论坛里征求这次算法更新的反馈意见,站长需要在反馈中标明Dewey这个词,可能是Google内部的识别代码。

大爸爸(Big Daddy)

上线时间:2005年12月-2006年3月

大爸爸是一次Google算法基础架构的重写,解决了网址规范化、301/302转向等技术问题。大爸爸是一个数据中心一个数据中心更新的,不是同时上线的。

大爸爸这名字怎么来的?据Matt Cutts帖子说,2005年12月的Pubcon会议上,Matt Cutts征求大家对这次更新的反馈,Matt Cutts知道更新已经在一个数据中心上线了,所以问大家有什么好名字来指这个数据中心,一位站长说,叫BigDaddy吧,他孩子就这么叫他的,Matt Cutts觉得挺好,就叫这个名字了。

我当年开始写SEO每天一贴就是大爸爸完成更新那段时间,第3篇帖子就是介绍大爸爸更新情况。Robin同志给我的第一个留言就在那篇帖子上,沙发,后来才有了点石,和很多中国SEO行业的故事。

Jagger Update

上线时间:2005年9-11月

受影响网站:Jagger分3个阶段上线,所以有Jagger1, Jagger2, Jagger3的名字。Jagger更新主要打击低质量链接,如交换链接、链接农场、买卖链接等。

早期的Google算法更新基本上都是webmasterworld命名的,Jagger也是webmasterworld创始人Brett Tabke起的名字,下面提到的更新名称大多是他们命名的。但貌似Jagger是最后一个,后来的名字大多是Google自己公布的了。

Bourbon Update

上线时间:2005年5月

受影响网站:早期Google更新往往没有官方信息,所以针对的是哪些网站经常不明,只是监测到排名有比较大变化。Bourbon一般认为与网址规范化有关。

Bourbon这个名字也是webmasterworld起的,原因是webmasterworld即将在新奥尔良举行一个行业会议,Bourbon是新奥尔良的一条著名老街道。

Allegra Update

上线时间:2005年2月

受影响网站:不明确,或者说范围广泛,包括低质量外链、关键词堆积、过度优化等。

公布支持nofollow

上线时间:2005年1月

现在SEO对nofollow肯定都很熟悉了,包括百度,所有主流搜索引擎都支持nofollow。还不知道的请参考以前关于nofollow的帖子。

Brandy Update

上线时间:2004年2月

受影响网站:链接锚文字作用提高,链接需要来自好邻居的概念第一次被提出来。索引库增长,抓取索引了很多新的链接,一些网站获得了更高权威度。

弗罗里达更新(Florida Update)

上线时间:2003年11月

受影响网站:弗罗里达更新是早期最著名的Google算法更新,影响面大,受影响的以商业意图明显的词为主,一些靠搜索流量的小公司倒闭,有的SEO公司因此陷入困境,因为客户网站排名下降,不续费了。弗罗里达更新的后果大到,Google曾经承诺,以后不在年底上线这么大的更新了,以免剧烈影响很多商家的圣诞季销售业绩。

Florida Update打击了一系列不自然的优化方法,包括隐藏文字、关键词堆积、链接农场、大量交换链接、过度优化。Florida彻底改变了SEO,可以说是现在SEO方法的起点。

Florida也是webmasterworld命名的,因为他们的命名方法该排到字母F打头了(为什么到了F打头,见下面Boston更新说明),而第二年2月他们要在弗罗里达的奥兰多举行Pubcon大会,所以就用了Florida。

Update Fritz

上线时间:2003年7月

Fritz更新是Google转为每天持续小幅更新索引的开始,这种更新方法又被称为everflux。

Update Fritz这个名字是Matt Cutts在他2006年的博客帖子里提到的Google内部名称,不是webmasterworld命名系列里的。

Esmeralda Update

上线时间:2003年6月1号

这是早期每个月发生一次的Google Dance的最后一次。这次更新之后,Google算法更新改为小幅、持续性的,当然这是相对Google Dance每个月一次、持续数天、排名剧烈波动而言。准确地说,Google Dance是索引更新,不是算法更新。Esmeralda更新之后,Google就不再Dance了。

Dominic Update

上线时间:2003年5月1号

早期Google Dance的一次。Dominic也是webmasterworld命名,名称来源于参加Boston Pubcon大会时大家常去的一家披萨饭馆。

Cassandra Update

上线时间:2003年4月1号

Brett Tabke和webmasterworld第一次特意给Google更新起名字。既然第一个名字是Boston,是个男名,这次应该是C打头的女名,大家投票,Cassandra胜出,没有其它特别意义。

Boston Update

上线时间:2003年2月1号

2003年波士顿举行的SES大会上,Google员工公布了这次更新,为了和其它Google Dance以示区别,取名Boston。

webmasterworld的创始人Brett Tabke就想,给更新取名字是个挺好的主意,所以就效仿台风的命名方法给Google更新取名,按字母排序,男名女名间隔,也得到了Google的首肯。所以早期的Google算法更新大多是webmasterworld命名的。

Google Dance

早期Google索引库每个月更新一次,是线下计算,然后集中上线。由于数据量大,需要一个数据中心一个数据中心地上线,不是同时上线的。在更新期间,用户这分钟访问的是一个数据中心,下一分钟可能访问的是另一个数据中心,看到的搜索结果可能有很大差别,因此被称为Google Dance。

2000年7月开始,webmasterworld每个月开一个新帖,讨论每一次Google Dance情况,一直到2003年2月的Boston更新第一次有了名称,以前的Google Dance都是没有名字的。这里是当年Google Dance更新讨论的大列表。

 

Google Page Rank 算法解析

1. 简介:
当Google在上世纪九十年代末期上线的时候,表现出来的优异的特质,相比于其他的搜索引擎,他总是能够将最相关最需要的网页放在搜索列表的前列,而这搜索魔法的背后,就是其PageRank算法在起作用。

通常一个搜索引擎需要做以下三件事:

1. 将网络上所有网页爬下来,这也就是通常所说的网络爬虫

2. 对所有爬下来的网页进行索引,以便更有效率的搜寻

3. 对数据库中的每个网页进行重要程度的评价,最重要的网页会在搜索结果中排列在前面

下面主要介绍第三部,虽然有其他算法进行网页重要性排序,但本文仅仅介绍PageRank算法。

2. How to rank pages
i. Basic idea
我们用重要程度得分(importance score)来表示一个网页的重要程度,自然地这个得分应该是一个非负数。如何打分的中心思想是,其他网页指向该网页的链接的数量,数量越多,我们就有理由相信这个网页越重要,重要性得分相应的就应该越高。形象的讲,网页的重要程度是依靠其他网页对其进行投票,而这选票就是其他网页指向该网页的链接的数量。

假设我们有n的网页,用k对每一个网页进行编号,1<=k<=n。我们用一个有向图来表示这种关系。如图一所示,假设我们有4个网页,有向箭头代表链接的指向方向,网页1分别指向网页2,3,4,以此类推。Xi代表指向网页i的链接的数量。从图中看,x1=2,x2=1, x3=3, x4=2,根据被指向链接的数量,我们可以说网页3最重要,网页1,4次之,网页2最不重要。

然而以上这种方法忽略了一个问题,即,在指向网页k的所有链接中,重要网页提升网页k的程度应该比不重要网页的程度高。结合上图来解释,对于图中网页1,分别有网页3,4指向1,根据以上分析,我们认为网页3比网页4更重要,所以网页3提升1重要程度的量级应该比4提升的多。再举一个例子,从Yahoo链接到你的主页能够显著的提升你的主要的重要程度,而从你同学的主页链接到你的主要所能提升的量相比起来则小得多。

此外我们认为,一个网页如果其外向链接(outlink,即从该网页指向其他网页的链接)越多,则认为该网页的重要程度越低,(可以把外向链接数量是选票数量,如果一个具有投票权的人拥有的选票数量特别多,那么他的选票的含金量一定特别低),因为我们不希望网页排序的结果收到那些具有大量外向链接的网页的影响。下面我们用公式来说明算法含义。

假设网页j有nj个外向链接,其中的一个链接指向网页k,那么我们说它提升了网页k的scorexj/nj,其中xj是网页j自己的score。那么对于网页k,计算所有指向其的网页得分,即:

其中Lk是所有指向网页k的网页的集合。注意,这里我们没有考虑网页指向自己的链接(姑且可以把这种链接看作无效链接)。

以图一为例,我们来计算每个网页的分数。X1=x3/1+x4/2, x2=x1/3, x3=x1/3+x2/1+x4/2, x4=x1/3+x2/2。让我们用矩阵来表述这种关系,可以写成Ax=x,x=[x1, x2, x3, x4]T。

求解网页得分,即x向量的任务就转变成了求解矩阵A的特征值为1多对应的特征向量的问题!我们把矩阵A称作link matrix。

实际上,上面的这个A矩阵正好有特征值为1,其对应的特征向量是[12, 4, 9, 6]T的任意倍数。我们归一化这个矩阵是的四个网页的总分为1,得到对应的分数为[12/31, 4/31, 9/31, 6/31]T = [0.387, 0.129, 0.290, 0.194]。观察结果,我们可以看到,实际上网页1的得分要高于网页3,虽然指向网页3的连接数量较网页1多,但此处的不同网页的提升程度在发挥作用。

通常的,如果所有的网页都有外向链接,即不存在没有链接的网页(pages withoutoutgoing links), 那么矩阵A总是有特征值为1的特征值。对于A,如果网页j有指向网页i的链接,那么有Aij=1/nj,否则Aij=0。那么矩阵A的第j列的一共有nj个非零的元素(因为第j列代表着网页j所有的外向链接),因此第j列和为1。类似的,A的每一列和都为1。

我们定义:如果一个方阵所有元素都是非负数且每一列和为1,称这样的矩阵为column-stochastic matrix.

下面我们证明:对于每一个column-stochastic matrix都有值为1的特征值。

Proof:A是nxn的column-stochastic matrix,e是n维向量且每个元素都为1,注意任意矩阵和其转置具有相同的特征值,因此有,ATe=e,因此AT具有值为1的特征值,则A具有值为1的特征值。

3. 缺点
在上述的算法中存在两个问题,第一个是高阶特征值,即值为1的特征值对应多个特征向量,此时就无法找到一个确定的特征向量来代表分数,因为任何特征向量的线性组合仍然是其特征向量。第二个问题是如果存在不包含外向链接的网页,此时A中存在全0列。

 

参考文献: [1] Bryan, Kurt, and Tanya Leise. "The $25,000,000,000 eigenvector: The linear algebra behind Google." Siam Review 48.3 (2006): 569-581.

 

更多最新算法,请关注本博客的更新内容。

 

给我留言

icon_question icon_razz icon_sad icon_evil icon_exclaim icon_smile icon_redface icon_biggrin icon_surprised icon_eek icon_confused icon_cool icon_lol icon_mad icon_twisted icon_rolleyes icon_wink icon_idea icon_arrow icon_neutral icon_cry icon_mrgreen