Google是如何更新全部索引的?这是一个范围相当宽的问题,大家都知道,Google为确保向用户提供最具相关性和质量最高的搜索结果而对其数据库按月进行更新。为了回答上述问题,在本文中我将向大家详细说明Google更新过程的每个步骤。 有相当多的用户和公司都已经发现,为了在早期的搜索引擎优化中,能在Google里有个很好的排名,在认真做计划之前就要采取一切必要的措施。就免费提交的搜索引擎来说,Google是为数极少之中的一个,也是最早将网站收录到数据库的搜索引擎之一。到2003年7月10日为止,Google已经成为收录34亿个网页之多的最广泛的数据库。其中只有一小部分不能够被Google访问,因为这些站点是不能够被搜索引擎爬虫或蜘蛛所访问的。 就象在现实生活中一样,无论是对网站所有者、网站管理员还是搜索引擎优化专家来说,当开始一个新产品的市场时,有很大的风险和潜在的复杂性。然而大多数专家都一致同意在使用Google搜索时,要正确输入关键字,这样才可以有效地搜索到你所要查找的信息。因为Google每个月都会更新它的数据库。在这篇文章中,我们要解释关于“Google Dance”的信息,还有如何在恰当的时间理解“Googlebot”。另外,我们也会告诉你如何进行搜索引擎的优化
著名的“Google Dance” 如果你想写封信去参加在Google总部的年度更新过程,那么你可能希望继续读到GooglePlex这篇文章,从中了解Google数据库和搜索引擎机器人是何如工作的。关于Google每月周期性的更新过程有很多的文档记录。而在过去整整一年,Google的这种每个月的周期性更新(如今人们亲切称之为“Google Dance”)对那些焦虑等待的网站所有者和网站管理员来说,都变得愈加复杂和不可琢磨。 每次的更新都是从Google的一个主要的深层次的爬虫开始的。我们先把它叫做爬虫A。它是如何索引到整个网站中至少三四十亿的网页的呢?Google使用了15,000多台位于不同数据中心的计算机,来索引全世界范围内的站点。当Googlebot来搜索数据库中现有站点时,同时也会搜索到最新的网站。一旦Google完成了爬虫A这个过程,就会为下一步的更新有效地搜索到所有的网页,然后便是两个星期后的第二次更新过程。 最后,Google会更新整个数据库,在www2.google.com和www3.google.com这两个站点上可以看到最新的更新结果。在更新的同时,其结果会很快的连接在主要数据库和第二、第三个数据库之间。由于Google使用的服务器有15,000台之多,因此在整个更新结束之前,不同地方的人们所得到的搜索结果是不同的。“Google Dance”会持续好几天,但是不会超过一个星期。除非Google要改变一些主要的规则,比如2003年4月份的更新。 无论是在Google的每个数据库更新的时候还是在更新之后, 只要其中一个数据库进行更新,Google又会开始新一轮的“全面”检索。我们把它称做爬虫B。这次检索仍然包括数据库中所有已被收录站点和一些新发布的网站。GoogleBot的这次检索完成之后,就是Google下一轮更新的起点,意味着下个月的更新又全面开始了。 在完美时间“捕捉”Googlebot 为了得到包括Google数据库在内的任何网站,或是数据库中有效反映更新的网站,一个有经验的网站管理员需要事先作认真的计划,并准备好一切。这样他才能在能每月特定的更新过程中“抓住”Googlebot,以取得一个好的排名。多数好的搜索引擎优化专家都知道Googlebot一开始的索引都是在月初进行的,而深层次的索引是在更新之后开始的。
如果一个网站管理员希望在Google的数据库中收录一个新站点,那么问题是,会不会有一个爬虫来保证收录呢?根据我们对其每月更新的经验来判断,并不总是这样的。毫无疑问,如果一个网站在月初就被索引的话,那么在这个月的更新过程中,就不会被收录。如果是在这个月的第二次索引中提交的话,就有可能被重新访问,并且在下次的更新时被收录。 在其他情况下,Google只是简单浏览一下新提交的站点,记下主页和Robots.txt文档。像这种行为通常是一个好的指示,Googlebot会在下次主要索引期间再次回来。所以站点通常会在第二次索引更新时被收录。对一个新的网站来说,被收录到Google的数据库中,要被在Googlebot那里访问两次。虽然有些例外的情况,但多数情况下是这样的。 为了确保快速被收录的可能,一个有经验的网站管理员需要做一些工作。如果网站被Googlebot第一次更新后索引的话,这其实是一个很好的迹象,很有可能会在Google下个月的更新中被收录。如果这次没有被索引的话,网站管理员就要为再次的索引等待更长的时间。 根据这一点,一个网站管理员如果要想让他的网站在Google更新时的这个非常时期得到索引,那么他一般应该怎么做呢?他完全可以做些必要的准备工作。如果有被Google已经收录的网站,那么可以通过这些网站的变化来观察整个检索过程和所有更新日期, 然后据此仔细规划新网站的发布。此外,如果没有已经为Google收录的网站,也不要紧,可以常访问www.google.com来观察它的更新过程。 然而,实际生活中几乎不可能100%的确定任何网站都可以部分的或是全部的被索引,为了能使您的网站被Googlebot索引到,网站管理员需要做一些工作。第一,要和那些页面等级高的站点交换连接。因为这些网站会经常被Google索引和更新。也就是说,如果和他们做连接的话,你的站点也会被经常地索引和更新。但要注意的是一定要有相关性:如果一个网站是做家具零售的,那就要和其相似的公司,比如家具制作或销售的站点做连接。这样做Google会给你一个较高的等级;反之,和那些无关的网站做连接则不会得到一个高的等级。第二,你也可以直接向Google做提交。虽然这不是最好的方法,但也是值得去做的。第三,网站管理员可以安装一个Google工具栏,通过这个工具栏可以访问到其它站点。自2002年中期起,就有很多关于网站被Google数据库收录和通过Google工具栏访问二者直接关系的报告。 你也可以选择Yahoo的有偿收录服务,这样可以保证在七天内被Yahoo收录。一旦为Yahoo收录,你的网站就会很快被Google收录了。当然你不用每年都花299美元。还有一个不用花钱的方法,就是把你的网站提交到DMOZ。虽然它的服务器有时会出现问题,而且被DMOZ收录可能要花很长的时间。但这确是一个能让您的网站被Google收录的好方法。
结论: 所有可以提供给网站管理员和搜索引擎优化专家的技术信息,都是从Google爬虫和更新模式那里得到的。它们会对搜索引擎优化的计划和实施有很大帮助。其中最主要的是有助于我们安排计划,因为新的提高和更新需要一个被收录到搜索引擎数据库的特定时间和日期。由于Google决定了大部分的目标搜索引擎访问量,所以让你的网站为Google收录是十分有必要的。 |