模拟网页爬行的伦敦地铁图(蜘蛛爬行规律)

可以把互联网想象成一个有很多站的大型城市地铁系统。依一站相当于一个独特的文件(通常是网页,有时候可以是PDF, JPEG或其他文件)。搜索引擎需要采用某种方式来爬过整个城市,找到所有地铁站,所以他们就使用现成的最佳途径:网页之间的链接。下图显示了一个例子来形容蜘蛛爬行规律
模拟网页爬行的伦敦地铁图(蜘蛛爬行规律)

如图所示,地铁站Embankment, Picadilly Circus和Moorgate相当于网页,它们之间的轨道连线代表着网页之间的链接。当Google(底部的蜘蛛)到达Embankment,它会看到指I旬Charing Cross, Westminster和Temple的链接,并且可以访问所有这些“页面”。

互联网的链接结构将所有页而连接起来。通过链接,搜索引擎的自动机器人,又称为爬行器或蜘蛛(所以才有图2-11中的蜘蛛图案),可以接触到互相连接的亿万个文件。

搜索引擎找到这些页面后,下一个工作是分析其中的代码,然后把页面上选出来的消息存人大量硬盘阵列以便查询时调用这些信息。要存储能在瞬息间被访问的亿万网页是个相当庞大的任务,搜索引擎建造了大量的数据中心来处理这些数据。

在建立搜索引擎中关键概念之一是决定从网上的什么地方开始爬行。虽然从理论上说可以从网上很多不同地方开始,但理想情况是从一些被信任的网站开始爬行。你可以根据网站与最被信任的网站之间的点击距离来评估该网站的信任度。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: