专注提供网络营销最落地的技巧分享

Spider的抓取策略思考

大型搜索引擎Spider的抓取过程中会有很多策略,有时也可能是多种策略综合使用。建欣思考一些简单的抓取策略,以方便大家对Spider工作流程的理解。Spider抓取网页,在争取尽可能多网页的前提下,首先要注意的就是避免重复抓取,为此Spider程序一般会建立已抓取URL列表和待抓取URL列表(实际中是由哈希表来记录URL的两个状态)。在抓取到一个新页面时,提取该页面上的链接,并把提取到的链接和已抓取URL列表中的链接进行逐一对比,如果发现该链接已经抓取过,就会直接丢弃,如果发现该链接还未抓取,就会把该链接放到待抓取URL队列的末尾等待抓取。

Spider眼中的互联网网页可以分为以下四类,如图下图所示:

11

(1)已经抓取过的页面,即Spider已经爬行过的页面;

(2)待抓取的页面,也就是这些页面的URL已经被Spider加入到了待抓取URL队列中,只是还没有进行抓取;好多时候,百度已经知道你的网页了,只是还没有放出来,尤其是建站初期,不要慌!

(3)可抓取页面,Spider根据互联网上的链接关系最终是可以找到这些页面的,也就是说,当下可能还不知道这些页面的存在,但是随着Spider增量型的抓取,最终会发现这些页面的存在;

(4)暗网中的页面,这些网页和表层网络上的网页是脱钩的,可能这些页面中有链接指向以上三类页面,但是通过以上三类网页并不能找到这些页面,比如,网站内需要手动提交查询才能获得的网页,就属于暗网中的网页,据估计暗网要比非暗网大几个数据量级。

全文搜索引擎的Spider一直致力于抓取全网的数据,现在Spider对于非暗网网页已经具备大量搞笑的抓取策略,对于暗网的抓取,各个搜索引擎都在努力研究自己不同的暗网Spider抓取策略,百度对此推出了“阿拉丁”计划,鼓励有优质资源的网站把站内资源直接以XML文件的形式交给百度(比如XML百度地图提交),百度会直接进行抓取和优先排名显示。

当Spider从一个入口网页开始抓取时,会获得者页面上所有的导出链接,当Spider随机抓取其中一个连接时,同样优惠收到很多新的链接,此时Spider 面临一个抓取方式的选择:

(1)先沿着一条连接一层一层的抓取下去,直到这个链接抓到尽头,再返回来按照同样的规则抓取其他链接,也就是深度优先抓取策略

(2)还是先把入口页面中的链接抓取一边,把新发现的URL依次进行入库排列,然后对这些新发现的页面进行遍历抓取,再把最新发现的URL进行入库排列等待抓取,依次抓取下去,也就是广度优先抓取策略

明天,建欣就来详细的跟大家讨论一下这两个策略的具体实施细节,让我们更了解蜘蛛的工作流程,看看对我们的SEO工作是否有所启发!

 

未经允许不得转载:云帆工作室(王建欣)博客 » Spider的抓取策略思考

分享到:

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

云帆工作室,全部精华作品均可在线购买

云帆淘宝店了解云帆