专注提供网络营销最落地的技巧分享

关于Spider四个值得思考的问题

上次说到了搜索引擎原理,上面提到了一个重要的名词,就是Spider,这次,建欣的这篇文章,就来为大家仔细介绍一下Spider!!度娘的蜘蛛!!

Spider也就是大家常说的爬虫、踟蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider知抓回的页面或URL才会被索引和参与排名,需要注意的是,只要是Spider抓到的URL, 都可能会参与排名,但参与排名的网页并不一定就被各Spider抓取到了内容,比如有些网站屏蔽搜索引擎Spider后,虽然Spider不能抓取网页内容,但是也会有一些域名级别的URL在搜索引擎中参与了排名〔例如天猫上的很多独立域名的店铺〉。根据搜索引擎的类型不同,Spider也会有不同的分类。大型搜索引擎的Spider一般都会有以下所需要解决的问题,也是和SEO密切相关的问题。

首先,Spider想要抓取网页,要发现网页抓取入口,没有抓取入口也就没有办法继续工作, 所以首先要给Spider一些网页入口,然后Spider顺着这些入口进行爬行抓取,这里就涉及抓取策略的问题。抓取策略的选择会直接影响Spider所需要的资源、Spider所抓取网页占全网网页的比例,以及Spider的工作效率。那么Spider一般会采用什么样的策略抓取网页呢?

其次,网页内容也是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性,否则可能会使得索引库中的内容都很陈旧,或者该更新的没更新,不该更新的却浪费资源更新了,甚至还会出现网页已经被删除了,但是该页面还存在于搜索结果中的情况。那么Spider一般会使用什么样的再次抓取和更新策略呢?

再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的“暗网”,并且这部分网页也是需要呈现给广大网民浏览的,此时Spider就要想方设法针对处于暗网中的网页去行抓取。当下百度是如何来解决这个暗网问题的呢?

最后,大型搜索引擎的Spider不可能只有一个,为了节省资源,要保证多个Spider同时作业且抓取页面不重复;又由于各地区数据中心分配问题,搜索引擎一般不会把Spider服务器放置在一个地区,而是会多地区同时作业,这两方面就涉及分布式抓取的策略问题,那么一般搜索引擎的Spider会采用什么样的分布抓取策略呢?

以上就是:关于Spider四个值得思考的问题,跟我们能够透彻的了解搜索引擎,做好SEO有非常大的益处,下次,建欣会解决的这个问题,请大家持续关注 :)

未经允许不得转载:云帆工作室(王建欣)博客 » 关于Spider四个值得思考的问题

分享到:

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

云帆工作室,全部精华作品均可在线购买

云帆淘宝店了解云帆