2018-08-18

搜索引擎蜘蛛简介

搜索引擎蜘蛛,在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。

① 爬行原理

搜索引擎蜘蛛访问网页的过程,就好比用户使用的浏览器。

搜索引擎蜘蛛向页面发出访问请求,该页面的服务器则返回该页面的HTML代码。

搜索引擎蜘蛛将收到的HTML代码存入搜索引擎的原始页面数据库中。

② 如何爬行

为了提高搜索引擎蜘蛛的工作效率,通常采用多个蜘蛛并发分布爬行。

同时,分布爬行还分为两种模式:深度优先和广度优先。

深度优先:沿着发现的链接一直爬行,直到没有任何链接。

广度优先:先这一页面上的所有链接爬行完毕之后,才会沿着第二层页面继续这样爬行。

③ 蜘蛛必遵守的协议

搜索引擎蜘蛛在访问网站之前,都会先访问网站根目录下的robots.txt文件。

搜索引擎蜘蛛不会去抓取robots.txt文件中禁止爬行的文件或目录。

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

置顶文章