在SEO工作中,有的时候我们很少关心搜索引擎蜘蛛是如何工作的,虽然,它是一个相对复杂的工作系统,但对于SEO人员而言,我们有必要进行详尽的了解,它有利于指导我们有效的工作。
下面解读主流搜索引擎蜘蛛是如何工作的:
一、常见搜索引擎蜘蛛抓取策略:
1、深度优先遍历策略
简单理解,深度优先遍历策略主要是指建立一个起点,按照这个起点的顺序,顺序抓取链条上,没有被抓取的每个节点。但有的时候,面对“无限循环”节点的时候,这一策略便显得捉禁见肘。
2、宽度优先遍历策略
宽度优先便利策略,是早期搜索引擎常用的一种抓取策略,主要流程是提取整个页面中的URL,其中未被抓取的URL,就被放入待抓取列队,以此循环。
3、PR优先策略
RP优先策略是一个非常注明的链接分析方法,它用于衡量网页的重要性,通常它会计算一个页面上URL的PR,按照从高到低的顺序进行抓取。
由于PR值的计算,需要不断的迭代更新,通常这里所采用的都是非完全PageRank策略。
4、反链策略
反链策略,并没有一个明确的官方文档说明,这里小编认为,它主要是基于反链的数量以及种子页面的权威度,二者进行加权评估后,按照优先顺序抓取。
5、社会化媒体分享策略
社会化媒体分析策略,主要是指一个URL在社交媒体中的流行度,它的转载量,评论,转发量,综合指标的评估。
如果你的URL最先没有在百度网址提交,而是出现在社交媒体中,比如:头条文章,也是很有可能被百度抓取的。
6、爬行原理
搜索引擎蜘蛛访问网页的过程,就好比用户使用的浏览器。
搜索引擎蜘蛛向页面发出访问请求,该页面的服务器则返回该页面的HTML代码。
搜索引擎蜘蛛将收到的HTML代码存入搜索引擎的原始页面数据库中。
7、如何爬行
为了提高搜索引擎蜘蛛的工作效率,通常采用多个蜘蛛并发分布爬行。
同时,分布爬行还分为两种模式:深度优先和广度优先。
深度优先:沿着发现的链接一直爬行,直到没有任何链接。
广度优先:先这一页面上的所有链接爬行完毕之后,才会沿着第二层页面继续这样爬行。
8、蜘蛛必遵守的协议
搜索引擎蜘蛛在访问网站之前,都会先访问网站根目录下的robots.txt文件。
搜索引擎蜘蛛不会去抓取robots.txt文件中禁止爬行的文件或目录。
9、常见搜索引擎蜘蛛
-
百度蜘蛛:Baiduspider
-
谷歌蜘蛛:Googlebot
-
360蜘蛛:360Spider
-
SOSO蜘蛛:Sosospider
-
有道蜘蛛:YoudaoBot,YodaoBot
-
搜狗蜘蛛:Sogou News Spider
-
必应蜘蛛:bingbot
-
头条蜘蛛:Bytespider
-
Alexa蜘蛛:ia_archiver
二、如何吸引更多搜索引擎蜘蛛
互联网信息爆炸,搜索引擎蜘蛛不可能将所有网站的所有链接全部爬行到,那么如何吸引更多的搜索引擎蜘蛛到我们网站上来爬行变得非常重要。
1、 导入链接
无论是外部链接,还是内部链接,只有有导入,才能被搜索引擎蜘蛛知道该页面的存在。所以,多多做外链建设有助于吸引更多蜘蛛来访。
2、页面更新频率
页面更新频率越高,搜索引擎蜘蛛来访的次数也会越多。
3、网站和页面权重
整个网站的权重以及某一页面的权重(包括首页也是页面)影响着蜘蛛的来访频率,权重高、权威性强的网站一般都会增加搜索引擎蜘蛛的好感。
4、与首页的距离
首页>一级目录>二级目录>三级目录>四级目录…很显然,目录越深蜘蛛来访的几率和次数就会越少,因为一般外链都是指向首页的,首页再向下爬行,只会越来越少。
这里给大家的建议是,做外链的时候,不要只做首页外链,偶尔做一做栏目和聚合页面的外链也还是不错的哦~
有些时候,URL短,蜘蛛可能也会觉得这个链接的权重哦,所以,最好只做一级栏目,然后就是文章页面。
三、搜索引擎蜘蛛地址库
搜索引擎蜘蛛有一个专门的地址库,用来存放已经被发现的URL(已被抓取和未被抓取的都算,只要是被发现的URL都算),这样就不会出现重复爬行和抓取页面的情况了。
1、地址库URL来源
蜘蛛抓取的页面中发现的新的URL;
站长后台自主提交的URL;
站长后台提交的XML地图中的URL;
站长后台提交的网站URL;
2、对于未被抓取的URL
对于未被抓取的URL,不管是以什么方式获取的,哪怕是搜索引擎蜘蛛自己发现的,也会先放入地址库中,然后在做统一抓取。
四、页面数据存储
搜索引擎蜘蛛将抓取的页面数据会存入搜索引擎的原始页面数据库中,其实,就可以理解为快照中看到的页面数据,和用户看到的是一样的,每一个页面的URL地址都有一个唯一的编号。
五、原创内容检测
搜索引擎蜘蛛在爬行的过程中,会进行一定程度的原创内容检测。如果是权重低的网站上,发现了大量的转载或抄袭内容时,可能会停止爬行,这些页面可能也会不抓取与收录。
但并不是说网站就不能转载,像一些权重很高的平台,哪怕是转载了一篇旧闻排名也可以很好,因为搜索引擎蜘蛛可能会觉得,就算是旧闻可能也是高质量的吧。