搜索引擎蜘蛛工作原理，如何引蜘蛛？

发布时间：2019-01-27 00:00:00

1279 阅读

0 评论

在SEO工作中，有的时候我们很少关心搜索引擎蜘蛛的是如何工作的，虽然，它是一个相对复杂的工作系统，但对于SEO人员而言，我们有必要进行详尽的了解，它有利于指导我们有效的工作。

那么，搜索引擎蜘蛛是如何工作的，又该如何引蜘蛛呢？

根据以往的工作经验，蝙蝠侠IT，将通过如下内容，解读主流搜索引擎，百度蜘蛛是如何工作的：

1、常见蜘蛛抓取的策略：

①深度优先遍历策略

简单理解，深度优先遍历策略主要是指建立一个起点，按照这个起点的顺序，顺序抓取链条上，没有被抓取的每个节点。但有的时候，面对“无限循环”节点的时候，这一策略便显得捉禁见肘。

②宽度优先遍历策略

宽度优先便利策略，是早期搜索引擎常用的一种抓取策略，主要流程是提取整个页面中的URL，其中未被抓取的URL，就被放入待抓取列队，以此循环。

③PR优先策略

RP优先策略是一个非常注明的链接分析方法，它用于衡量网页的重要性，通常它会计算一个页面上URL的PR，按照从高到低的顺序进行抓取。

由于PR值的计算，需要不断的迭代更新，通常这里所采用的都是非完全PageRank策略。

④反链策略

反链策略，并没有一个明确的官方文档说明，这里蝙蝠侠IT认为，它主要是基于反链的数量以及种子页面的权威度，二者进行加权评估后，按照优先顺序抓取。

⑤社会化媒体分享策略

社会化媒体分析策略，主要是指一个URL在社交媒体中的流行度，它的转载量，评论，转发量，综合指标的评估。

言外之意，如果你的URL最先没有在百度网址提交，而是出现在社交媒体中，比如：头条文章，也是很有可能被百度抓取的。

2、一般蜘蛛抓取的流程：

对于搜索引擎而言，常见的抓取流程包括：种子页URL提取->整理新的待抓取URL集合->合并更新链接（包括已经抓取过的链接）->解析页面内容->进入链接总库（索引库）

其中，在解析页面内容，进入索引库的时候，它需要经过多层复杂的系统计算，评估目标URL的质量，从而决定是否进入低质量库。

3、如何引蜘蛛爬行页面：

对于合理引导蜘蛛爬行页面，具体常见的操作是：

①内容更新频率

理论上，如果你的页面更新频率相对较高，那么搜索引擎自然爬虫就是频繁来访，目的是抓取更多潜在的优质内容。

②内容更新质量

言外之意，如果你长期频繁更新低质量内容，是不可取的，特别是百度爬虫而言，如果你定期输出高质量且具有稀缺性的内容（独特的视角）你会发现蜘蛛的来访频率很高，并且经过一定周期的信任度累积，很容易达到“秒收录”

③网站页面稳定

服务器的连通率是决定，搜索引擎蜘蛛是否能够顺利抓取的主要因素，如果你的网站经常产生延迟，识别对抓取与索引产生重要影响。

④整站目标权重

这是一个综合性指标的考虑，通常而言，高权重的站点，更受搜索引擎的亲睐，蜘蛛抓取的也相对频繁，但这个评级，并不是咱们SEO专员，简单通过站长工具查询的结果，而是百度自身，一个非常私密的评估体系。

总结：蝙蝠侠IT认为，搜索引擎蜘蛛的工作原理，是一个非常复杂的系统，上述内容，只是简述一个框架，部分内容，仅供讨论与参考。

原创·蝙蝠侠IT https://www.batmanit.com/p/434.html 转载请注明！