百度蜘蛛Baiduspider抓取失败解决方法

网站优化 admin 暂无评论

在百度 site 站点时,遇到 “连通率为 0” 说明 Baiduspider 在访问站点时发现了问题,该问题非常严重,如果 Baiduspider 持续一天时间无法访问有可能给站点带来灾难性的损失。

一、何谓连通率

既然为率,那么就是一个统计相关概念。我们不妨可以这样理解一个网站的连通率:百度蜘蛛在抓取网站页面的时候计算的一个概率,比如它抓取某网站中的 N 个页面,这 N 个页面都能打开并被蜘蛛成功抓取,这样的连通率就是 N/N=100%,反之蜘蛛抓取 N 个页面有 M 个页面能成功抓取,连通率就是 M/N

这里先说明几个常识:

不是网站被某算法惩罚而导致连通率为 0,也不是网站流量下降而导致连通率数值很低; 连通率代表着百度蜘蛛获取网站数据的情况,如果连通率数值很低或为 0,那么可能连维持网站的正常收录等都成问题; 假如网站被判定连通不了,那么如果让一个连通不了的站点在百度中获取排名,就会大大影响搜索用户的体验,于是百度就会采取对该站点有效引流的索引清除操作,一些站长就会发现自己的网站索引量突然大幅度下降,甚至索引被短暂清 0 了,接着就是网站百度搜索流量大幅度下降,这种突发性的事件又会造成站长们的揣测,以为自己的网站被百度惩罚了,其实站长们先应该注意的是站点的连通情况。 二、提取核心词

上述概念中,我们需要注意的几个词有:” 百度蜘蛛”; ” 在抓取”; ”N 个页面”; ”M 个页面”; ” 都能打开并被成功抓取”。

百度蜘蛛Baiduspider抓取失败解决方法

三、连通率很低或为 0 时

我们抓住上述 5 个提取出的核心词进行分析。

(一)百度蜘蛛 谨防百度蜘蛛访问被操控或禁止 由于百度蜘蛛的抓取量等原因对一些服务器造成压力,而这些网络商或网站运营方从某利益角度考虑,无意或有意的屏蔽百度蜘蛛,导致部分或全部百度蜘蛛 ip 获取不到网站数据; 一些网站运营方或网络商对蜘蛛进行区别对待,比如国外蜘蛛 ip、山东蜘蛛 ip、北京蜘蛛 ip 等返回不同的数据,移花接木的手段层出不穷,而这个过程很可能造成百度蜘蛛的异常行为或异常状态返回;

所以我们首先要确保百度蜘蛛的访问有没有被操控或禁止。

预防措施 完善联系方式获得百度站长工具消息提醒

百度蜘蛛Baiduspider抓取失败解决方法 虽然一些网站异常情况会收到百度站长工具消息提醒,然而我想告诉大家不是所有自己站点异常都可以寄希望于消息提醒的,自己心里要知道连发邮件都可能出现收不到的情况,更何况各种复杂的异常情况,因此不要出问题了只会问 “为什么站长工具没有给我发消息”。 利用抓取异常和抓取频次工具观察抓取情况

↓抓取异常工具的网址异常情况

百度蜘蛛Baiduspider抓取失败解决方法

↓抓取频次工具的抓取统计情况

百度蜘蛛Baiduspider抓取失败解决方法

百度蜘蛛Baiduspider抓取失败解决方法

百度蜘蛛Baiduspider抓取失败解决方法

↓每个工具页面的右侧下方都有使用说明,如下

百度蜘蛛Baiduspider抓取失败解决方法

(3)抓取诊断工具是重中之重

百度蜘蛛Baiduspider抓取失败解决方法

为了保证网站对百度蜘蛛的稳定访问性能,日常我们需要养成定期抓取诊断的习惯,另外抓取诊断不是说光看看状态是否 “抓取成功” 就行了。有下面几步进行:

第一步:下拉选择分”pc”、 ” 移动” 进行抓取,”pc” 意味着一般意义上的电脑端访问诊断,” 移动” 则是如手机、平板等移动设备端访问诊断; 第二步:网站主要的引流页,如首页、详情页、内容页、专题页等都要进行抓取,另外可以重点几个时间段(比如网站高峰时间段)每天定期进行测试; 第三步:抓取失败了,点击” 抓取失败” 查看提示信息,如果自己没有技术能力解决问题,可以跟空间商进行沟通,然后向工具提交报错;

百度蜘蛛Baiduspider抓取失败解决方法 第四步:抓取成功后,也不能说就万事大吉了,还要点击” 抓取成功” 进去注意:提交网址、抓取网址、抓取 UA、网站 ip、下载时长、头部信息(服务器返回状态码、gzip 等相关信息)、网页源码是否都正常。

百度蜘蛛Baiduspider抓取失败解决方法

百度蜘蛛Baiduspider抓取失败解决方法

特别说明:有很多站长就光注意抓取成功,却不知网站 ip 可能并非自己的实际 ip,被网络商搞到哪里去了都不知道,还可能每隔一段时间都变。当发现 ip 有问题,及时跟网络商沟通,并在网站 ip 旁点击 “报错” 按钮,百度会更新网站 ip,但是切记不要 ip 变化频繁。此外当然还可能出现实际抓取网址、头部信息、网页源码等都不是自己本来设置的。

(二)在抓取

这是反映百度蜘蛛在抓取时的状态,百度的工具显示的数值肯定都是抓取后计算出来的数据,因此任何工具的连通率数据必定存在延迟性,另外这个计算过程也存在一定可能的错误,所以我们看到任何工具中关于连通率的数据,不要说 “我网站用抓取诊断等工具检查访问情况都好好的,为什么连通率还是 0”,因此除了上述建议的多抓取诊断测试外,自己可以加些监控网站连接状态的措施,笔者本人就曾经接收了不少关于网站连接不通的提醒。这时我会及时跟网络商沟通,然后及时用抓取诊断检查蜘蛛的情况。

百度蜘蛛Baiduspider抓取失败解决方法

(三)N 个页面与 M 个页面

这 N、M 个页面,可能百度蜘蛛很凑巧就赶上高峰的时候或者一些假死页面(执行时间较长,超过蜘蛛的耐心),那么 M 这个数值就会很低,统计概率的东西大家都懂的,那么这时网站的连通率依旧很低或为 0。因此若连通率为 0,我们还可以知道自己应该注意查看访问日志,及时清理死链,或者并发连接数增大,或者增加内存等等。

(四)都能打开并被成功抓取

这里主要注意 DNS 和空间的稳定性。

DNS 的问题 参考当心 dns 服务器不稳导致站点被屏

提醒大家注意的是现在不少云类 ns 服务器,这个过程中由于处理机制问题,包括回源障碍等等,较容易造成这个问题。另外国内大型服务商提供,比如你使用了 dnspod,并不代表你的 dns 就应该是 ok 的。有的站长存在着对大型服务商的错误认识,如 “新网的 dns 就是不可靠的,我都用百度云加速”。我们要明白廉价的东西质量都有一定局限性,所以需要自己检查 dns 解析情况,具体上网找找相关资料或平台,看看 dns 解析出的 ip 以及解析延迟情况等等。

空间的稳定性 很多人都会用超级 ping 了,这个不多说了。但是我还要告诉大家有下面两点需要注意: A、不良的网络商会对不同用户 ip 进行不同处理,自己可以用 vpn 等工具观察下不同地区 ip 段的网站访问情况与返回内容; B、空间的资源不足,内存、并发连接等等,当访问量很少的时候,自己察觉不出,需要提高访问量,增加连接时间。因此使用一些监控工具时,发现监控工具访问测试量巨大,或者被人刷流量时,你应该庆幸,而不是着急拒绝,因为你可以了解到自己的空间承压能力。 四、连通率问题处理完毕后

如果你的网站索引由于连通率而非惩罚原因被清理了,处理完毕问题,可以在抓取频次工具中提交增加抓取频次的请求,将抓取频次增加到一定额度(建议自己查看工具中对抓取频次的说明后再根据网站实际情况调整),然后增加自己的网站数据更新频率与质量,加强与百度的数据沟通(如 url 提交、sitemap 等等),很快就能恢复。相关工具展示如下(每个工具页面的右侧下方都有相关说明链接,可以点击去了解使用注意事项):

抓取频次中的频次调整工具:

百度蜘蛛Baiduspider抓取失败解决方法 链接提交工具:

百度蜘蛛Baiduspider抓取失败解决方法 链接提交工具中的主动推送、sitemap、手动提交方式:

百度蜘蛛Baiduspider抓取失败解决方法

转载请注明:合肥SEO » 百度蜘蛛Baiduspider抓取失败解决方法

喜欢 ()or分享
QQ客服
联系QQ客服
电话咨询
免费热线:151-5505-5380