首页 » 新闻 » 关对网站抓取相关问题进行

关对网站抓取相关问题进行

提供的错误消息应指出爬网失败的原因。查看给出的原因,然后要求我们的爬虫再次尝试爬行。如需有关抓取失败的更多帮助,我们的帮助中心提供了有故障排除的优秀资源。 网站抓取中要检查的另一个方面是成功抓取的页面数量。您的网站抓取概览将显示每次抓取完成后抓取的页面数。该数字高于还是低于您网站的预期?如果计数较低,则可能表示以下情况之一: 您的广告系列的页面抓取限制设置得太低 – 如果是这样,您可以在广告系列设置中进行调整,正如我们在本文前面所解释的那样。

 

您的 robots.txt 文件阻止

了我们的抓取工具访问您网站的某些区域 – 请检 阿尔巴尼亚电报数据库 查您的 robots.txt 文件以确保我们的抓取工具阻止了正确的区域,或者在必要时与您的网络开发人员讨论当前设置。 4xx 或 5xx 错误停止我们的爬网程序 – 如果我们的爬网程序收到关键页面的 404 响应或一组页面的服务器错误,它将阻止我们的爬网程序继续抓取其他页面。

 

您可以在 SiteCrawl 的“严重

爬网程序问题”部分中查看这些错误。 还有许多其他原因可能 在电子邮件中添加锚链接 导致您看到的页数低于预期。如果您需要其他帮助进行调查,我们有故障排除指南。其中概述了其他一些常见问题。另一方面,如果您看到的页数高于预期,则可能表明以下情况: 您的 robots.txt 文件未正确配置,无法阻止我们的抓取工具访问您网站的某些区域 – 请检查您的 robots.txt 文件以确保我们的抓取工具阻止了正确的区域,或者在必要时与您的网络开发人员讨论当前设置。

 

相对链接存在导致爬网程序循环

的问题 – 检查您网站的爬网问题,看看是否存在您不期望的异常长的 URL,例如 https:

我们有一些不同的指南可以帮助您调查大量页面,包括有 电话号码 关增加页面波动性和抓取问题的指南。如果一切看起来都不错,但您仍然需要一些关于从哪里开始处理所有网站抓取数据的指导,请务必查看我们的请务必查看分步工作流程。

 

10. 检查您的广告系列中跟踪的关键字(以及如何标记它们)。 接下来,让我们看看您跟踪的关键字。从广告系列的“排名”部分,您可以看到当前正在跟踪的所有关键字的列表。验证您跟踪的关键字是否正确并添加缺少的关键字。请务必与任何已就座的用户联系,以确保添加它们不会扰乱他们的工作流程!或者,您可以创建一个全新的营销活动。