跳转到主要内容

使用我们的抓取产品

本文包含在使用我们的 Web Scraping APISite Unblocker 时遇到问题时可能有帮助的常见步骤。

无法抓取目标

我们有时无法抓取请求的目标。一些可能的原因包括:
  • 目标 URL 返回 500,我们将其解释为失败。
  • 目标只能从特定国家/地区访问。
  • 目标超时(我们会自动重试,但在多次重试后会放弃)。
  • 无法解析目标域名的 DNS 名称。
很难推断每个特定失败请求的确切原因,但常见的故障排除步骤包括:
  • 确认您可以在浏览器窗口中打开目标(除非目标正在限制您的 IP 地址)
  • 启用 JavaScript 渲染
  • 更改请求的地理位置(国家/地区)
  • 稍后重试请求(目标网站可能会不时宕机)

启用或禁用 JavaScript 渲染

如果您的目标无法抓取,请尝试启用或禁用 JavaScript 渲染发送相同的请求。当您在请求中包含 "headless": "html" 参数时,将添加此功能。

Web Scraping API

curl --request 'POST' \
        --url 'https://scraper-api.decodo.com/v2/scrape' \
        --header 'Accept: application/json' \
        --header 'Authorization: Basic <TOKEN>' \
        --header 'Content-Type: application/json' \
        --data '
    {
      "url": "https://ip.decodo.com",
      "headless": "html"
    }
'

Site Unblocker

curl -k -x https://unblock.decodo.com:60000 'https://ip.decodo.com' \
    -H 'X-SU-Headless: html' \
    -U 'Username:Password'

其他需要注意的参数

虽然影响不是最大,但更改 device_typelocale 可以提高目标网站的响应率:
  • device_type 默认设置为 desktop。尝试将其更改为 mobile
  • locale 应在特定情况下使用,因为它会更改响应的语言,甚至可能更改内容。
如何添加这些参数的示例:

Web Scraping API

curl --request 'POST' \
        --url 'https://scraper-api.decodo.com/v2/scrape' \
        --header 'Accept: application/json' \
        --header 'Authorization: Basic <TOKEN>' \
        --header 'Content-Type: application/json' \
        --data '
    {
      "url": "https://ip.decodo.com",
      "headless": "html",
      "locale": "en-us",
      "device_type": "mobile"
    }
'

Site Unblocker

curl -k -x https://unblock.decodo.com:60000 'https://ip.decodo.com' \
    -H 'X-SU-Locale: en-us' \
    -H 'X-SU-Device-Type: mobile' \
    -H 'X-SU-Headless: html' \
    -U 'Username:Password'

高峰时段

Scraper API 在整天的整点时间(12:00、21:00 等)使用最为活跃。在发出大量同步请求时,请考虑将请求分散到分钟间隔(12:05、12:10 等),以避免在高峰时段请求挂起。

支持

需要帮助或只是想打个招呼?我们的支持团队全天候为您服务。
您也可以随时通过电子邮件 support@decodo.com 联系我们。

反馈

找不到您要找的内容?请求一篇文章!
有反馈意见?分享您对我们如何改进的想法。