Vai al contenuto principale

Web Fetch

Lo strumento web_fetch esegue una semplice richiesta HTTP GET ed estrae contenuti leggibili (da HTML a markdown o testo). Non esegue JavaScript. Per siti ricchi di JS o pagine protette da login, usa invece Web Browser.

Guida rapida

web_fetch è abilitato per impostazione predefinita — non è necessaria alcuna configurazione. L’agente può chiamarlo immediatamente:
await web_fetch({ url: "https://example.com/article" });

Parametri dello strumento

ParametroTipoDescrizione
urlstringURL da recuperare (obbligatorio, solo http/https)
extractModestring"markdown" (predefinito) o "text"
maxCharsnumberTronca l’output a questo numero di caratteri

Come funziona

1

Recupero

Invia una richiesta HTTP GET con uno User-Agent simile a Chrome e l’header Accept-Language. Blocca hostname privati/interni e ricontrolla i redirect.
2

Estrazione

Esegue Readability (estrazione del contenuto principale) sulla risposta HTML.
3

Fallback (facoltativo)

Se Readability fallisce e Firecrawl è configurato, riprova tramite l’API Firecrawl con modalità di aggiramento dei bot.
4

Cache

I risultati vengono memorizzati in cache per 15 minuti (configurabile) per ridurre i recuperi ripetuti dello stesso URL.

Configurazione

{
  tools: {
    web: {
      fetch: {
        enabled: true, // default: true
        provider: "firecrawl", // optional; omit for auto-detect
        maxChars: 50000, // max output chars
        maxCharsCap: 50000, // hard cap for maxChars param
        maxResponseBytes: 2000000, // max download size before truncation
        timeoutSeconds: 30,
        cacheTtlMinutes: 15,
        maxRedirects: 3,
        readability: true, // use Readability extraction
        userAgent: "Mozilla/5.0 ...", // override User-Agent
      },
    },
  },
}

Fallback Firecrawl

Se l’estrazione con Readability fallisce, web_fetch può usare come fallback Firecrawl per l’aggiramento dei bot e una migliore estrazione:
{
  tools: {
    web: {
      fetch: {
        provider: "firecrawl", // optional; omit for auto-detect from available credentials
      },
    },
  },
  plugins: {
    entries: {
      firecrawl: {
        enabled: true,
        config: {
          webFetch: {
            apiKey: "fc-...", // optional if FIRECRAWL_API_KEY is set
            baseUrl: "https://api.firecrawl.dev",
            onlyMainContent: true,
            maxAgeMs: 86400000, // cache duration (1 day)
            timeoutSeconds: 60,
          },
        },
      },
    },
  },
}
plugins.entries.firecrawl.config.webFetch.apiKey supporta oggetti SecretRef. La configurazione legacy tools.web.fetch.firecrawl.* viene migrata automaticamente da openclaw doctor --fix.
Se Firecrawl è abilitato e il suo SecretRef non è risolto senza fallback della variabile d’ambiente FIRECRAWL_API_KEY, l’avvio del gateway fallisce rapidamente.
Le sovrascritture di baseUrl per Firecrawl sono rigidamente limitate: devono usare https:// e l’host ufficiale di Firecrawl (api.firecrawl.dev).
Comportamento attuale a runtime:
  • tools.web.fetch.provider seleziona esplicitamente il provider di fallback per il recupero.
  • Se provider viene omesso, OpenClaw rileva automaticamente il primo provider web_fetch pronto dalle credenziali disponibili. Attualmente il provider incluso è Firecrawl.
  • Se Readability è disabilitato, web_fetch passa direttamente al fallback del provider selezionato. Se nessun provider è disponibile, fallisce in modo sicuro.

Limiti e sicurezza

  • maxChars è limitato a tools.web.fetch.maxCharsCap
  • Il corpo della risposta è limitato a maxResponseBytes prima del parsing; le risposte troppo grandi vengono troncate con un avviso
  • Gli hostname privati/interni sono bloccati
  • I redirect vengono controllati e limitati da maxRedirects
  • web_fetch è best-effort — alcuni siti richiedono Web Browser

Profili degli strumenti

Se usi profili degli strumenti o allowlist, aggiungi web_fetch o group:web:
{
  tools: {
    allow: ["web_fetch"],
    // or: allow: ["group:web"]  (includes web_fetch, web_search, and x_search)
  },
}

Correlati

  • Web Search — cerca nel web con più provider
  • Web Browser — automazione completa del browser per siti ricchi di JS
  • Firecrawl — strumenti Firecrawl per ricerca e scraping