Tools
Pobieranie z sieci
Narzędzie web_fetch wykonuje zwykłe żądanie HTTP GET i wyodrębnia czytelną treść
(HTML do Markdown lub tekstu). Nie wykonuje JavaScriptu.
W przypadku witryn mocno zależnych od JS lub stron chronionych logowaniem użyj zamiast tego Przeglądarki internetowej.
Szybki start
web_fetch jest włączone domyślnie -- konfiguracja nie jest potrzebna. Agent może
wywołać je od razu:
await web_fetch({ url: "https://example.com/article" });Parametry narzędzia
urlstringrequiredAdres URL do pobrania. Tylko http(s).
extractMode'markdown' | 'text'default: markdownFormat wyjściowy po wyodrębnieniu głównej treści.
maxCharsnumberSkróć dane wyjściowe do tylu znaków.
Jak to działa
Fetch
Wysyła żądanie HTTP GET z User-Agent podobnym do Chrome oraz nagłówkiem
Accept-Language. Blokuje prywatne/wewnętrzne nazwy hostów i ponownie sprawdza przekierowania.
Extract
Uruchamia Readability (wyodrębnianie głównej treści) na odpowiedzi HTML.
Fallback (optional)
Jeśli Readability się nie powiedzie i wybrano Firecrawl, ponawia próbę przez API Firecrawl w trybie omijania botów.
Cache
Wyniki są buforowane przez 15 minut (konfigurowalne), aby ograniczyć powtarzane pobieranie tego samego adresu URL.
Aktualizacje postępu
web_fetch emituje publiczny wiersz postępu tylko wtedy, gdy pobieranie nadal trwa
po pięciu sekundach:
Fetching page content...Szybkie trafienia w pamięć podręczną i szybkie odpowiedzi sieciowe kończą się przed uruchomieniem timera, więc nie pokazują wiersza postępu. Jeśli wywołanie zostanie anulowane, timer jest czyszczony. Gdy pobieranie ostatecznie się zakończy, agent otrzymuje normalny wynik narzędzia; wiersz postępu jest wyłącznie stanem interfejsu kanału i nigdy nie zawiera pobranej treści strony.
Konfiguracja
{ tools: { web: { fetch: { enabled: true, // default: true provider: "firecrawl", // optional; omit for auto-detect maxChars: 50000, // max output chars maxCharsCap: 50000, // hard cap for maxChars param maxResponseBytes: 2000000, // max download size before truncation timeoutSeconds: 30, cacheTtlMinutes: 15, maxRedirects: 3, useTrustedEnvProxy: false, // let a trusted HTTP(S) env proxy resolve DNS readability: true, // use Readability extraction userAgent: "Mozilla/5.0 ...", // override User-Agent ssrfPolicy: { allowRfc2544BenchmarkRange: true, // opt-in for trusted fake-IP proxies using 198.18.0.0/15 allowIpv6UniqueLocalRange: true, // opt-in for trusted fake-IP proxies using fc00::/7 }, }, }, },}Zapasowe użycie Firecrawl
Jeśli wyodrębnianie Readability się nie powiedzie, web_fetch może użyć
Firecrawl jako rozwiązania zapasowego do omijania botów i lepszego wyodrębniania:
{ tools: { web: { fetch: { provider: "firecrawl", // optional; omit for auto-detect from available credentials }, }, }, plugins: { entries: { firecrawl: { enabled: true, config: { webFetch: { // apiKey: "fc-...", // optional; omit for keyless starter access baseUrl: "https://api.firecrawl.dev", onlyMainContent: true, maxAgeMs: 86400000, // cache duration (1 day) timeoutSeconds: 60, }, }, }, }, },}plugins.entries.firecrawl.config.webFetch.apiKey jest opcjonalne i obsługuje obiekty SecretRef.
Starsza konfiguracja tools.web.fetch.firecrawl.* jest automatycznie migrowana przez openclaw doctor --fix.
Bieżące zachowanie środowiska uruchomieniowego:
tools.web.fetch.providerjawnie wybiera zapasowego dostawcę pobierania.- Jeśli
providerzostanie pominięte, OpenClaw automatycznie wykrywa pierwszego gotowego dostawcę web-fetch na podstawie skonfigurowanych poświadczeń. Niesandboxowaneweb_fetchmoże używać zainstalowanych pluginów, które deklarującontracts.webFetchProvidersi rejestrują pasującego dostawcę w czasie działania. Oficjalny plugin Firecrawl zapewnia to rozwiązanie zapasowe. - Sandboxowane wywołania
web_fetchdopuszczają dostawców wbudowanych oraz zainstalowanych dostawców, których oficjalne pochodzenie z npm lub ClawHub zostało zweryfikowane. Obecnie zezwala to na oficjalny plugin Firecrawl; zewnętrzne pluginy pobierania innych firm pozostają wykluczone. - Jeśli Readability jest wyłączone,
web_fetchprzechodzi od razu do wybranego zapasowego dostawcy. Jeśli żaden dostawca nie jest dostępny, kończy się niepowodzeniem w trybie zamkniętym.
Zaufany proxy środowiskowy
Jeśli Twoje wdrożenie wymaga, aby web_fetch przechodziło przez zaufany wychodzący
proxy HTTP(S), ustaw tools.web.fetch.useTrustedEnvProxy: true.
W tym trybie OpenClaw nadal stosuje kontrole SSRF oparte na nazwie hosta przed wysłaniem żądania, ale pozwala proxy rozwiązywać DNS zamiast wykonywać lokalne przypinanie DNS. Włącz to tylko wtedy, gdy proxy jest kontrolowane przez operatora i egzekwuje politykę wychodzącą po rozwiązaniu DNS.
Limity i bezpieczeństwo
maxCharsjest ograniczane dotools.web.fetch.maxCharsCap- Treść odpowiedzi jest ograniczana do
maxResponseBytesprzed parsowaniem; zbyt duże odpowiedzi są skracane z ostrzeżeniem - Prywatne/wewnętrzne nazwy hostów są blokowane
tools.web.fetch.ssrfPolicy.allowRfc2544BenchmarkRangeitools.web.fetch.ssrfPolicy.allowIpv6UniqueLocalRangeto wąskie opcje opt-in dla zaufanych stosów proxy z fałszywymi adresami IP; pozostaw je nieustawione, chyba że Twój proxy jest właścicielem tych syntetycznych zakresów i egzekwuje własną politykę miejsc docelowych- Przekierowania są sprawdzane i ograniczane przez
maxRedirects useTrustedEnvProxyjest jawną opcją opt-in i powinno być włączane tylko dla proxy kontrolowanych przez operatora, które nadal egzekwują politykę wychodzącą po rozwiązaniu DNSweb_fetchdziała na zasadzie best-effort -- niektóre witryny wymagają Przeglądarki internetowej
Profile narzędzi
Jeśli używasz profili narzędzi lub list dozwolonych, dodaj web_fetch albo group:web:
{ tools: { allow: ["web_fetch"], // or: allow: ["group:web"] (includes web_fetch, web_search, and x_search) },}Powiązane
- Wyszukiwanie w sieci -- przeszukuj sieć z użyciem wielu dostawców
- Przeglądarka internetowa -- pełna automatyzacja przeglądarki dla witryn mocno zależnych od JS
- Firecrawl -- narzędzia wyszukiwania i scrapowania Firecrawl