Chuyển đến nội dung chính

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Công cụ web_fetch thực hiện HTTP GET thuần túy và trích xuất nội dung có thể đọc được (HTML sang markdown hoặc văn bản). Nó không thực thi JavaScript. Đối với các trang phụ thuộc nhiều vào JS hoặc các trang được bảo vệ bằng đăng nhập, hãy dùng Trình duyệt Web thay thế.

Bắt đầu nhanh

web_fetch được bật theo mặc định — không cần cấu hình. Agent có thể gọi ngay:
await web_fetch({ url: "https://example.com/article" });

Tham số công cụ

url
string
bắt buộc
URL cần fetch. Chỉ http(s).
extractMode
'markdown' | 'text'
mặc định:"markdown"
Định dạng đầu ra sau khi trích xuất nội dung chính.
maxChars
number
Cắt ngắn đầu ra đến số ký tự này.

Cách hoạt động

1

Fetch

Gửi một HTTP GET với header User-Agent giống Chrome và Accept-Language. Chặn tên máy chủ riêng tư/nội bộ và kiểm tra lại các chuyển hướng.
2

Extract

Chạy Readability (trích xuất nội dung chính) trên phản hồi HTML.
3

Fallback (optional)

Nếu Readability thất bại và Firecrawl đã được cấu hình, thử lại thông qua API Firecrawl với chế độ né tránh bot.
4

Cache

Kết quả được lưu vào bộ nhớ đệm trong 15 phút (có thể cấu hình) để giảm số lần fetch lặp lại cùng một URL.

Cấu hình

{
  tools: {
    web: {
      fetch: {
        enabled: true, // default: true
        provider: "firecrawl", // optional; omit for auto-detect
        maxChars: 50000, // max output chars
        maxCharsCap: 50000, // hard cap for maxChars param
        maxResponseBytes: 2000000, // max download size before truncation
        timeoutSeconds: 30,
        cacheTtlMinutes: 15,
        maxRedirects: 3,
        readability: true, // use Readability extraction
        userAgent: "Mozilla/5.0 ...", // override User-Agent
        ssrfPolicy: {
          allowRfc2544BenchmarkRange: true, // opt-in for trusted fake-IP proxies using 198.18.0.0/15
          allowIpv6UniqueLocalRange: true, // opt-in for trusted fake-IP proxies using fc00::/7
        },
      },
    },
  },
}

Phương án dự phòng Firecrawl

Nếu trích xuất bằng Readability thất bại, web_fetch có thể chuyển sang dùng Firecrawl để né tránh bot và trích xuất tốt hơn:
{
  tools: {
    web: {
      fetch: {
        provider: "firecrawl", // optional; omit for auto-detect from available credentials
      },
    },
  },
  plugins: {
    entries: {
      firecrawl: {
        enabled: true,
        config: {
          webFetch: {
            apiKey: "fc-...", // optional if FIRECRAWL_API_KEY is set
            baseUrl: "https://api.firecrawl.dev",
            onlyMainContent: true,
            maxAgeMs: 86400000, // cache duration (1 day)
            timeoutSeconds: 60,
          },
        },
      },
    },
  },
}
plugins.entries.firecrawl.config.webFetch.apiKey hỗ trợ các đối tượng SecretRef. Cấu hình tools.web.fetch.firecrawl.* cũ được openclaw doctor --fix tự động di trú.
Nếu Firecrawl được bật và SecretRef của nó không được phân giải mà không có phương án dự phòng env FIRECRAWL_API_KEY, quá trình khởi động Gateway sẽ thất bại ngay.
Các ghi đè Firecrawl baseUrl bị khóa chặt: chúng phải dùng https:// và máy chủ Firecrawl chính thức (api.firecrawl.dev).
Hành vi thời gian chạy hiện tại:
  • tools.web.fetch.provider chọn rõ ràng nhà cung cấp dự phòng cho fetch.
  • Nếu bỏ qua provider, OpenClaw tự động phát hiện nhà cung cấp web-fetch sẵn sàng đầu tiên từ thông tin xác thực có sẵn. Hiện nay nhà cung cấp đi kèm là Firecrawl.
  • Nếu Readability bị tắt, web_fetch sẽ bỏ qua trực tiếp đến phương án dự phòng của nhà cung cấp đã chọn. Nếu không có nhà cung cấp nào khả dụng, nó sẽ thất bại đóng.

Giới hạn và an toàn

  • maxChars bị giới hạn theo tools.web.fetch.maxCharsCap
  • Phần thân phản hồi bị giới hạn ở maxResponseBytes trước khi phân tích cú pháp; các phản hồi quá lớn sẽ bị cắt ngắn kèm cảnh báo
  • Tên máy chủ riêng tư/nội bộ bị chặn
  • tools.web.fetch.ssrfPolicy.allowRfc2544BenchmarkRangetools.web.fetch.ssrfPolicy.allowIpv6UniqueLocalRange là các tùy chọn opt-in hẹp cho các ngăn xếp proxy IP giả đáng tin cậy; hãy để trống trừ khi proxy của bạn sở hữu các dải tổng hợp đó và thực thi chính sách đích riêng của nó
  • Chuyển hướng được kiểm tra và giới hạn bởi maxRedirects
  • web_fetch là nỗ lực tối đa — một số trang cần Trình duyệt Web

Hồ sơ công cụ

Nếu bạn dùng hồ sơ công cụ hoặc danh sách cho phép, hãy thêm web_fetch hoặc group:web:
{
  tools: {
    allow: ["web_fetch"],
    // or: allow: ["group:web"]  (includes web_fetch, web_search, and x_search)
  },
}

Liên quan

  • Tìm kiếm Web — tìm kiếm web bằng nhiều nhà cung cấp
  • Trình duyệt Web — tự động hóa trình duyệt đầy đủ cho các trang phụ thuộc nhiều vào JS
  • Firecrawl — công cụ tìm kiếm và scrape của Firecrawl