Tools
Firecrawl
OpenClaw สามารถใช้ Firecrawl ได้สามวิธี:
- เป็นผู้ให้บริการ
web_search - เป็นเครื่องมือ Plugin แบบระบุชัดเจน:
firecrawl_searchและfirecrawl_scrape - เป็นตัวแยกข้อมูลสำรองสำหรับ
web_fetch
นี่คือบริการค้นหา/แยกข้อมูลแบบโฮสต์ที่รองรับการหลบเลี่ยงบอตและการแคช ซึ่งช่วยกับไซต์ที่ใช้ JS หนักหรือหน้าที่บล็อกการดึงข้อมูล HTTP แบบธรรมดา
ติดตั้ง Plugin
ติดตั้ง Plugin ทางการ แล้วรีสตาร์ท Gateway:
openclaw plugins install @openclaw/firecrawl-pluginopenclaw gateway restartweb_fetch แบบไม่ต้องใช้คีย์และ API keys
ตัวสำรอง web_fetch ของ Firecrawl แบบโฮสต์ที่เลือกไว้อย่างชัดเจนรองรับการเข้าถึงระดับเริ่มต้น
โดยไม่ต้องใช้ API key เพิ่ม FIRECRAWL_API_KEY ในสภาพแวดล้อมของ Gateway
หรือกำหนดค่าเมื่อคุณต้องการขีดจำกัดที่สูงขึ้น Firecrawl web_search และ
firecrawl_scrape ต้องใช้ API key
กำหนดค่าการค้นหาของ Firecrawl
{ tools: { web: { search: { provider: "firecrawl", }, }, }, plugins: { entries: { firecrawl: { enabled: true, config: { webSearch: { apiKey: "FIRECRAWL_API_KEY_HERE", baseUrl: "https://api.firecrawl.dev", }, }, }, }, },}หมายเหตุ:
- การเลือก Firecrawl ในขั้นตอนเริ่มต้นใช้งานหรือ
openclaw configure --section webจะเปิดใช้ Firecrawl Plugin ที่ติดตั้งไว้โดยอัตโนมัติ web_searchที่ใช้ Firecrawl รองรับqueryและcount- สำหรับการควบคุมเฉพาะของ Firecrawl เช่น
sources,categoriesหรือการ scrape ผลลัพธ์ ให้ใช้firecrawl_search - ค่าเริ่มต้นของ
baseUrlคือ Firecrawl แบบโฮสต์ที่https://api.firecrawl.devอนุญาตให้แทนที่ด้วยแบบ self-hosted ได้เฉพาะสำหรับปลายทางส่วนตัว/ภายในเท่านั้น และยอมรับ HTTP เฉพาะสำหรับเป้าหมายส่วนตัวเหล่านั้น FIRECRAWL_BASE_URLคือ env สำรองร่วมสำหรับ URL ฐานของการค้นหาและการ scrape ของ Firecrawl
กำหนดค่าตัวสำรอง Firecrawl web_fetch
{ tools: { web: { fetch: { provider: "firecrawl", // explicit selection enables keyless fallback }, }, }, plugins: { entries: { firecrawl: { enabled: true, config: { webFetch: { baseUrl: "https://api.firecrawl.dev", onlyMainContent: true, maxAgeMs: 172800000, timeoutSeconds: 60, }, }, }, }, },}หมายเหตุ:
- ตัวสำรอง Firecrawl
web_fetchที่เลือกไว้อย่างชัดเจนทำงานได้โดยไม่ต้องใช้ API key เมื่อกำหนดค่าแล้ว OpenClaw จะส่งplugins.entries.firecrawl.config.webFetch.apiKeyหรือFIRECRAWL_API_KEYสำหรับขีดจำกัดที่สูงขึ้น - การเลือก Firecrawl ระหว่างขั้นตอนเริ่มต้นใช้งานหรือ
openclaw configure --section webจะเปิดใช้ Plugin และเลือก Firecrawl สำหรับweb_fetchเว้นแต่ว่ามีผู้ให้บริการ fetch รายอื่นกำหนดค่าไว้แล้ว firecrawl_scrapeต้องใช้ API keymaxAgeMsควบคุมว่าผลลัพธ์ที่แคชไว้เก่าได้แค่ไหน (มิลลิวินาที) ค่าเริ่มต้นคือ 2 วัน- การกำหนดค่า legacy
tools.web.fetch.firecrawl.*จะถูกย้ายโดยอัตโนมัติด้วยopenclaw doctor --fix - การแทนที่ URL ของ Firecrawl scrape/base ใช้กฎโฮสต์/ส่วนตัวเดียวกับการค้นหา: ทราฟฟิกโฮสต์สาธารณะใช้
https://api.firecrawl.dev; การแทนที่แบบ self-hosted ต้อง resolve ไปยังปลายทางส่วนตัว/ภายใน firecrawl_scrapeปฏิเสธ URL เป้าหมายที่เห็นได้ชัดว่าเป็นส่วนตัว, loopback, metadata และไม่ใช่ HTTP(S) ก่อนส่งต่อไปยัง Firecrawl ให้ตรงกับสัญญาความปลอดภัยของเป้าหมายweb_fetchสำหรับการเรียก Firecrawl scrape แบบระบุชัดเจน
firecrawl_scrape ใช้การตั้งค่า plugins.entries.firecrawl.config.webFetch.* และ env vars เดียวกันซ้ำ รวมถึง API key ที่จำเป็น
Firecrawl แบบ self-hosted
ตั้งค่า plugins.entries.firecrawl.config.webSearch.baseUrl,
plugins.entries.firecrawl.config.webFetch.baseUrl หรือ FIRECRAWL_BASE_URL
เมื่อคุณรัน Firecrawl เอง OpenClaw ยอมรับ http:// เฉพาะสำหรับเป้าหมาย loopback,
เครือข่ายส่วนตัว, .local, .internal หรือ .localhost เท่านั้น โฮสต์แบบกำหนดเองสาธารณะ
จะถูกปฏิเสธ เพื่อไม่ให้ Firecrawl API keys ถูกส่งไปยังปลายทางใดๆ โดยไม่ตั้งใจ
เครื่องมือ Firecrawl Plugin
firecrawl_search
ใช้สิ่งนี้เมื่อคุณต้องการการควบคุมการค้นหาเฉพาะของ Firecrawl แทน web_search ทั่วไป
พารามิเตอร์หลัก:
querycountsourcescategoriesscrapeResultstimeoutSeconds
firecrawl_scrape
ใช้สิ่งนี้กับหน้าที่ใช้ JS หนักหรือป้องกันบอต ซึ่ง web_fetch แบบธรรมดาทำงานได้ไม่ดี
พารามิเตอร์หลัก:
urlextractModemaxCharsonlyMainContentmaxAgeMsproxystoreInCachetimeoutSeconds
โหมดล่องหน / การหลบเลี่ยงบอต
Firecrawl เปิดเผยพารามิเตอร์ proxy mode สำหรับการหลบเลี่ยงบอต (basic, stealth หรือ auto)
OpenClaw ใช้ proxy: "auto" พร้อมกับ storeInCache: true เสมอสำหรับคำขอ Firecrawl
หากละ proxy ไว้ Firecrawl จะใช้ค่าเริ่มต้นเป็น auto auto จะลองใหม่ด้วยพร็อกซี stealth หากความพยายามแบบ basic ล้มเหลว ซึ่งอาจใช้เครดิตมากกว่า
การ scrape แบบ basic-only
web_fetch ใช้ Firecrawl อย่างไร
ลำดับการแยกข้อมูลของ web_fetch:
- Readability (ภายในเครื่อง)
- Firecrawl (เมื่อเลือกไว้ หรือเมื่อตรวจพบอัตโนมัติจากข้อมูลรับรองที่กำหนดค่าไว้)
- การล้าง HTML ขั้นพื้นฐาน (ตัวสำรองสุดท้าย)
ปุ่มเลือกคือ tools.web.fetch.provider หากคุณละไว้ OpenClaw
จะตรวจหาผู้ให้บริการ web-fetch รายแรกที่พร้อมใช้งานโดยอัตโนมัติจากข้อมูลรับรองที่มี
Firecrawl Plugin ทางการเป็นผู้จัดเตรียมตัวสำรองนั้น
ที่เกี่ยวข้อง
- ภาพรวมการค้นหาเว็บ -- ผู้ให้บริการทั้งหมดและการตรวจหาอัตโนมัติ
- Web Fetch -- เครื่องมือ web_fetch พร้อมตัวสำรอง Firecrawl
- Tavily -- เครื่องมือค้นหา + แยกข้อมูล