Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
pdf phân tích một hoặc nhiều tài liệu PDF và trả về văn bản.
Hành vi nhanh:
- Chế độ nhà cung cấp gốc cho các nhà cung cấp mô hình Anthropic và Google.
- Chế độ dự phòng trích xuất cho các nhà cung cấp khác (trích xuất văn bản trước, sau đó dùng hình ảnh trang khi cần).
- Hỗ trợ đầu vào đơn (
pdf) hoặc nhiều (pdfs), tối đa 10 PDF mỗi lần gọi.
Tính khả dụng
Công cụ chỉ được đăng ký khi OpenClaw có thể phân giải cấu hình mô hình có khả năng xử lý PDF cho tác nhân:agents.defaults.pdfModel- dự phòng về
agents.defaults.imageModel - dự phòng về mô hình phiên/mặc định đã phân giải của tác nhân
- nếu các nhà cung cấp PDF gốc được hỗ trợ bằng xác thực, ưu tiên chúng trước các ứng viên dự phòng hình ảnh chung
pdf sẽ không được hiển thị.
Ghi chú về tính khả dụng:
- Chuỗi dự phòng có nhận biết xác thực. Một
provider/modelđã cấu hình chỉ được tính nếu OpenClaw thực sự có thể xác thực nhà cung cấp đó cho tác nhân. - Các nhà cung cấp PDF gốc hiện là Anthropic và Google.
- Nếu nhà cung cấp phiên/mặc định đã phân giải đã có mô hình vision/PDF được cấu hình, công cụ PDF sẽ dùng lại mô hình đó trước khi dự phòng sang các nhà cung cấp khác được hỗ trợ bằng xác thực.
Tham chiếu đầu vào
Một đường dẫn hoặc URL PDF.
Nhiều đường dẫn hoặc URL PDF, tổng cộng tối đa 10.
Lời nhắc phân tích.
Bộ lọc trang như
1-5 hoặc 1,3,7-9.Ghi đè mô hình tùy chọn ở dạng
provider/model.Giới hạn kích thước mỗi PDF tính bằng MB. Mặc định là
agents.defaults.pdfMaxBytesMb hoặc 10.pdfvàpdfsđược hợp nhất và loại bỏ trùng lặp trước khi tải.- Nếu không cung cấp đầu vào PDF nào, công cụ sẽ báo lỗi.
pagesđược phân tích dưới dạng số trang bắt đầu từ 1, loại bỏ trùng lặp, sắp xếp và kẹp theo số trang tối đa đã cấu hình.maxBytesMbmặc định làagents.defaults.pdfMaxBytesMbhoặc10.
Tham chiếu PDF được hỗ trợ
- đường dẫn tệp cục bộ (bao gồm mở rộng
~) - URL
file:// - URL
http://vàhttps:// - tham chiếu đầu vào do OpenClaw quản lý như
media://inbound/<id>
- Các lược đồ URI khác (ví dụ
ftp://) bị từ chối vớiunsupported_pdf_reference. - Ở chế độ sandbox, URL
http(s)từ xa bị từ chối. - Khi bật chính sách tệp chỉ trong không gian làm việc, các đường dẫn tệp cục bộ bên ngoài gốc được phép sẽ bị từ chối.
- Tham chiếu đầu vào được quản lý và đường dẫn được phát lại trong kho phương tiện đầu vào của OpenClaw được cho phép với chính sách tệp chỉ trong không gian làm việc.
Chế độ thực thi
Chế độ nhà cung cấp gốc
Chế độ gốc được dùng cho nhà cung cấpanthropic và google.
Công cụ gửi byte PDF thô trực tiếp đến API của nhà cung cấp.
Giới hạn chế độ gốc:
pageskhông được hỗ trợ. Nếu được đặt, công cụ sẽ trả về lỗi.- Đầu vào nhiều PDF được hỗ trợ; mỗi PDF được gửi dưới dạng khối tài liệu gốc / phần PDF nội tuyến trước lời nhắc.
Chế độ dự phòng trích xuất
Chế độ dự phòng được dùng cho các nhà cung cấp không gốc. Luồng:- Trích xuất văn bản từ các trang đã chọn (tối đa
agents.defaults.pdfMaxPages, mặc định20). - Nếu độ dài văn bản đã trích xuất dưới
200ký tự, kết xuất các trang đã chọn thành hình ảnh PNG và đưa chúng vào. - Gửi nội dung đã trích xuất cùng lời nhắc đến mô hình đã chọn.
- Trích xuất hình ảnh trang dùng ngân sách pixel là
4,000,000. - Nếu mô hình đích không hỗ trợ đầu vào hình ảnh và không có văn bản có thể trích xuất, công cụ sẽ báo lỗi.
- Nếu trích xuất văn bản thành công nhưng trích xuất hình ảnh sẽ yêu cầu vision trên mô hình chỉ văn bản, OpenClaw bỏ các hình ảnh đã kết xuất và tiếp tục với văn bản đã trích xuất.
- Dự phòng trích xuất dùng Plugin
document-extractđi kèm. Plugin sở hữupdfjs-dist;@napi-rs/canvaschỉ được dùng khi dự phòng kết xuất hình ảnh khả dụng.
Cấu hình
Chi tiết đầu ra
Công cụ trả về văn bản trongcontent[0].text và siêu dữ liệu có cấu trúc trong details.
Các trường details phổ biến:
model: tham chiếu mô hình đã phân giải (provider/model)native:truecho chế độ nhà cung cấp gốc,falsecho dự phòngattempts: các lần thử dự phòng đã thất bại trước khi thành công
- đầu vào PDF đơn:
details.pdf - đầu vào nhiều PDF:
details.pdfs[]với các mụcpdf - siêu dữ liệu ghi lại đường dẫn sandbox (khi áp dụng):
rewrittenFrom
Hành vi lỗi
- Thiếu đầu vào PDF: ném
pdf required: provide a path or URL to a PDF document - Quá nhiều PDF: trả về lỗi có cấu trúc trong
details.error = "too_many_pdfs" - Lược đồ tham chiếu không được hỗ trợ: trả về
details.error = "unsupported_pdf_reference" - Chế độ gốc với
pages: ném lỗi rõ ràngpages is not supported with native PDF providers
Ví dụ
Một PDF:Liên quan
- Tổng quan công cụ — tất cả công cụ tác nhân khả dụng
- Tham chiếu cấu hình — cấu hình pdfMaxBytesMb và pdfMaxPages