OpenClaw có thể tóm tắt phương tiện đến (hình ảnh/âm thanh/video) trước khi pipeline phản hồi chạy. Nó tự động phát hiện khi các công cụ cục bộ hoặc khóa nhà cung cấp có sẵn, và có thể được tắt hoặc tùy chỉnh. Nếu tính năng hiểu bị tắt, các mô hình vẫn nhận các tệp/URL gốc như thường lệ. Hành vi phương tiện riêng theo nhà cung cấp được đăng ký bởi Plugin của nhà cung cấp, trong khi lõi OpenClaw sở hữu cấu hìnhDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media dùng chung, thứ tự dự phòng và tích hợp pipeline phản hồi.
Mục tiêu
- Tùy chọn: tiền xử lý phương tiện đến thành văn bản ngắn để định tuyến nhanh hơn + phân tích lệnh tốt hơn.
- Luôn giữ việc chuyển phương tiện gốc đến mô hình.
- Hỗ trợ API nhà cung cấp và dự phòng CLI.
- Cho phép nhiều mô hình với thứ tự dự phòng (lỗi/kích thước/hết thời gian).
Hành vi cấp cao
Chọn theo từng khả năng
Với mỗi khả năng được bật (hình ảnh/âm thanh/video), chọn tệp đính kèm theo chính sách (mặc định: đầu tiên).
Dự phòng khi thất bại
Nếu một mô hình thất bại hoặc phương tiện quá lớn, chuyển dự phòng sang mục tiếp theo.
Tổng quan cấu hình
tools.media hỗ trợ mô hình dùng chung cộng với ghi đè theo từng khả năng:
Khóa cấp cao nhất
Khóa cấp cao nhất
tools.media.models: danh sách mô hình dùng chung (dùngcapabilitiesđể kiểm soát).tools.media.image/tools.media.audio/tools.media.video:- giá trị mặc định (
prompt,maxChars,maxBytes,timeoutSeconds,language) - ghi đè nhà cung cấp (
baseUrl,headers,providerOptions) - tùy chọn âm thanh Deepgram qua
tools.media.audio.providerOptions.deepgram - điều khiển lặp lại bản chép lời âm thanh (
echoTranscript, mặc địnhfalse;echoFormat) - tùy chọn danh sách
modelstheo từng khả năng (được ưu tiên trước mô hình dùng chung) - chính sách
attachments(mode,maxAttachments,prefer) scope(kiểm soát tùy chọn theo kênh/chatType/khóa phiên)
- giá trị mặc định (
tools.media.concurrency: số lượt chạy khả năng đồng thời tối đa (mặc định 2).
Mục mô hình
Mỗi mụcmodels[] có thể là nhà cung cấp hoặc CLI:
- Mục nhà cung cấp
- Mục CLI
Mặc định và giới hạn
Giá trị mặc định được khuyến nghị:maxChars: 500 cho hình ảnh/video (ngắn, thân thiện với lệnh)maxChars: không đặt cho âm thanh (bản chép lời đầy đủ trừ khi bạn đặt giới hạn)maxBytes:- hình ảnh: 10MB
- âm thanh: 20MB
- video: 50MB
Quy tắc
Quy tắc
- Nếu phương tiện vượt quá
maxBytes, mô hình đó bị bỏ qua và mô hình tiếp theo được thử. - Tệp âm thanh nhỏ hơn 1024 byte được xem là rỗng/hỏng và bị bỏ qua trước khi chép lời bằng nhà cung cấp/CLI; ngữ cảnh phản hồi đến nhận một bản chép lời giữ chỗ xác định để tác nhân biết ghi chú quá nhỏ.
- Nếu mô hình trả về nhiều hơn
maxChars, đầu ra sẽ bị cắt. promptmặc định là câu đơn giản “Describe the .” cộng với hướng dẫnmaxChars(chỉ hình ảnh/video).- Nếu mô hình hình ảnh chính đang hoạt động đã hỗ trợ thị giác nguyên bản, OpenClaw bỏ qua khối tóm tắt
[Image]và thay vào đó truyền hình ảnh gốc vào mô hình. - Nếu mô hình chính Gateway/WebChat chỉ hỗ trợ văn bản, tệp đính kèm hình ảnh được giữ lại dưới dạng tham chiếu
media://inbound/*đã được chuyển ra ngoài để công cụ hình ảnh/PDF hoặc mô hình hình ảnh đã cấu hình vẫn có thể kiểm tra chúng thay vì mất tệp đính kèm. - Yêu cầu
openclaw infer image describe --model <provider/model>rõ ràng thì khác: chúng chạy trực tiếp nhà cung cấp/mô hình có khả năng xử lý hình ảnh đó, bao gồm các tham chiếu Ollama nhưollama/qwen2.5vl:7b. - Nếu
<capability>.enabled: truenhưng không cấu hình mô hình nào, OpenClaw thử mô hình phản hồi đang hoạt động khi nhà cung cấp của nó hỗ trợ khả năng đó.
Tự động phát hiện khả năng hiểu phương tiện (mặc định)
Nếutools.media.<capability>.enabled không được đặt thành false và bạn chưa cấu hình mô hình, OpenClaw tự động phát hiện theo thứ tự này và dừng ở tùy chọn hoạt động đầu tiên:
Mô hình phản hồi đang hoạt động
Mô hình phản hồi đang hoạt động khi nhà cung cấp của nó hỗ trợ khả năng này.
agents.defaults.imageModel
Tham chiếu chính/dự phòng
agents.defaults.imageModel (chỉ hình ảnh).
Ưu tiên tham chiếu provider/model. Tham chiếu trần được xác định từ các mục mô hình nhà cung cấp có khả năng xử lý hình ảnh đã cấu hình chỉ khi kết quả khớp là duy nhất.CLI cục bộ (chỉ âm thanh)
CLI cục bộ (nếu đã cài đặt):
sherpa-onnx-offline(yêu cầuSHERPA_ONNX_MODEL_DIRvới encoder/decoder/joiner/tokens)whisper-cli(whisper-cpp; dùngWHISPER_CPP_MODELhoặc mô hình tiny đi kèm)whisper(CLI Python; tự động tải xuống mô hình)
Xác thực nhà cung cấp
- Các mục
models.providers.*đã cấu hình hỗ trợ khả năng này được thử trước thứ tự dự phòng đi kèm. - Nhà cung cấp cấu hình chỉ hình ảnh có mô hình hỗ trợ hình ảnh sẽ tự động đăng ký cho tính năng hiểu phương tiện ngay cả khi chúng không phải là Plugin nhà cung cấp đi kèm.
- Khả năng hiểu hình ảnh Ollama có sẵn khi được chọn rõ ràng, ví dụ thông qua
agents.defaults.imageModelhoặcopenclaw infer image describe --model ollama/<vision-model>.
- Âm thanh: OpenAI → Groq → xAI → Deepgram → Google → SenseAudio → ElevenLabs → Mistral
- Hình ảnh: OpenAI → Anthropic → Google → MiniMax → MiniMax Portal → Z.AI
- Video: Google → Qwen → Moonshot
Phát hiện nhị phân là nỗ lực tốt nhất trên macOS/Linux/Windows; hãy đảm bảo CLI nằm trên
PATH (chúng tôi mở rộng ~), hoặc đặt một mô hình CLI rõ ràng với đường dẫn lệnh đầy đủ.Hỗ trợ môi trường proxy (mô hình nhà cung cấp)
Khi tính năng hiểu phương tiện âm thanh và video dựa trên nhà cung cấp được bật, OpenClaw tôn trọng các biến môi trường proxy đi ra tiêu chuẩn cho lệnh gọi HTTP đến nhà cung cấp:HTTPS_PROXYHTTP_PROXYALL_PROXYhttps_proxyhttp_proxyall_proxy
Khả năng (tùy chọn)
Nếu bạn đặtcapabilities, mục này chỉ chạy cho các loại phương tiện đó. Với danh sách dùng chung, OpenClaw có thể suy luận mặc định:
openai,anthropic,minimax: hình ảnhminimax-portal: hình ảnhmoonshot: hình ảnh + videoopenrouter: hình ảnhgoogle(Gemini API): hình ảnh + âm thanh + videoqwen: hình ảnh + videomistral: âm thanhzai: hình ảnhgroq: âm thanhxai: âm thanhdeepgram: âm thanh- Bất kỳ danh mục
models.providers.<id>.models[]nào có mô hình hỗ trợ hình ảnh: hình ảnh
capabilities rõ ràng để tránh khớp ngoài ý muốn. Nếu bạn bỏ qua capabilities, mục đó đủ điều kiện cho danh sách mà nó xuất hiện.
Ma trận hỗ trợ nhà cung cấp (tích hợp OpenClaw)
| Khả năng | Tích hợp nhà cung cấp | Ghi chú |
|---|---|---|
| Hình ảnh | OpenAI, OpenAI Codex OAuth, Codex app-server, OpenRouter, Anthropic, Google, MiniMax, Moonshot, Qwen, Z.AI, nhà cung cấp cấu hình | Plugin nhà cung cấp đăng ký hỗ trợ hình ảnh; openai-codex/* dùng cơ chế nhà cung cấp OAuth; codex/* dùng một lượt Codex app-server có giới hạn; MiniMax và MiniMax OAuth đều dùng MiniMax-VL-01; nhà cung cấp cấu hình có khả năng xử lý hình ảnh tự động đăng ký. |
| Âm thanh | OpenAI, Groq, xAI, Deepgram, Google, SenseAudio, ElevenLabs, Mistral | Chép lời bằng nhà cung cấp (Whisper/Groq/xAI/Deepgram/Gemini/SenseAudio/Scribe/Voxtral). |
| Video | Google, Qwen, Moonshot | Hiểu video bằng nhà cung cấp thông qua Plugin nhà cung cấp; khả năng hiểu video của Qwen dùng các endpoint Standard DashScope. |
Ghi chú MiniMax
- Khả năng hiểu hình ảnh của
minimaxvàminimax-portalđến từ nhà cung cấp phương tiệnMiniMax-VL-01do Plugin sở hữu. - Danh mục văn bản MiniMax đi kèm vẫn khởi đầu ở chế độ chỉ văn bản; các mục
models.providers.minimaxrõ ràng sẽ tạo ra tham chiếu chat M2.7 có khả năng xử lý hình ảnh.
Hướng dẫn chọn mô hình
- Ưu tiên mô hình thế hệ mới nhất mạnh nhất có sẵn cho từng khả năng phương tiện khi chất lượng và an toàn là quan trọng.
- Với các tác nhân bật công cụ xử lý đầu vào không đáng tin cậy, tránh các mô hình phương tiện cũ/yếu hơn.
- Giữ ít nhất một dự phòng cho mỗi khả năng để đảm bảo tính sẵn sàng (mô hình chất lượng + mô hình nhanh hơn/rẻ hơn).
- Dự phòng CLI (
whisper-cli,whisper,gemini) hữu ích khi API nhà cung cấp không khả dụng. - Ghi chú
parakeet-mlx: với--output-dir, OpenClaw đọc<output-dir>/<media-basename>.txtkhi định dạng đầu ra làtxt(hoặc không được chỉ định); các định dạng không phảitxtchuyển về stdout.
Chính sách tệp đính kèm
attachments theo từng khả năng kiểm soát tệp đính kèm nào được xử lý:
Xử lý tệp đính kèm đầu tiên được chọn hay tất cả chúng.
Giới hạn số lượng được xử lý.
Tùy chọn lựa chọn giữa các tệp đính kèm ứng viên.
mode: "all", đầu ra được gắn nhãn [Image 1/2], [Audio 2/2], v.v.
Hành vi trích xuất tệp đính kèm
Hành vi trích xuất tệp đính kèm
- Văn bản tệp đã trích xuất được bọc dưới dạng nội dung bên ngoài không đáng tin cậy trước khi được thêm vào lời nhắc media.
- Khối được chèn sử dụng các dấu mốc ranh giới rõ ràng như
<<<EXTERNAL_UNTRUSTED_CONTENT id="...">>>/<<<END_EXTERNAL_UNTRUSTED_CONTENT id="...">>>và bao gồm một dòng siêu dữ liệuSource: External. - Đường dẫn trích xuất tệp đính kèm này cố ý bỏ qua biểu ngữ dài
SECURITY NOTICE:để tránh làm phình to lời nhắc media; các dấu mốc ranh giới và siêu dữ liệu vẫn được giữ lại. - Nếu một tệp không có văn bản nào có thể trích xuất, OpenClaw sẽ chèn
[No extractable text]. - Nếu một PDF chuyển sang dùng ảnh trang đã kết xuất trong đường dẫn này, lời nhắc media giữ phần giữ chỗ
[PDF content rendered to images; images not forwarded to model]vì bước trích xuất tệp đính kèm này chuyển tiếp các khối văn bản, không phải ảnh PDF đã kết xuất.
Ví dụ cấu hình
- Mô hình dùng chung + ghi đè
- Chỉ âm thanh + video
- Chỉ hình ảnh
- Một mục đa phương thức
Đầu ra trạng thái
Khi tính năng hiểu media chạy,/status bao gồm một dòng tóm tắt ngắn:
Ghi chú
- Tính năng hiểu hoạt động theo kiểu nỗ lực tối đa. Lỗi không chặn câu trả lời.
- Tệp đính kèm vẫn được truyền tới mô hình ngay cả khi tính năng hiểu bị tắt.
- Dùng
scopeđể giới hạn nơi tính năng hiểu chạy (ví dụ: chỉ DM).