OpenClaw dapat merangkum media masuk (gambar/audio/video) sebelum alur balasan berjalan. OpenClaw mendeteksi otomatis saat alat lokal atau kunci penyedia tersedia, dan dapat dinonaktifkan atau disesuaikan. Jika pemahaman dinonaktifkan, model tetap menerima file/URL asli seperti biasa. Perilaku media khusus vendor didaftarkan oleh plugin vendor, sementara inti OpenClaw memiliki konfigurasi bersamaDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media, urutan fallback, dan integrasi alur balasan.
Tujuan
- Opsional: cerna awal media masuk menjadi teks pendek untuk perutean lebih cepat + parsing perintah yang lebih baik.
- Pertahankan pengiriman media asli ke model (selalu).
- Mendukung API penyedia dan fallback CLI.
- Mengizinkan beberapa model dengan fallback berurutan (kesalahan/ukuran/batas waktu).
Perilaku tingkat tinggi
Select per-capability
Untuk setiap kapabilitas yang diaktifkan (gambar/audio/video), pilih lampiran sesuai kebijakan (default: pertama).
Ikhtisar konfigurasi
tools.media mendukung model bersama plus override per kapabilitas:
Top-level keys
Top-level keys
tools.media.models: daftar model bersama (gunakancapabilitiesuntuk membatasi).tools.media.image/tools.media.audio/tools.media.video:- default (
prompt,maxChars,maxBytes,timeoutSeconds,language) - override penyedia (
baseUrl,headers,providerOptions) - opsi audio Deepgram melalui
tools.media.audio.providerOptions.deepgram - kontrol echo transkrip audio (
echoTranscript, defaultfalse;echoFormat) - daftar
modelsper kapabilitas opsional (diprioritaskan sebelum model bersama) - kebijakan
attachments(mode,maxAttachments,prefer) scope(pembatasan opsional berdasarkan channel/chatType/kunci sesi)
- default (
tools.media.concurrency: jumlah maksimum proses kapabilitas serentak (default 2).
Entri model
Setiap entrimodels[] dapat berupa penyedia atau CLI:
- Provider entry
- CLI entry
Default dan batas
Default yang direkomendasikan:maxChars: 500 untuk gambar/video (singkat, ramah perintah)maxChars: tidak disetel untuk audio (transkrip lengkap kecuali Anda menetapkan batas)maxBytes:- gambar: 10MB
- audio: 20MB
- video: 50MB
Rules
Rules
- Jika media melebihi
maxBytes, model tersebut dilewati dan model berikutnya dicoba. - File audio yang lebih kecil dari 1024 byte dianggap kosong/rusak dan dilewati sebelum transkripsi penyedia/CLI; konteks balasan masuk menerima transkrip placeholder deterministik agar agen tahu catatan tersebut terlalu kecil.
- Jika model mengembalikan lebih dari
maxChars, keluaran dipangkas. promptdefault ke โDescribe the .โ sederhana ditambah panduanmaxChars(hanya gambar/video).- Jika model gambar utama aktif sudah mendukung vision secara native, OpenClaw melewati blok ringkasan
[Image]dan meneruskan gambar asli ke model. - Jika model utama Gateway/WebChat hanya teks, lampiran gambar dipertahankan sebagai ref
media://inbound/*yang dioffload sehingga alat gambar/PDF atau model gambar yang dikonfigurasi tetap dapat memeriksanya alih-alih kehilangan lampiran. - Permintaan eksplisit
openclaw infer image describe --model <provider/model>berbeda: permintaan tersebut menjalankan penyedia/model berkapabilitas gambar secara langsung, termasuk ref Ollama sepertiollama/qwen2.5vl:7b. - Jika
<capability>.enabled: truetetapi tidak ada model yang dikonfigurasi, OpenClaw mencoba model balasan aktif saat penyedianya mendukung kapabilitas tersebut.
Deteksi otomatis pemahaman media (default)
Jikatools.media.<capability>.enabled tidak disetel ke false dan Anda belum mengonfigurasi model, OpenClaw mendeteksi otomatis dalam urutan ini dan berhenti pada opsi pertama yang berfungsi:
agents.defaults.imageModel
Ref utama/fallback
agents.defaults.imageModel (hanya gambar).
Lebih pilih ref provider/model. Ref polos dikualifikasi dari entri model penyedia berkapabilitas gambar yang dikonfigurasi hanya jika kecocokannya unik.Local CLIs (audio only)
CLI lokal (jika terinstal):
sherpa-onnx-offline(memerlukanSHERPA_ONNX_MODEL_DIRdengan encoder/decoder/joiner/tokens)whisper-cli(whisper-cpp; menggunakanWHISPER_CPP_MODELatau model tiny bawaan)whisper(CLI Python; mengunduh model secara otomatis)
Provider auth
- Entri
models.providers.*yang dikonfigurasi dan mendukung kapabilitas dicoba sebelum urutan fallback bawaan. - Penyedia konfigurasi khusus gambar dengan model berkapabilitas gambar didaftarkan otomatis untuk pemahaman media meskipun bukan plugin vendor bawaan.
- Pemahaman gambar Ollama tersedia saat dipilih secara eksplisit, misalnya melalui
agents.defaults.imageModelatauopenclaw infer image describe --model ollama/<vision-model>.
- Audio: OpenAI โ Groq โ xAI โ Deepgram โ OpenRouter โ Google โ SenseAudio โ ElevenLabs โ Mistral
- Gambar: OpenAI โ Anthropic โ Google โ MiniMax โ MiniMax Portal โ Z.AI
- Video: Google โ Qwen โ Moonshot
Deteksi biner bersifat upaya-terbaik lintas macOS/Linux/Windows; pastikan CLI ada di
PATH (kami memperluas ~), atau setel model CLI eksplisit dengan path perintah lengkap.Dukungan lingkungan proxy (model penyedia)
Saat pemahaman media audio dan video berbasis penyedia diaktifkan, OpenClaw menghormati variabel lingkungan proxy keluar standar untuk panggilan HTTP penyedia:HTTPS_PROXYHTTP_PROXYALL_PROXYhttps_proxyhttp_proxyall_proxy
Kapabilitas (opsional)
Jika Anda menyetelcapabilities, entri hanya berjalan untuk jenis media tersebut. Untuk daftar bersama, OpenClaw dapat menyimpulkan default:
openai,anthropic,minimax: gambarminimax-portal: gambarmoonshot: gambar + videoopenrouter: gambar + audiogoogle(Gemini API): gambar + audio + videoqwen: gambar + videomistral: audiozai: gambargroq: audioxai: audiodeepgram: audio- Katalog
models.providers.<id>.models[]apa pun dengan model berkapabilitas gambar: gambar
capabilities secara eksplisit untuk menghindari kecocokan yang mengejutkan. Jika Anda menghilangkan capabilities, entri memenuhi syarat untuk daftar tempat entri itu muncul.
Matriks dukungan penyedia (integrasi OpenClaw)
| Kapabilitas | Integrasi penyedia | Catatan |
|---|---|---|
| Gambar | OpenAI, OpenAI Codex OAuth, Codex app-server, OpenRouter, Anthropic, Google, MiniMax, Moonshot, Qwen, Z.AI, penyedia konfigurasi | Plugin vendor mendaftarkan dukungan gambar; openai-codex/* menggunakan plumbing penyedia OAuth; codex/* menggunakan giliran Codex app-server terbatas; MiniMax dan MiniMax OAuth sama-sama menggunakan MiniMax-VL-01; penyedia konfigurasi berkapabilitas gambar didaftarkan otomatis. |
| Audio | OpenAI, Groq, xAI, Deepgram, OpenRouter, Google, SenseAudio, ElevenLabs, Mistral | Transkripsi penyedia (Whisper/Groq/xAI/Deepgram/OpenRouter STT/Gemini/SenseAudio/Scribe/Voxtral). |
| Video | Google, Qwen, Moonshot | Pemahaman video penyedia melalui plugin vendor; pemahaman video Qwen menggunakan endpoint Standard DashScope. |
Catatan MiniMax
- Pemahaman gambar
minimaxdanminimax-portalberasal dari penyedia mediaMiniMax-VL-01milik plugin. - Katalog teks MiniMax bawaan tetap dimulai sebagai hanya teks; entri eksplisit
models.providers.minimaxmematerialisasi ref chat M2.7 berkapabilitas gambar.
Panduan pemilihan model
- Lebih pilih model generasi terbaru terkuat yang tersedia untuk setiap kapabilitas media saat kualitas dan keamanan penting.
- Untuk agen berkemampuan alat yang menangani input tidak tepercaya, hindari model media yang lebih lama/lebih lemah.
- Pertahankan setidaknya satu fallback per kapabilitas untuk ketersediaan (model berkualitas + model lebih cepat/lebih murah).
- Fallback CLI (
whisper-cli,whisper,gemini) berguna saat API penyedia tidak tersedia. - Catatan
parakeet-mlx: dengan--output-dir, OpenClaw membaca<output-dir>/<media-basename>.txtsaat format output adalahtxt(atau tidak ditentukan); format non-txtfallback ke stdout.
Kebijakan lampiran
attachments per kapabilitas mengontrol lampiran mana yang diproses:
Apakah akan memproses lampiran terpilih pertama atau semuanya.
Batasi jumlah yang diproses.
Preferensi pemilihan di antara lampiran kandidat.
mode: "all", keluaran diberi label [Image 1/2], [Audio 2/2], dll.
File-attachment extraction behavior
File-attachment extraction behavior
- Teks file yang diekstrak dibungkus sebagai konten eksternal tidak tepercaya sebelum ditambahkan ke prompt media.
- Blok yang disisipkan menggunakan penanda batas eksplisit seperti
<<<EXTERNAL_UNTRUSTED_CONTENT id="...">>>/<<<END_EXTERNAL_UNTRUSTED_CONTENT id="...">>>dan menyertakan baris metadataSource: External. - Jalur ekstraksi lampiran ini sengaja menghilangkan banner panjang
SECURITY NOTICE:agar prompt media tidak membengkak; penanda batas dan metadata tetap ada. - Jika file tidak memiliki teks yang dapat diekstrak, OpenClaw menyisipkan
[No extractable text]. - Jika PDF fallback ke gambar halaman yang dirender di jalur ini, prompt media mempertahankan placeholder
[PDF content rendered to images; images not forwarded to model]karena langkah ekstraksi lampiran ini meneruskan blok teks, bukan gambar PDF yang dirender.
Contoh konfigurasi
Keluaran status
Saat pemahaman media berjalan,/status menyertakan baris ringkasan singkat:
Catatan
- Pemahaman bersifat upaya terbaik. Error tidak memblokir balasan.
- Lampiran tetap diteruskan ke model meskipun pemahaman dinonaktifkan.
- Gunakan
scopeuntuk membatasi tempat pemahaman berjalan (misalnya hanya DM).