OpenClaw, yanıt işlem hattı çalışmadan önce gelen medyayı özetleyebilir (görsel/ses/video). Yerel araçlar veya sağlayıcı anahtarları kullanılabilir olduğunda otomatik algılar ve devre dışı bırakılabilir ya da özelleştirilebilir. Anlama kapalıysa modeller yine özgün dosyaları/URL’leri her zamanki gibi alır. Tedarikçiye özgü medya davranışı tedarikçi Plugin’leri tarafından kaydedilirken, OpenClaw çekirdeği paylaşılanDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media yapılandırmasına, geri dönüş sırasına ve yanıt işlem hattı entegrasyonuna sahip olur.
Hedefler
- İsteğe bağlı: gelen medyayı daha hızlı yönlendirme + daha iyi komut ayrıştırma için kısa metne önceden sindirme.
- Özgün medya teslimini modele koruma (her zaman).
- Sağlayıcı API’lerini ve CLI geri dönüşlerini destekleme.
- Sıralı geri dönüşlü birden çok modele izin verme (hata/boyut/zaman aşımı).
Üst düzey davranış
Yetenek başına seç
Etkinleştirilmiş her yetenek (görsel/ses/video) için ekleri ilkeye göre seç (varsayılan: ilk).
Yapılandırma özeti
tools.media, paylaşılan modelleri ve yetenek başına geçersiz kılmaları destekler:
Üst düzey anahtarlar
Üst düzey anahtarlar
tools.media.models: paylaşılan model listesi (kapılama içincapabilitieskullanın).tools.media.image/tools.media.audio/tools.media.video:- varsayılanlar (
prompt,maxChars,maxBytes,timeoutSeconds,language) - sağlayıcı geçersiz kılmaları (
baseUrl,headers,providerOptions) tools.media.audio.providerOptions.deepgramüzerinden Deepgram ses seçenekleri- ses dökümü yankı denetimleri (
echoTranscript, varsayılanfalse;echoFormat) - isteğe bağlı yetenek başına
modelslistesi (paylaşılan modellerden önce tercih edilir) attachmentsilkesi (mode,maxAttachments,prefer)scope(kanal/chatType/oturum anahtarına göre isteğe bağlı kapılama)
- varsayılanlar (
tools.media.concurrency: eşzamanlı en fazla yetenek çalıştırma sayısı (varsayılan 2).
Model girdileri
Hermodels[] girdisi sağlayıcı veya CLI olabilir:
- Sağlayıcı girdisi
- CLI girdisi
Varsayılanlar ve sınırlar
Önerilen varsayılanlar:maxChars: görsel/video için 500 (kısa, komut dostu)maxChars: ses için ayarlanmamış (siz bir sınır belirlemezseniz tam döküm)maxBytes:- görsel: 10MB
- ses: 20MB
- video: 50MB
Kurallar
Kurallar
- Medya
maxBytesdeğerini aşarsa o model atlanır ve sonraki model denenir. - 1024 bayttan küçük ses dosyaları boş/bozuk kabul edilir ve sağlayıcı/CLI dökümünden önce atlanır; gelen yanıt bağlamı, ajanın notun çok küçük olduğunu bilmesi için deterministik bir yer tutucu döküm alır.
- Model
maxCharsdeğerinden fazlasını döndürürse çıktı kırpılır. promptvarsayılanı, basit “Describe the .” ifadesi vemaxCharskılavuzudur (yalnızca görsel/video).- Etkin birincil görsel modeli zaten yerel olarak görmeyi destekliyorsa OpenClaw
[Image]özet bloğunu atlar ve bunun yerine özgün görseli modele geçirir. - Gateway/WebChat birincil modeli yalnızca metinse görsel ekleri, eki kaybetmek yerine görsel/PDF araçları veya yapılandırılmış görsel modelin bunları hâlâ inceleyebilmesi için dışa aktarılmış
media://inbound/*referansları olarak korunur. - Açık
openclaw infer image describe --model <provider/model>istekleri farklıdır:ollama/qwen2.5vl:7bgibi Ollama referansları dahil olmak üzere o görsel yetenekli sağlayıcı/modeli doğrudan çalıştırırlar. <capability>.enabled: trueise ancak hiçbir model yapılandırılmamışsa OpenClaw, sağlayıcısı yeteneği desteklediğinde etkin yanıt modelini dener.
Medya anlamayı otomatik algılama (varsayılan)
tools.media.<capability>.enabled false olarak ayarlanmamışsa ve model yapılandırmadıysanız OpenClaw bu sırayla otomatik algılar ve ilk çalışan seçenekte durur:
agents.defaults.imageModel
agents.defaults.imageModel birincil/geri dönüş referansları (yalnızca görsel).
provider/model referanslarını tercih edin. Çıplak referanslar, yalnızca eşleşme benzersiz olduğunda yapılandırılmış görsel yetenekli sağlayıcı model girdilerinden nitelendirilir.Yerel CLI'lar (yalnızca ses)
Yerel CLI’lar (kuruluysa):
sherpa-onnx-offline(encoder/decoder/joiner/tokens içerenSHERPA_ONNX_MODEL_DIRgerektirir)whisper-cli(whisper-cpp;WHISPER_CPP_MODELveya paketlenmiş tiny modeli kullanır)whisper(Python CLI; modelleri otomatik indirir)
Sağlayıcı kimlik doğrulaması
- Yeteneği destekleyen yapılandırılmış
models.providers.*girdileri, paketlenmiş geri dönüş sırasından önce denenir. - Görsel yetenekli bir modele sahip yalnızca görsel yapılandırma sağlayıcıları, paketlenmiş bir tedarikçi Plugin’i olmadıklarında bile medya anlama için otomatik kaydolur.
- Ollama görsel anlama, örneğin
agents.defaults.imageModelveyaopenclaw infer image describe --model ollama/<vision-model>üzerinden açıkça seçildiğinde kullanılabilir.
- Ses: OpenAI → Groq → xAI → Deepgram → OpenRouter → Google → SenseAudio → ElevenLabs → Mistral
- Görsel: OpenAI → Anthropic → Google → MiniMax → MiniMax Portal → Z.AI
- Video: Google → Qwen → Moonshot
İkili algılama macOS/Linux/Windows genelinde en iyi çabayla yapılır; CLI’ın
PATH üzerinde olduğundan emin olun (~ genişletilir) veya tam komut yoluyla açık bir CLI modeli ayarlayın.Proxy ortam desteği (sağlayıcı modelleri)
Sağlayıcı tabanlı ses ve video medya anlama etkinleştirildiğinde OpenClaw, sağlayıcı HTTP çağrıları için standart giden proxy ortam değişkenlerini dikkate alır:HTTPS_PROXYHTTP_PROXYALL_PROXYhttps_proxyhttp_proxyall_proxy
Yetenekler (isteğe bağlı)
capabilities ayarlarsanız girdi yalnızca bu medya türleri için çalışır. Paylaşılan listeler için OpenClaw varsayılanları çıkarabilir:
openai,anthropic,minimax: görselminimax-portal: görselmoonshot: görsel + videoopenrouter: görsel + sesgoogle(Gemini API): görsel + ses + videoqwen: görsel + videomistral: seszai: görselgroq: sesxai: sesdeepgram: ses- Görsel yetenekli bir modele sahip herhangi bir
models.providers.<id>.models[]kataloğu: görsel
capabilities değerini açıkça ayarlayın. capabilities atlarsanız girdi, içinde göründüğü liste için uygundur.
Sağlayıcı destek matrisi (OpenClaw entegrasyonları)
| Yetenek | Sağlayıcı entegrasyonu | Notlar |
|---|---|---|
| Görsel | OpenAI, OpenAI Codex OAuth, Codex app-server, OpenRouter, Anthropic, Google, MiniMax, Moonshot, Qwen, Z.AI, yapılandırma sağlayıcıları | Tedarikçi Plugin’leri görsel desteği kaydeder; openai-codex/* OAuth sağlayıcı tesisatını kullanır; codex/* sınırlı bir Codex app-server turu kullanır; MiniMax ve MiniMax OAuth ikisi de MiniMax-VL-01 kullanır; görsel yetenekli yapılandırma sağlayıcıları otomatik kaydolur. |
| Ses | OpenAI, Groq, xAI, Deepgram, OpenRouter, Google, SenseAudio, ElevenLabs, Mistral | Sağlayıcı dökümü (Whisper/Groq/xAI/Deepgram/OpenRouter STT/Gemini/SenseAudio/Scribe/Voxtral). |
| Video | Google, Qwen, Moonshot | Tedarikçi Plugin’leri üzerinden sağlayıcı video anlama; Qwen video anlama Standard DashScope uç noktalarını kullanır. |
MiniMax notu
minimaxveminimax-portalgörsel anlama, Plugin’in sahip olduğuMiniMax-VL-01medya sağlayıcısından gelir.- Paketlenmiş MiniMax metin kataloğu hâlâ yalnızca metinle başlar; açık
models.providers.minimaxgirdileri görsel yetenekli M2.7 sohbet referansları oluşturur.
Model seçimi kılavuzu
- Kalite ve güvenlik önemli olduğunda her medya yeteneği için kullanılabilir en güçlü en yeni nesil modeli tercih edin.
- Güvenilmeyen girdileri işleyen araç etkin ajanlar için eski/daha zayıf medya modellerinden kaçının.
- Kullanılabilirlik için yetenek başına en az bir geri dönüş tutun (kalite modeli + daha hızlı/daha ucuz model).
- CLI geri dönüşleri (
whisper-cli,whisper,gemini), sağlayıcı API’leri kullanılamadığında yararlıdır. parakeet-mlxnotu:--output-dirile, çıktı biçimitxtolduğunda (veya belirtilmediğinde) OpenClaw<output-dir>/<media-basename>.txtokur;txtolmayan biçimler stdout’a geri döner.
Ek ilkesi
Yetenek başınaattachments, hangi eklerin işleneceğini denetler:
İlk seçilen eki mi yoksa tümünü mü işleyeceğini belirler.
İşlenen sayıyı sınırlar.
Aday ekler arasındaki seçim tercihi.
mode: "all" olduğunda çıktılar [Image 1/2], [Audio 2/2] vb. olarak etiketlenir.
Dosya eki çıkarma davranışı
Dosya eki çıkarma davranışı
- Çıkarılan dosya metni, medya istemine eklenmeden önce güvenilmeyen harici içerik olarak sarmalanır.
- Enjekte edilen blok
<<<EXTERNAL_UNTRUSTED_CONTENT id="...">>>/<<<END_EXTERNAL_UNTRUSTED_CONTENT id="...">>>gibi açık sınır işaretleyicileri kullanır ve birSource: Externalmeta veri satırı içerir. - Bu ek çıkarma yolu, medya istemini şişirmemek için uzun
SECURITY NOTICE:başlığını bilinçli olarak atlar; sınır işaretleyicileri ve meta veriler yine de kalır. - Bir dosyada çıkarılabilir metin yoksa OpenClaw
[No extractable text]enjekte eder. - Bir PDF bu yolda işlenmiş sayfa görüntülerine geri dönerse medya istemi
[PDF content rendered to images; images not forwarded to model]yer tutucusunu korur, çünkü bu ek çıkarma adımı işlenmiş PDF görüntülerini değil metin bloklarını iletir.
Yapılandırma örnekleri
- Paylaşılan modeller + geçersiz kılmalar
- Yalnızca ses + video
- Yalnızca görüntü
- Çok modlu tek giriş
Durum çıktısı
Medya anlama çalıştığında/status kısa bir özet satırı içerir:
Notlar
- Anlama en iyi çaba ilkesine göre çalışır. Hatalar yanıtları engellemez.
- Anlama devre dışı olsa bile ekler modellere aktarılmaya devam eder.
- Anlamanın nerede çalışacağını sınırlamak için
scopekullanın (ör. yalnızca DM’ler).