OpenClaw genereert afbeeldingen, video’s en muziek, begrijpt inkomende media (afbeeldingen, audio, video) en spreekt antwoorden hardop uit met tekst-naar-spraak. Alle mediamogelijkheden zijn toolgestuurd: de agent beslist op basis van het gesprek wanneer hij ze gebruikt, en elke tool verschijnt alleen wanneer er ten minste één achterliggende provider is geconfigureerd.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
Mogelijkheden
Afbeeldingen genereren
Maak en bewerk afbeeldingen op basis van tekstprompts of referentieafbeeldingen via
image_generate. Synchroon — wordt inline met het antwoord voltooid.Video genereren
Tekst-naar-video, afbeelding-naar-video en video-naar-video via
video_generate.
Asynchroon — draait op de achtergrond en plaatst het resultaat zodra het klaar is.Muziek genereren
Genereer muziek of audiotracks via
music_generate. Asynchroon bij gedeelde
providers; het ComfyUI-workflowpad draait synchroon.Tekst-naar-spraak
Zet uitgaande antwoorden om naar gesproken audio via de
tts-tool plus
messages.tts-configuratie. Synchroon.Mediabegrip
Vat inkomende afbeeldingen, audio en video samen met modelproviders
met vision-mogelijkheden en speciale plugins voor mediabegrip.
Spraak-naar-tekst
Transcribeer inkomende spraakberichten via batch-STT of providers voor streaming-STT
voor spraakoproepen.
Matrix met providermogelijkheden
| Provider | Afbeelding | Video | Muziek | TTS | STT | Realtime-spraak | Mediabegrip |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | |||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Mediabegrip gebruikt elk vision- of audiogeschikt model dat in je providerconfiguratie
is geregistreerd. De matrix hierboven vermeldt providers met speciale
ondersteuning voor mediabegrip; de meeste multimodale LLM-providers (Anthropic, Google,
OpenAI, enz.) kunnen ook inkomende media begrijpen wanneer ze zijn geconfigureerd als het actieve
antwoordmodel.
Asynchroon versus synchroon
| Mogelijkheid | Modus | Waarom |
|---|---|---|
| Afbeelding | Synchroon | Providerantwoorden komen binnen seconden terug; wordt inline met het antwoord voltooid. |
| Tekst-naar-spraak | Synchroon | Providerantwoorden komen binnen seconden terug; gekoppeld aan de antwoordaudio. |
| Video | Asynchroon | Providerverwerking duurt 30 s tot enkele minuten. |
| Muziek (gedeeld) | Asynchroon | Zelfde providerverwerkingskenmerk als video. |
| Muziek (ComfyUI) | Synchroon | Lokale workflow draait inline tegen de geconfigureerde ComfyUI-server. |
Spraak-naar-tekst en spraakoproep
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio en xAI kunnen allemaal inkomende audio transcriberen via het batchpadtools.media.audio wanneer dit is geconfigureerd.
Kanaalplugins die een spraaknotitie vooraf controleren voor mention-gating of opdrachtparsing
markeren de getranscribeerde bijlage op de inkomende context, zodat de gedeelde
mediabegripstap dat transcript hergebruikt in plaats van een tweede
STT-aanroep te doen voor dezelfde audio.
Deepgram, ElevenLabs, Mistral, OpenAI en xAI registreren ook providers voor
streaming-STT voor spraakoproepen, zodat live telefoonaudio kan worden doorgestuurd naar de geselecteerde
leverancier zonder te wachten op een voltooide opname.
Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)
Google
Oppervlakken voor afbeeldingen, video, muziek, batch-TTS, realtime-spraak in de backend en
mediabegrip.
OpenAI
OpenAI
Oppervlakken voor afbeeldingen, video, batch-TTS, batch-STT, streaming-STT voor spraakoproepen, realtime-spraak in de backend
en geheugen-embeddings.
DeepInfra
DeepInfra
Oppervlakken voor chat/modelroutering, afbeeldingen genereren/bewerken, tekst-naar-video, batch-TTS,
batch-STT, beeldmediabegrip en geheugen-embeddings.
DeepInfra-native modellen voor reranking/classificatie/objectdetectie worden pas
geregistreerd zodra OpenClaw speciale providercontracten voor die
categorieën heeft.
xAI
xAI
Afbeeldingen, video, zoeken, code-uitvoering, batch-TTS, batch-STT en streaming-STT voor spraakoproepen.
xAI Realtime-spraak is een upstream-mogelijkheid, maar wordt
niet in OpenClaw geregistreerd totdat het gedeelde realtime-spraakcontract deze kan
weergeven.