OpenClaw genereert afbeeldingen, video’s en muziek, begrijpt inkomende media (afbeeldingen, audio, video) en spreekt antwoorden hardop uit met tekst-naar-spraak. Alle mediamogelijkheden zijn toolgestuurd: de agent bepaalt op basis van het gesprek wanneer ze worden gebruikt, en elke tool verschijnt alleen wanneer minstens één onderliggende aanbieder is geconfigureerd. Live spraak gebruikt het contract voor Talk-sessies in plaats van het pad voor een eenmalige mediatool. Talk heeft drie modi: provider-nativeDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
realtime, lokaal of streamend
stt-tts, en transcription voor alleen observerende spraakopname. Deze modi
delen aanbiedercatalogi, event-enveloppen en annuleringssemantiek met
telefonie, vergaderingen, browser-realtime en native push-to-talk-clients.
Mogelijkheden
Afbeeldingen genereren
Maak en bewerk afbeeldingen vanuit tekstprompts of referentieafbeeldingen via
image_generate. Synchroon — wordt inline met het antwoord voltooid.Video's genereren
Tekst-naar-video, afbeelding-naar-video en video-naar-video via
video_generate.
Asynchroon — draait op de achtergrond en plaatst het resultaat zodra het klaar is.Muziek genereren
Genereer muziek of audiotracks via
music_generate. Asynchroon bij gedeelde
aanbieders; het ComfyUI-workflowpad draait synchroon.Tekst-naar-spraak
Zet uitgaande antwoorden om naar gesproken audio via de
tts-tool plus
messages.tts-configuratie. Synchroon.Mediabegrip
Vat inkomende afbeeldingen, audio en video samen met modelaanbieders
met vision-mogelijkheden en speciale plugins voor mediabegrip.
Spraak-naar-tekst
Transcribeer inkomende spraakberichten via batch-STT of aanbieders voor
streamende STT voor spraakoproepen.
Mogelijkhedenmatrix per aanbieder
| Aanbieder | Afbeelding | Video | Muziek | TTS | STT | Realtime spraak | Mediabegrip |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Lokale CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | |||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Mediabegrip gebruikt elk model met vision- of audiomogelijkheden dat is geregistreerd
in je providerconfiguratie. De matrix hierboven vermeldt aanbieders met speciale
ondersteuning voor mediabegrip; de meeste multimodale LLM-aanbieders (Anthropic, Google,
OpenAI, enz.) kunnen ook inkomende media begrijpen wanneer ze zijn geconfigureerd als het actieve
antwoordmodel.
Asynchroon versus synchroon
| Mogelijkheid | Modus | Waarom |
|---|---|---|
| Afbeelding | Synchroon | Antwoorden van de aanbieder komen binnen enkele seconden terug; wordt inline met het antwoord voltooid. |
| Tekst-naar-spraak | Synchroon | Antwoorden van de aanbieder komen binnen enkele seconden terug; gekoppeld aan de antwoordaudio. |
| Video | Asynchroon | Verwerking door de aanbieder duurt 30 s tot enkele minuten; trage wachtrijen kunnen doorlopen tot de geconfigureerde time-out. |
| Muziek (gedeeld) | Asynchroon | Dezelfde verwerkingskenmerken bij de aanbieder als video. |
| Muziek (ComfyUI) | Synchroon | Lokale workflow draait inline tegen de geconfigureerde ComfyUI-server. |
Spraak-naar-tekst en spraakoproep
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio en xAI kunnen allemaal inkomende audio transcriberen via het batchpadtools.media.audio wanneer dit is geconfigureerd.
Kanaalplugins die een spraaknotitie vooraf controleren voor mention-gating of commandoparsing
markeren de getranscribeerde bijlage op de inkomende context, zodat de gedeelde
mediabegripstap dat transcript opnieuw gebruikt in plaats van een tweede
STT-aanroep voor dezelfde audio te doen.
Deepgram, ElevenLabs, Mistral, OpenAI en xAI registreren ook aanbieders voor
streamende STT voor spraakoproepen, zodat live telefoonaudio naar de geselecteerde
leverancier kan worden doorgestuurd zonder te wachten op een voltooide opname.
Voor live gebruikersgesprekken geef je de voorkeur aan Talk-modus. Batch-audiobijlagen
blijven op het mediapad; browser-realtime, native push-to-talk,
telefonie en vergaderaudio moeten Talk-events en de sessiegebonden
catalogi gebruiken die door de Gateway worden geretourneerd.
Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)
Google
Oppervlakken voor afbeeldingen, video, muziek, batch-TTS, backend-realtime spraak en
mediabegrip.
OpenAI
OpenAI
Oppervlakken voor afbeeldingen, video, batch-TTS, batch-STT, streamende STT voor spraakoproepen,
backend-realtime spraak en geheugen-embeddings.
DeepInfra
DeepInfra
Oppervlakken voor chat-/modelroutering, afbeeldingen genereren/bewerken, tekst-naar-video,
batch-TTS, batch-STT, mediabegrip voor afbeeldingen en geheugen-embeddings.
DeepInfra-native modellen voor herordening/classificatie/objectdetectie worden niet
geregistreerd totdat OpenClaw speciale providercontracten voor die
categorieën heeft.
xAI
xAI
Afbeeldingen, video, zoeken, code-uitvoering, batch-TTS, batch-STT en streamende STT
voor spraakoproepen. xAI Realtime spraak is een upstream-mogelijkheid, maar wordt
niet geregistreerd in OpenClaw totdat het gedeelde contract voor realtime-spraak deze kan
vertegenwoordigen.