Naar hoofdinhoud gaan

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw genereert afbeeldingen, video’s en muziek, begrijpt inkomende media (afbeeldingen, audio, video) en spreekt antwoorden hardop uit met tekst-naar-spraak. Alle mediamogelijkheden zijn toolgestuurd: de agent beslist op basis van het gesprek wanneer hij ze gebruikt, en elke tool verschijnt alleen wanneer er ten minste één achterliggende provider is geconfigureerd.

Mogelijkheden

Afbeeldingen genereren

Maak en bewerk afbeeldingen op basis van tekstprompts of referentieafbeeldingen via image_generate. Synchroon — wordt inline met het antwoord voltooid.

Video genereren

Tekst-naar-video, afbeelding-naar-video en video-naar-video via video_generate. Asynchroon — draait op de achtergrond en plaatst het resultaat zodra het klaar is.

Muziek genereren

Genereer muziek of audiotracks via music_generate. Asynchroon bij gedeelde providers; het ComfyUI-workflowpad draait synchroon.

Tekst-naar-spraak

Zet uitgaande antwoorden om naar gesproken audio via de tts-tool plus messages.tts-configuratie. Synchroon.

Mediabegrip

Vat inkomende afbeeldingen, audio en video samen met modelproviders met vision-mogelijkheden en speciale plugins voor mediabegrip.

Spraak-naar-tekst

Transcribeer inkomende spraakberichten via batch-STT of providers voor streaming-STT voor spraakoproepen.

Matrix met providermogelijkheden

ProviderAfbeeldingVideoMuziekTTSSTTRealtime-spraakMediabegrip
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo
Mediabegrip gebruikt elk vision- of audiogeschikt model dat in je providerconfiguratie is geregistreerd. De matrix hierboven vermeldt providers met speciale ondersteuning voor mediabegrip; de meeste multimodale LLM-providers (Anthropic, Google, OpenAI, enz.) kunnen ook inkomende media begrijpen wanneer ze zijn geconfigureerd als het actieve antwoordmodel.

Asynchroon versus synchroon

MogelijkheidModusWaarom
AfbeeldingSynchroonProviderantwoorden komen binnen seconden terug; wordt inline met het antwoord voltooid.
Tekst-naar-spraakSynchroonProviderantwoorden komen binnen seconden terug; gekoppeld aan de antwoordaudio.
VideoAsynchroonProviderverwerking duurt 30 s tot enkele minuten.
Muziek (gedeeld)AsynchroonZelfde providerverwerkingskenmerk als video.
Muziek (ComfyUI)SynchroonLokale workflow draait inline tegen de geconfigureerde ComfyUI-server.
Voor asynchrone tools dient OpenClaw de aanvraag in bij de provider, retourneert direct een taak-id en volgt de taak in het taakregister. De agent blijft op andere berichten reageren terwijl de taak draait. Wanneer de provider klaar is, wekt OpenClaw de agent zodat deze de voltooide media terug kan plaatsen in het oorspronkelijke kanaal.

Spraak-naar-tekst en spraakoproep

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio en xAI kunnen allemaal inkomende audio transcriberen via het batchpad tools.media.audio wanneer dit is geconfigureerd. Kanaalplugins die een spraaknotitie vooraf controleren voor mention-gating of opdrachtparsing markeren de getranscribeerde bijlage op de inkomende context, zodat de gedeelde mediabegripstap dat transcript hergebruikt in plaats van een tweede STT-aanroep te doen voor dezelfde audio. Deepgram, ElevenLabs, Mistral, OpenAI en xAI registreren ook providers voor streaming-STT voor spraakoproepen, zodat live telefoonaudio kan worden doorgestuurd naar de geselecteerde leverancier zonder te wachten op een voltooide opname.

Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)

Oppervlakken voor afbeeldingen, video, muziek, batch-TTS, realtime-spraak in de backend en mediabegrip.
Oppervlakken voor afbeeldingen, video, batch-TTS, batch-STT, streaming-STT voor spraakoproepen, realtime-spraak in de backend en geheugen-embeddings.
Oppervlakken voor chat/modelroutering, afbeeldingen genereren/bewerken, tekst-naar-video, batch-TTS, batch-STT, beeldmediabegrip en geheugen-embeddings. DeepInfra-native modellen voor reranking/classificatie/objectdetectie worden pas geregistreerd zodra OpenClaw speciale providercontracten voor die categorieën heeft.
Afbeeldingen, video, zoeken, code-uitvoering, batch-TTS, batch-STT en streaming-STT voor spraakoproepen. xAI Realtime-spraak is een upstream-mogelijkheid, maar wordt niet in OpenClaw geregistreerd totdat het gedeelde realtime-spraakcontract deze kan weergeven.

Gerelateerd