Tools

Mediaoverzicht

OpenClaw genereert afbeeldingen, video's en muziek, begrijpt inkomende media (afbeeldingen, audio, video) en spreekt antwoorden hardop uit met tekst-naar-spraak. Alle mediamogelijkheden worden via tools aangestuurd: de agent bepaalt op basis van het gesprek wanneer deze worden gebruikt, en elke tool verschijnt alleen wanneer ten minste één ondersteunende provider is geconfigureerd.

Live spraak gebruikt het Talk-sessiecontract in plaats van het pad voor eenmalige mediatools. Talk heeft drie modi: provider-native realtime, lokale of streaming stt-tts en transcription voor spraakopname uitsluitend ter observatie. Deze modi delen providercatalogi, event-enveloppen en annuleringssemantiek met telefonie, vergaderingen, browser-realtime en native push-to-talk-clients.

Mogelijkheden

Afbeeldingen genereren

Maak en bewerk afbeeldingen op basis van tekstprompts of referentieafbeeldingen via image_generate. Asynchroon in chatsessies — wordt op de achtergrond uitgevoerd en plaatst het resultaat zodra het gereed is.

Video's genereren

Tekst-naar-video, afbeelding-naar-video en video-naar-video via video_generate. Asynchroon — wordt op de achtergrond uitgevoerd en plaatst het resultaat zodra het gereed is.

Muziek genereren

Genereer muziek of audiotracks via music_generate. Asynchroon in chatsessies binnen de gedeelde taaklevenscyclus voor mediageneratie.

Tekst-naar-spraak

Zet uitgaande antwoorden om in gesproken audio via de tool tts plus de configuratie tts. Synchroon.

Mediabegrip

Vat inkomende afbeeldingen, audio en video samen met modelproviders die visuele invoer ondersteunen en gespecialiseerde plugins voor mediabegrip.

Spraak-naar-tekst

Transcribeer inkomende spraakberichten via batch-STT of streaming-STT-providers voor Voice Call.

Matrix met providermogelijkheden

Provider	Afbeelding	Video	Muziek	TTS	STT	Realtime spraak	Mediabegrip
Alibaba		✓
Azure Speech				✓
BytePlus		✓
ComfyUI	✓	✓	✓
Deepgram					✓
DeepInfra	✓	✓		✓	✓		✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓	✓	✓	✓
Gradium				✓
Inworld				✓
LiteLLM	✓
Lokale CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
PixVerse		✓
Qwen		✓					✓
Runway		✓
SenseAudio					✓
Together		✓
Volcengine				✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo				✓

Asynchroon versus synchroon

Mogelijkheid	Modus	Waarom
Afbeelding	Asynchroon	Providerverwerking kan langer duren dan een chatbeurt; gegenereerde bijlagen gebruiken het gedeelde voltooiingspad.
Tekst-naar-spraak	Synchroon	Providerantwoorden worden binnen enkele seconden geretourneerd en aan de antwoordaudio toegevoegd.
Video	Asynchroon	Providerverwerking duurt 30 s tot enkele minuten; trage wachtrijen kunnen tot de geconfigureerde time-out actief blijven.
Muziek	Asynchroon	Heeft dezelfde providerverwerkingseigenschappen als video.

Voor asynchrone tools dient OpenClaw het verzoek in bij de provider, retourneert het onmiddellijk een taak- id en volgt het de taak in het taaklogboek. De agent blijft op andere berichten reageren terwijl de taak wordt uitgevoerd. Wanneer de provider klaar is, wekt OpenClaw de agent met de paden naar de gegenereerde media, zodat deze de gebruiker via de normale zichtbare antwoordmodus van de sessie kan informeren: automatische aflevering van het definitieve antwoord wanneer dit is geconfigureerd, of message(action="send") wanneer de sessie de berichtentool vereist. Als de sessie van de aanvrager inactief is of het actief wekken mislukt, en er nog gegenereerde media in het voltooiingsantwoord ontbreken, verstuurt OpenClaw een idempotente directe fallback met uitsluitend de ontbrekende media. Media die al via het voltooiingsantwoord zijn afgeleverd, worden niet opnieuw geplaatst.

Spraak-naar-tekst en Voice Call

Deepgram, DeepInfra, ElevenLabs, Google, Groq, Mistral, OpenAI, OpenRouter, SenseAudio en xAI kunnen allemaal inkomende audio via het batchpad tools.media.audio transcriberen wanneer ze zijn geconfigureerd. Kanaalplugins die voorafgaand een spraaknotitie controleren voor vermeldingsfiltering of opdrachtparsing, markeren de getranscribeerde bijlage in de inkomende context, zodat de gedeelde mediabegripsstap dat transcript hergebruikt in plaats van voor dezelfde audio een tweede STT-aanroep uit te voeren.

Deepgram, ElevenLabs, Mistral, OpenAI en xAI registreren ook streaming-STT-providers voor Voice Call, zodat live telefoonaudio naar de geselecteerde leverancier kan worden doorgestuurd zonder op een voltooide opname te wachten.

Gebruik voor live gesprekken met gebruikers bij voorkeur de Talk-modus. Batchaudio- bijlagen blijven op het mediapad; browser-realtime, native push-to-talk, telefonie en vergaderaudio moeten Talk-events en de sessiegebonden catalogi gebruiken die door de Gateway worden geretourneerd.

Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)

Google

Oppervlakken voor afbeeldingen, video, muziek, batch-TTS, batch-STT, backend-realtime spraak en mediabegrip.

OpenAI

Oppervlakken voor afbeeldingen, video, batch-TTS, batch-STT, streaming-STT voor Voice Call, backend- realtime spraak en geheugen-embeddings.

DeepInfra

Oppervlakken voor chat-/modelroutering, het genereren/bewerken van afbeeldingen, tekst-naar-video, batch-TTS, batch-STT, mediabegrip voor afbeeldingen en geheugen-embeddings. DeepInfra biedt ook herrangschikking, classificatie, objectdetectie en andere native modeltypen; OpenClaw heeft nog geen providercontract voor deze categorieën, dus deze plugin registreert ze niet.

xAI

Afbeeldingen, video, zoeken, code-uitvoering, batch-TTS, batch-STT en streaming-STT voor Voice Call. Realtime spraak van xAI is een upstreammogelijkheid, maar wordt niet geregistreerd in OpenClaw totdat het gedeelde contract voor realtime spraak deze kan vertegenwoordigen.

Gerelateerd

Was this useful?