Vai al contenuto principale

Generazione e comprensione dei media

OpenClaw genera immagini, video e musica, comprende i media in ingresso (immagini, audio, video) e riproduce ad alta voce le risposte con la sintesi vocale. Tutte le funzionalità media sono guidate da strumenti: l’agente decide quando usarle in base alla conversazione, e ogni strumento compare solo quando è configurato almeno un provider di supporto.

Funzionalità in sintesi

CapabilityToolProvidersWhat it does
Generazione di immaginiimage_generateComfyUI, fal, Google, MiniMax, OpenAI, VydraCrea o modifica immagini da prompt di testo o riferimenti
Generazione videovideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAICrea video da testo, immagini o video esistenti
Generazione musicalemusic_generateComfyUI, Google, MiniMaxCrea musica o tracce audio da prompt di testo
Sintesi vocale (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIConverte le risposte in uscita in audio parlato
Comprensione dei media(automatica)Qualsiasi provider di modelli con capacità vision/audio, più fallback CLIRiassume immagini, audio e video in ingresso

Matrice delle capacità dei provider

Questa tabella mostra quali provider supportano quali funzionalità media nella piattaforma.
ProviderImmagineVideoMusicaTTSSTT / TrascrizioneComprensione dei media
Alibaba
BytePlus
ComfyUI
Deepgram
ElevenLabs
fal
Google
Microsoft
MiniMax
OpenAI
Qwen
Runway
Together
Vydra
xAI
La comprensione dei media usa qualsiasi modello con capacità vision o audio registrato nella configurazione del provider. La tabella sopra evidenzia i provider con supporto dedicato alla comprensione dei media; la maggior parte dei provider LLM con modelli multimodali (Anthropic, Google, OpenAI, ecc.) può anche comprendere i media in ingresso quando è configurata come modello di risposta attivo.

Come funziona la generazione asincrona

La generazione di video e musica viene eseguita come attività in background perché l’elaborazione del provider richiede in genere da 30 secondi a diversi minuti. Quando l’agente chiama video_generate o music_generate, OpenClaw invia la richiesta al provider, restituisce immediatamente un ID attività e tiene traccia del job nel registro delle attività. L’agente continua a rispondere ad altri messaggi mentre il job è in esecuzione. Quando il provider completa l’elaborazione, OpenClaw riattiva l’agente così può pubblicare il media completato nel canale originale. La generazione di immagini e TTS sono sincrone e si completano inline con la risposta.