Passer au contenu principal

Génération et compréhension des médias

OpenClaw génère des images, des vidéos et de la musique, comprend les médias entrants (images, audio, vidéo) et lit les réponses à voix haute avec la synthèse vocale. Toutes les capacités multimédias sont pilotées par des outils : l’agent décide quand les utiliser en fonction de la conversation, et chaque outil n’apparaît que lorsqu’au moins un fournisseur sous-jacent est configuré.

Capacités en un coup d’œil

CapacitéOutilFournisseursCe qu’il fait
Génération d’imagesimage_generateComfyUI, fal, Google, MiniMax, OpenAI, VydraCrée ou modifie des images à partir de prompts textuels ou de références
Génération vidéovideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAICrée des vidéos à partir de texte, d’images ou de vidéos existantes
Génération musicalemusic_generateComfyUI, Google, MiniMaxCrée de la musique ou des pistes audio à partir de prompts textuels
Synthèse vocale (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIConvertit les réponses sortantes en audio parlé
Compréhension des médias(automatique)Tout fournisseur de modèles compatible vision/audio, ainsi que des solutions de repli CLIRésume les images, l’audio et la vidéo entrants

Matrice des capacités des fournisseurs

Ce tableau montre quels fournisseurs prennent en charge quelles capacités multimédias sur l’ensemble de la plateforme.
FournisseurImageVidéoMusiqueTTSSTT / TranscriptionCompréhension des médias
AlibabaOui
BytePlusOui
ComfyUIOuiOuiOui
DeepgramOui
ElevenLabsOui
falOuiOui
GoogleOuiOuiOuiOui
MicrosoftOui
MiniMaxOuiOuiOuiOui
OpenAIOuiOuiOuiOuiOui
QwenOui
RunwayOui
TogetherOui
VydraOuiOui
xAIOui
La compréhension des médias utilise tout modèle compatible vision ou audio enregistré dans votre configuration de fournisseur. Le tableau ci-dessus met en évidence les fournisseurs disposant d’une prise en charge dédiée de la compréhension des médias ; la plupart des fournisseurs LLM avec des modèles multimodaux (Anthropic, Google, OpenAI, etc.) peuvent aussi comprendre les médias entrants lorsqu’ils sont configurés comme modèle de réponse actif.

Fonctionnement de la génération asynchrone

La génération vidéo et la génération musicale s’exécutent comme des tâches en arrière-plan, car le traitement côté fournisseur prend généralement de 30 secondes à plusieurs minutes. Lorsque l’agent appelle video_generate ou music_generate, OpenClaw envoie la requête au fournisseur, renvoie immédiatement un id de tâche et suit le travail dans le registre des tâches. L’agent continue de répondre à d’autres messages pendant l’exécution de la tâche. Lorsque le fournisseur a terminé, OpenClaw réactive l’agent afin qu’il puisse publier le média finalisé dans le canal d’origine. La génération d’images et le TTS sont synchrones et se terminent directement dans la réponse.

Liens rapides