Saltar al contenido principal

Generación y comprensión de medios

OpenClaw genera imágenes, videos y música, comprende medios entrantes (imágenes, audio, video) y reproduce respuestas en voz alta con conversión de texto a voz. Todas las capacidades de medios están controladas por herramientas: el agente decide cuándo usarlas según la conversación, y cada herramienta solo aparece cuando hay al menos un proveedor de respaldo configurado.

Capacidades de un vistazo

CapacidadHerramientaProveedoresQué hace
Generación de imágenesimage_generateComfyUI, fal, Google, MiniMax, OpenAI, VydraCrea o edita imágenes a partir de prompts de texto o referencias
Generación de videovideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAICrea videos a partir de texto, imágenes o videos existentes
Generación de músicamusic_generateComfyUI, Google, MiniMaxCrea música o pistas de audio a partir de prompts de texto
Conversión de texto a voz (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIConvierte respuestas salientes en audio hablado
Comprensión de medios(automática)Cualquier proveedor de modelos con capacidad de visión/audio, además de respaldos de CLIResume imágenes, audio y video entrantes

Matriz de capacidades por proveedor

Esta tabla muestra qué proveedores admiten qué capacidades de medios en toda la plataforma.
ProveedorImagenVideoMúsicaTTSSTT / transcripciónComprensión de medios
Alibaba
BytePlus
ComfyUI
Deepgram
ElevenLabs
fal
Google
Microsoft
MiniMax
OpenAI
Qwen
Runway
Together
Vydra
xAI
La comprensión de medios usa cualquier modelo con capacidad de visión o audio registrado en la configuración de tu proveedor. La tabla anterior destaca proveedores con soporte dedicado para comprensión de medios; la mayoría de los proveedores de LLM con modelos multimodales (Anthropic, Google, OpenAI, etc.) también pueden comprender medios entrantes cuando están configurados como el modelo de respuesta activo.

Cómo funciona la generación asíncrona

La generación de video y música se ejecuta como tareas en segundo plano porque el procesamiento del proveedor suele tardar entre 30 segundos y varios minutos. Cuando el agente llama a video_generate o music_generate, OpenClaw envía la solicitud al proveedor, devuelve de inmediato un id de tarea y hace seguimiento del trabajo en el registro de tareas. El agente sigue respondiendo a otros mensajes mientras el trabajo se ejecuta. Cuando el proveedor termina, OpenClaw reactiva al agente para que pueda publicar el medio terminado en el canal original. La generación de imágenes y TTS son síncronas y se completan en línea con la respuesta.

Enlaces rápidos