Pular para o conteúdo principal

Geração e Compreensão de Mídia

O OpenClaw gera imagens, vídeos e música, compreende mídia recebida (imagens, áudio, vídeo) e fala respostas em voz alta com texto para fala. Todos os recursos de mídia são orientados por ferramentas: o agente decide quando usá-los com base na conversa, e cada ferramenta só aparece quando pelo menos um provedor subjacente está configurado.

Recursos em resumo

RecursoFerramentaProvedoresO que faz
Geração de imagemimage_generateComfyUI, fal, Google, MiniMax, OpenAI, VydraCria ou edita imagens a partir de prompts de texto ou referências
Geração de vídeovideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAICria vídeos a partir de texto, imagens ou vídeos existentes
Geração de músicamusic_generateComfyUI, Google, MiniMaxCria música ou faixas de áudio a partir de prompts de texto
Texto para fala (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIConverte respostas de saída em áudio falado
Compreensão de mídia(automático)Qualquer provedor de modelo com recursos de visão/áudio, além de fallbacks da CLIResume imagens, áudio e vídeo recebidos

Matriz de recursos por provedor

Esta tabela mostra quais provedores oferecem suporte a quais recursos de mídia na plataforma.
ProviderImagemVídeoMúsicaTTSSTT / TranscriçãoCompreensão de Mídia
AlibabaSim
BytePlusSim
ComfyUISimSimSim
DeepgramSim
ElevenLabsSim
falSimSim
GoogleSimSimSimSim
MicrosoftSim
MiniMaxSimSimSimSim
OpenAISimSimSimSimSim
QwenSim
RunwaySim
TogetherSim
VydraSimSim
xAISim
A compreensão de mídia usa qualquer modelo com recursos de visão ou áudio registrado na sua configuração de provedor. A tabela acima destaca provedores com suporte dedicado à compreensão de mídia; a maioria dos provedores de LLM com modelos multimodais (Anthropic, Google, OpenAI etc.) também pode compreender mídia recebida quando configurada como o modelo ativo de resposta.

Como a geração assíncrona funciona

A geração de vídeo e música é executada como tarefas em segundo plano porque o processamento do provedor normalmente leva de 30 segundos a vários minutos. Quando o agente chama video_generate ou music_generate, o OpenClaw envia a solicitação ao provedor, retorna imediatamente um ID de tarefa e rastreia o trabalho no task ledger. O agente continua respondendo a outras mensagens enquanto o trabalho é executado. Quando o provedor conclui, o OpenClaw reativa o agente para que ele possa publicar a mídia concluída de volta no canal original. A geração de imagem e o TTS são síncronos e são concluídos em linha com a resposta.