Pular para o conteúdo principal

Geração de Vídeo

Os agentes do OpenClaw podem gerar vídeos a partir de prompts de texto, imagens de referência ou vídeos existentes. Há suporte para doze backends de provedores, cada um com diferentes opções de modelo, modos de entrada e conjuntos de recursos. O agente escolhe automaticamente o provedor certo com base na sua configuração e nas chaves de API disponíveis.
A ferramenta video_generate só aparece quando pelo menos um provedor de geração de vídeo está disponível. Se você não a encontrar nas ferramentas do seu agente, defina uma chave de API de provedor ou configure agents.defaults.videoGenerationModel.

Início rápido

  1. Defina uma chave de API para qualquer provedor compatível:
export GEMINI_API_KEY="your-key"
  1. Opcionalmente, fixe um modelo padrão:
openclaw config set agents.defaults.videoGenerationModel.primary "google/veo-3.1-fast-generate-preview"
  1. Peça ao agente:
Gere um vídeo cinematográfico de 5 segundos de uma lagosta amigável surfando ao pôr do sol.
O agente chama video_generate automaticamente. Nenhuma allowlist de ferramentas é necessária.

O que acontece quando você gera um vídeo

A geração de vídeo é assíncrona. Quando o agente chama video_generate em uma sessão:
  1. O OpenClaw envia a solicitação ao provedor e retorna imediatamente um ID de tarefa.
  2. O provedor processa o trabalho em segundo plano (normalmente de 30 segundos a 5 minutos, dependendo do provedor e da resolução).
  3. Quando o vídeo fica pronto, o OpenClaw reativa a mesma sessão com um evento interno de conclusão.
  4. O agente publica o vídeo finalizado de volta na conversa original.
Enquanto um trabalho está em andamento, chamadas duplicadas de video_generate na mesma sessão retornam o status atual da tarefa em vez de iniciar outra geração. Use openclaw tasks list ou openclaw tasks show <taskId> para verificar o progresso pela CLI. Fora de execuções de agente com suporte de sessão (por exemplo, invocações diretas da ferramenta), a ferramenta recorre à geração inline e retorna o caminho final da mídia no mesmo turno.

Provedores compatíveis

ProvedorModelo padrãoTextoImagem de ref.Vídeo de ref.Chave de API
Alibabawan2.6-t2vSimSim (URL remota)Sim (URL remota)MODELSTUDIO_API_KEY
BytePlusseedance-1-0-lite-t2v-250428Sim1 imagemNãoBYTEPLUS_API_KEY
ComfyUIworkflowSim1 imagemNãoCOMFY_API_KEY ou COMFY_CLOUD_API_KEY
falfal-ai/minimax/video-01-liveSim1 imagemNãoFAL_KEY
Googleveo-3.1-fast-generate-previewSim1 imagem1 vídeoGEMINI_API_KEY
MiniMaxMiniMax-Hailuo-2.3Sim1 imagemNãoMINIMAX_API_KEY
OpenAIsora-2Sim1 imagem1 vídeoOPENAI_API_KEY
Qwenwan2.6-t2vSimSim (URL remota)Sim (URL remota)QWEN_API_KEY
Runwaygen4.5Sim1 imagem1 vídeoRUNWAYML_API_SECRET
TogetherWan-AI/Wan2.2-T2V-A14BSim1 imagemNãoTOGETHER_API_KEY
Vydraveo3Sim1 imagem (kling)NãoVYDRA_API_KEY
xAIgrok-imagine-videoSim1 imagem1 vídeoXAI_API_KEY
Alguns provedores aceitam variáveis de ambiente adicionais ou alternativas para chaves de API. Consulte as páginas individuais dos provedores para mais detalhes. Execute video_generate action=list para inspecionar os provedores e modelos disponíveis em tempo de execução.

Parâmetros da ferramenta

Obrigatórios

ParâmetroTipoDescrição
promptstringDescrição em texto do vídeo a ser gerado (obrigatória para action: "generate")

Entradas de conteúdo

ParâmetroTipoDescrição
imagestringImagem de referência única (caminho ou URL)
imagesstring[]Várias imagens de referência (até 5)
videostringVídeo de referência único (caminho ou URL)
videosstring[]Vários vídeos de referência (até 4)

Controles de estilo

ParâmetroTipoDescrição
aspectRatiostring1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
resolutionstring480P, 720P ou 1080P
durationSecondsnumberDuração alvo em segundos (arredondada para o valor compatível mais próximo do provedor)
sizestringIndicação de tamanho quando o provedor oferece suporte
audiobooleanAtiva áudio gerado quando compatível
watermarkbooleanAlterna a marca d’água do provedor quando compatível

Avançado

ParâmetroTipoDescrição
actionstring"generate" (padrão), "status" ou "list"
modelstringSubstituição de provedor/modelo (por ex. runway/gen4.5)
filenamestringIndicação de nome de arquivo de saída
Nem todos os provedores oferecem suporte a todos os parâmetros. Substituições não compatíveis são ignoradas em regime de melhor esforço e relatadas como avisos no resultado da ferramenta. Limites rígidos de capacidade (como entradas de referência em excesso) falham antes do envio.

Ações

  • generate (padrão) — cria um vídeo a partir do prompt fornecido e de entradas de referência opcionais.
  • status — verifica o estado da tarefa de vídeo em andamento para a sessão atual sem iniciar outra geração.
  • list — mostra os provedores, modelos e seus recursos disponíveis.

Seleção de modelo

Ao gerar um vídeo, o OpenClaw resolve o modelo nesta ordem:
  1. Parâmetro de ferramenta model — se o agente especificar um na chamada.
  2. videoGenerationModel.primary — da configuração.
  3. videoGenerationModel.fallbacks — tentados em ordem.
  4. Detecção automática — usa provedores com autenticação válida, começando pelo provedor padrão atual e depois os demais provedores em ordem alfabética.
Se um provedor falhar, o próximo candidato será tentado automaticamente. Se todos os candidatos falharem, o erro incluirá detalhes de cada tentativa.
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "google/veo-3.1-fast-generate-preview",
        fallbacks: ["runway/gen4.5", "qwen/wan2.6-t2v"],
      },
    },
  },
}

Observações sobre provedores

ProvedorObservações
AlibabaUsa o endpoint assíncrono do DashScope/Model Studio. Imagens e vídeos de referência devem ser URLs http(s) remotas.
BytePlusApenas uma imagem de referência.
ComfyUIExecução local ou em nuvem orientada por workflow. Oferece suporte a texto para vídeo e imagem para vídeo por meio do grafo configurado.
falUsa um fluxo baseado em fila para trabalhos longos. Apenas uma imagem de referência.
GoogleUsa Gemini/Veo. Oferece suporte a uma imagem ou um vídeo de referência.
MiniMaxApenas uma imagem de referência.
OpenAIApenas a substituição size é encaminhada. Outras substituições de estilo (aspectRatio, resolution, audio, watermark) são ignoradas com aviso.
QwenMesmo backend DashScope do Alibaba. As entradas de referência devem ser URLs http(s) remotas; arquivos locais são rejeitados antecipadamente.
RunwayOferece suporte a arquivos locais por meio de URIs de dados. Vídeo para vídeo exige runway/gen4_aleph. Execuções somente com texto expõem proporções 16:9 e 9:16.
TogetherApenas uma imagem de referência.
VydraUsa https://www.vydra.ai/api/v1 diretamente para evitar redirecionamentos que descartam a autenticação. veo3 vem incluído apenas como texto para vídeo; kling exige uma URL remota de imagem.
xAIOferece suporte a fluxos de texto para vídeo, imagem para vídeo e edição/extensão de vídeo remoto.

Configuração

Defina o modelo padrão de geração de vídeo na configuração do OpenClaw:
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "qwen/wan2.6-t2v",
        fallbacks: ["qwen/wan2.6-r2v-flash"],
      },
    },
  },
}
Ou via CLI:
openclaw config set agents.defaults.videoGenerationModel.primary "qwen/wan2.6-t2v"

Relacionado