Skip to main content

Генерація відео

Інструмент video_generate дає змогу агенту створювати відео за допомогою ваших налаштованих провайдерів. У сеансах агента OpenClaw запускає генерацію відео як фонове завдання, відстежує її в журналі завдань, а потім знову пробуджує агента, коли кліп готовий, щоб агент міг опублікувати готове відео назад у вихідний канал.
Інструмент з’являється лише тоді, коли доступний принаймні один провайдер генерації відео. Якщо ви не бачите video_generate в інструментах вашого агента, налаштуйте agents.defaults.videoGenerationModel або задайте API-ключ провайдера.
У сеансах агента video_generate повертається одразу з id завдання/run id. Фактичне завдання провайдера продовжується у фоновому режимі. Коли воно завершується, OpenClaw пробуджує той самий сеанс внутрішньою подією завершення, щоб агент міг надіслати звичайне подальше повідомлення разом із вкладенням згенерованого відео.

Швидкий старт

  1. Задайте API-ключ принаймні для одного провайдера (наприклад, OPENAI_API_KEY, GEMINI_API_KEY, MODELSTUDIO_API_KEY, QWEN_API_KEY або RUNWAYML_API_SECRET).
  2. За бажанням задайте бажану модель:
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "qwen/wan2.6-t2v",
      },
    },
  },
}
  1. Попросіть агента: “Згенеруй 5-секундне кінематографічне відео з дружнім лобстером, який катається на серфі на заході сонця.”
Агент викликає video_generate автоматично. Дозвільний список інструментів не потрібен — інструмент увімкнений за замовчуванням, коли доступний провайдер. Для прямих синхронних контекстів без запуску агента на основі сеансу інструмент усе одно переходить до вбудованої генерації та повертає фінальний шлях до медіафайлу в результаті інструмента.

Підтримувані провайдери

ПровайдерМодель за замовчуваннямОпорні вхідні даніAPI-ключ
Alibabawan2.6-t2vТак, віддалені URLMODELSTUDIO_API_KEY, DASHSCOPE_API_KEY, QWEN_API_KEY
BytePlusseedance-1-0-lite-t2v-2504281 зображенняBYTEPLUS_API_KEY
falfal-ai/minimax/video-01-live1 зображенняFAL_KEY
Googleveo-3.1-fast-generate-preview1 зображення або 1 відеоGEMINI_API_KEY, GOOGLE_API_KEY
MiniMaxMiniMax-Hailuo-2.31 зображенняMINIMAX_API_KEY
OpenAIsora-21 зображення або 1 відеоOPENAI_API_KEY
Qwenwan2.6-t2vТак, віддалені URLQWEN_API_KEY, MODELSTUDIO_API_KEY, DASHSCOPE_API_KEY
Runwaygen4.51 зображення або 1 відеоRUNWAYML_API_SECRET, RUNWAY_API_KEY
TogetherWan-AI/Wan2.2-T2V-A14B1 зображенняTOGETHER_API_KEY
xAIgrok-imagine-video1 зображення або 1 відеоXAI_API_KEY
Використовуйте action: "list", щоб переглянути доступні провайдери та моделі під час виконання:
/tool video_generate action=list

Параметри інструмента

ПараметрТипОпис
promptstringЗапит для генерації відео (обов’язковий для action: "generate")
actionstring"generate" (за замовчуванням) або "list" для перегляду провайдерів
modelstringПеревизначення провайдера/моделі, наприклад qwen/wan2.6-t2v
imagestringШлях або URL одного опорного зображення
imagesstring[]Кілька опорних зображень (до 5)
videostringШлях або URL одного опорного відео
videosstring[]Кілька опорних відео (до 4)
sizestringПідказка щодо розміру, якщо провайдер це підтримує
aspectRatiostringСпіввідношення сторін: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
resolutionstringПідказка щодо роздільної здатності: 480P, 720P або 1080P
durationSecondsnumberЦільова тривалість у секундах. OpenClaw може округлити її до найближчого значення, яке підтримує провайдер
audiobooleanУвімкнути згенерований звук, якщо провайдер це підтримує
watermarkbooleanУвімкнути або вимкнути водяні знаки провайдера, якщо підтримується
filenamestringПідказка щодо імені вихідного файлу
Не всі провайдери підтримують усі параметри. Непідтримувані необов’язкові перевизначення ігноруються в межах можливого та повертаються в результаті інструмента як попередження. Жорсткі обмеження можливостей, як-от надто велика кількість опорних вхідних даних, усе ще призводять до помилки до надсилання. Коли провайдер або модель підтримує лише дискретний набір тривалостей відео, OpenClaw округлює durationSeconds до найближчого підтримуваного значення та повідомляє нормалізовану тривалість у результаті інструмента.

Асинхронна поведінка

  • Запуски агента на основі сеансу: video_generate створює фонове завдання, одразу повертає відповідь про запуск/завдання, а готове відео публікує пізніше в подальшому повідомленні агента.
  • Відстеження завдань: використовуйте openclaw tasks list / openclaw tasks show <taskId>, щоб переглядати статуси генерації в черзі, у виконанні та кінцеві статуси.
  • Пробудження після завершення: OpenClaw вставляє внутрішню подію завершення назад у той самий сеанс, щоб модель могла сама написати подальше повідомлення для користувача.
  • Резервний режим без сеансу: прямі/локальні контексти без реального сеансу агента все одно виконуються вбудовано та повертають фінальний результат відео в тому самому ході.

Конфігурація

Вибір моделі

{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "qwen/wan2.6-t2v",
        fallbacks: ["qwen/wan2.6-r2v-flash"],
      },
    },
  },
}

Порядок вибору провайдерів

Під час генерації відео OpenClaw пробує провайдерів у такому порядку:
  1. Параметр model з виклику інструмента (якщо агент його вказує)
  2. videoGenerationModel.primary із конфігурації
  3. videoGenerationModel.fallbacks у заданому порядку
  4. Автовиявлення — використовує лише типові налаштування провайдерів, підкріплені автентифікацією:
    • спочатку поточний провайдер за замовчуванням
    • решта зареєстрованих провайдерів генерації відео в порядку id провайдера
Якщо провайдер не спрацьовує, автоматично пробується наступний кандидат. Якщо не спрацьовують усі, помилка містить відомості про кожну спробу.

Примітки щодо провайдерів

  • Alibaba використовує асинхронну кінцеву точку відео DashScope / Model Studio і наразі вимагає віддалені URL http(s) для опорних ресурсів.
  • Google використовує Gemini/Veo і підтримує один опорний вхід у вигляді зображення або відео.
  • MiniMax, Together, BytePlus і fal наразі підтримують один опорний вхід у вигляді зображення.
  • OpenAI використовує нативну кінцеву точку відео і наразі за замовчуванням використовує sora-2.
  • Qwen підтримує опорні зображення/відео, але вхідна відеокінцева точка DashScope наразі вимагає віддалені URL http(s) для цих опорних даних.
  • Runway використовує нативний API асинхронних завдань з опитуванням GET /v1/tasks/{id} і наразі за замовчуванням використовує gen4.5.
  • xAI використовує нативний API відео xAI і підтримує сценарії text-to-video, image-to-video та віддалене редагування/розширення відео.
  • fal використовує потік відео fal на основі черги для довготривалих завдань замість одного блокувального запиту інференсу.

Опорні вхідні дані Qwen

Вбудований провайдер Qwen підтримує text-to-video, а також режими з опорними зображеннями/відео, але вхідна відеокінцева точка DashScope наразі вимагає віддалені URL http(s) для опорних вхідних даних. Шляхи до локальних файлів і вивантажені буфери відхиляються одразу, а не тихо ігноруються.

Пов’язане

  • Огляд інструментів — усі доступні інструменти агента
  • Фонові завдання — відстеження завдань для відокремлених запусків video_generate
  • Alibaba Model Studio — пряме налаштування провайдера Wan
  • Google (Gemini) — налаштування провайдера Veo
  • MiniMax — налаштування провайдера Hailuo
  • OpenAI — налаштування провайдера Sora
  • Qwen — налаштування та обмеження, специфічні для Qwen
  • Runway — налаштування Runway і поточні примітки щодо моделей/вхідних даних
  • Together AI — налаштування провайдера Together Wan
  • xAI — налаштування відеопровайдера Grok
  • Довідник із конфігурації — конфігурація videoGenerationModel
  • Моделі — конфігурація моделей і резервне перемикання