Agenci OpenClaw mogą generować filmy z promptów tekstowych, obrazów referencyjnych lub istniejących filmów. Obsługiwanych jest szesnaście backendów dostawców, każdy z różnymi opcjami modeli, trybami wejściowymi i zestawami funkcji. Agent wybiera właściwego dostawcę automatycznie na podstawie konfiguracji i dostępnych kluczy API.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
Narzędzie
video_generate pojawia się tylko wtedy, gdy dostępny jest co najmniej jeden
dostawca generowania filmów. Jeśli nie widzisz go w narzędziach agenta, ustaw
klucz API dostawcy albo skonfiguruj agents.defaults.videoGenerationModel.generate- żądania text-to-video bez mediów referencyjnych.imageToVideo- żądanie zawiera co najmniej jeden obraz referencyjny.videoToVideo- żądanie zawiera co najmniej jeden film referencyjny.
action=list.
Szybki start
Jak działa generowanie asynchroniczne
Generowanie filmów jest asynchroniczne. Gdy agent wywołujevideo_generate w
sesji:
- OpenClaw przesyła żądanie do dostawcy i natychmiast zwraca identyfikator zadania.
- Dostawca przetwarza zadanie w tle (zwykle od 30 sekund do kilku minut, zależnie od dostawcy i rozdzielczości; wolni dostawcy oparci na kolejkach mogą działać aż do skonfigurowanego limitu czasu).
- Gdy film jest gotowy, OpenClaw wznawia tę samą sesję za pomocą wewnętrznego zdarzenia ukończenia.
- Agent informuje użytkownika i dołącza gotowy film. W czatach grupowych/kanałowych, które używają widocznego dostarczania wyłącznie przez narzędzie wiadomości, agent przekazuje wynik przez narzędzie wiadomości zamiast publikować go bezpośrednio przez OpenClaw.
video_generate w tej samej
sesji zwracają bieżący status zadania zamiast rozpoczynać kolejne
generowanie. Użyj openclaw tasks list albo openclaw tasks show <taskId>, aby
sprawdzić postęp z CLI.
Poza uruchomieniami agentów opartymi na sesji (na przykład przy bezpośrednich wywołaniach narzędzi)
narzędzie przełącza się na generowanie inline i zwraca ścieżkę do końcowego medium
w tej samej turze.
Wygenerowane pliki filmowe są zapisywane w zarządzanym przez OpenClaw magazynie mediów, gdy
dostawca zwraca bajty. Domyślny limit zapisu wygenerowanych filmów jest zgodny
z limitem mediów wideo, a agents.defaults.mediaMaxMb podnosi go dla
większych renderów. Gdy dostawca zwraca również hostowany URL wyjściowy, OpenClaw
może dostarczyć ten URL zamiast oznaczać zadanie jako nieudane, jeśli lokalne utrwalenie
odrzuci zbyt duży plik.
Cykl życia zadania
| Stan | Znaczenie |
|---|---|
queued | Zadanie utworzone, oczekuje na przyjęcie przez dostawcę. |
running | Dostawca przetwarza (zwykle od 30 sekund do kilku minut, zależnie od dostawcy i rozdzielczości). |
succeeded | Film gotowy; agent wznawia działanie i publikuje go w rozmowie. |
failed | Błąd dostawcy albo limit czasu; agent wznawia działanie ze szczegółami błędu. |
queued albo running dla bieżącej sesji,
video_generate zwraca status istniejącego zadania zamiast rozpoczynać nowe.
Użyj action: "status", aby sprawdzić jawnie bez wyzwalania nowego
generowania.
Obsługiwani dostawcy
| Dostawca | Model domyślny | Tekst | Obraz ref. | Film ref. | Uwierzytelnianie |
|---|---|---|---|---|---|
| Alibaba | wan2.6-t2v | ✓ | Tak (zdalny URL) | Tak (zdalny URL) | MODELSTUDIO_API_KEY |
| BytePlus (1.0) | seedance-1-0-pro-250528 | ✓ | Do 2 obrazów (tylko modele I2V; pierwsza + ostatnia klatka) | - | BYTEPLUS_API_KEY |
| BytePlus Seedance 1.5 | seedance-1-5-pro-251215 | ✓ | Do 2 obrazów (pierwsza + ostatnia klatka przez rolę) | - | BYTEPLUS_API_KEY |
| BytePlus Seedance 2.0 | dreamina-seedance-2-0-260128 | ✓ | Do 9 obrazów referencyjnych | Do 3 filmów | BYTEPLUS_API_KEY |
| ComfyUI | workflow | ✓ | 1 obraz | - | COMFY_API_KEY lub COMFY_CLOUD_API_KEY |
| DeepInfra | Pixverse/Pixverse-T2V | ✓ | - | - | DEEPINFRA_API_KEY |
| fal | fal-ai/minimax/video-01-live | ✓ | 1 obraz; do 9 z Seedance reference-to-video | Do 3 filmów z Seedance reference-to-video | FAL_KEY |
veo-3.1-fast-generate-preview | ✓ | 1 obraz | 1 film | GEMINI_API_KEY | |
| MiniMax | MiniMax-Hailuo-2.3 | ✓ | 1 obraz | - | MINIMAX_API_KEY lub MiniMax OAuth |
| OpenAI | sora-2 | ✓ | 1 obraz | 1 film | OPENAI_API_KEY |
| OpenRouter | google/veo-3.1-fast | ✓ | Do 4 obrazów (pierwsza/ostatnia klatka albo referencje) | - | OPENROUTER_API_KEY |
| Qwen | wan2.6-t2v | ✓ | Tak (zdalny URL) | Tak (zdalny URL) | QWEN_API_KEY |
| Runway | gen4.5 | ✓ | 1 obraz | 1 film | RUNWAYML_API_SECRET |
| Together | Wan-AI/Wan2.2-T2V-A14B | ✓ | 1 obraz | - | TOGETHER_API_KEY |
| Vydra | veo3 | ✓ | 1 obraz (kling) | - | VYDRA_API_KEY |
| xAI | grok-imagine-video | ✓ | 1 obraz pierwszej klatki albo do 7 reference_images | 1 film | XAI_API_KEY |
video_generate action=list, aby sprawdzić dostępnych dostawców, modele i
tryby wykonania w czasie działania.
Macierz możliwości
Jawny kontrakt trybów używany przezvideo_generate, testy kontraktowe i
wspólny live sweep:
| Dostawca | generate | imageToVideo | videoToVideo | Dzisiejsze współdzielone ścieżki live |
|---|---|---|---|---|
| Alibaba | ✓ | ✓ | ✓ | generate, imageToVideo; videoToVideo pominięte, ponieważ ten dostawca wymaga zdalnych URL-i filmów http(s) |
| BytePlus | ✓ | ✓ | - | generate, imageToVideo |
| ComfyUI | ✓ | ✓ | - | Nie jest we wspólnym sweepie; pokrycie specyficzne dla workflow znajduje się w testach Comfy |
| DeepInfra | ✓ | - | - | generate; natywne schematy filmów DeepInfra w dołączonym kontrakcie są typu text-to-video |
| fal | ✓ | ✓ | ✓ | generate, imageToVideo; videoToVideo tylko przy użyciu Seedance reference-to-video |
| ✓ | ✓ | ✓ | generate, imageToVideo; współdzielone videoToVideo pominięte, ponieważ bieżący sweep Gemini/Veo oparty na buforach nie akceptuje tego wejścia | |
| MiniMax | ✓ | ✓ | - | generate, imageToVideo |
| OpenAI | ✓ | ✓ | ✓ | generate, imageToVideo; współdzielone videoToVideo pominięte, ponieważ ta organizacja/ścieżka wejścia obecnie wymaga dostępu do inpaint/remix po stronie dostawcy |
| OpenRouter | ✓ | ✓ | - | generate, imageToVideo |
| Qwen | ✓ | ✓ | ✓ | generate, imageToVideo; videoToVideo pominięte, ponieważ ten dostawca wymaga zdalnych URL-i filmów http(s) |
| Runway | ✓ | ✓ | ✓ | generate, imageToVideo; videoToVideo działa tylko wtedy, gdy wybrany model to runway/gen4_aleph |
| Together | ✓ | ✓ | - | generate, imageToVideo |
| Vydra | ✓ | ✓ | - | generate; współdzielone imageToVideo pominięte, ponieważ dołączony veo3 obsługuje tylko tekst, a dołączony kling wymaga zdalnego URL-a obrazu |
| xAI | ✓ | ✓ | ✓ | generate, imageToVideo; videoToVideo pominięte, ponieważ ten dostawca obecnie wymaga zdalnego URL-a MP4 |
Parametry narzędzia
Wymagane
Tekstowy opis filmu do wygenerowania. Wymagane dla
action: "generate".Dane wejściowe treści
Pojedynczy obraz referencyjny (ścieżka lub URL).
Wiele obrazów referencyjnych (do 9).
Opcjonalne wskazówki ról dla poszczególnych pozycji, równoległe do połączonej listy obrazów.
Wartości kanoniczne:
first_frame, last_frame, reference_image.Pojedyncze wideo referencyjne (ścieżka lub URL).
Wiele wideo referencyjnych (do 4).
Opcjonalne wskazówki ról dla poszczególnych pozycji, równoległe do połączonej listy wideo.
Wartość kanoniczna:
reference_video.Pojedyncze audio referencyjne (ścieżka lub URL). Używane jako muzyka w tle lub
referencja głosu, gdy dostawca obsługuje wejścia audio.
Wiele audio referencyjnych (do 3).
Opcjonalne wskazówki ról dla poszczególnych pozycji, równoległe do połączonej listy audio.
Wartość kanoniczna:
reference_audio.Wskazówki ról są przekazywane do dostawcy bez zmian. Wartości kanoniczne pochodzą z
unii
VideoGenerationAssetRole, ale dostawcy mogą akceptować dodatkowe
ciągi ról. Tablice *Roles nie mogą mieć więcej wpisów niż
odpowiednia lista referencyjna; pomyłki o jeden element kończą się jasnym błędem.
Użyj pustego ciągu, aby pozostawić slot nieustawiony. W przypadku xAI ustaw każdą rolę obrazu na
reference_image, aby użyć trybu generowania reference_images; pomiń
rolę lub użyj first_frame dla pojedynczego obrazu image-to-video.Sterowanie stylem
Wskazówka proporcji obrazu, taka jak
1:1, 16:9, 9:16, adaptive albo wartość specyficzna dla dostawcy. OpenClaw normalizuje lub ignoruje nieobsługiwane wartości zależnie od dostawcy.Wskazówka rozdzielczości, taka jak
480P, 720P, 768P, 1080P, 4K albo wartość specyficzna dla dostawcy. OpenClaw normalizuje lub ignoruje nieobsługiwane wartości zależnie od dostawcy.Docelowy czas trwania w sekundach (zaokrąglany do najbliższej wartości obsługiwanej przez dostawcę).
Wskazówka rozmiaru, gdy dostawca ją obsługuje.
Włącz generowane audio w wyniku, gdy jest obsługiwane. Różni się od
audioRef* (wejścia).Przełącza znak wodny dostawcy, gdy jest obsługiwany.
adaptive to wartownik specyficzny dla dostawcy: jest przekazywany bez zmian do
dostawców, którzy deklarują adaptive w swoich możliwościach (np. BytePlus
Seedance używa go do automatycznego wykrywania proporcji na podstawie wymiarów
obrazu wejściowego). Dostawcy, którzy go nie deklarują, ujawniają tę wartość przez
details.ignoredOverrides w wyniku narzędzia, aby odrzucenie było widoczne.
Zaawansowane
"status" zwraca bieżące zadanie sesji; "list" sprawdza dostawców.Nadpisanie dostawcy/modelu (np.
runway/gen4.5).Wskazówka nazwy pliku wyjściowego.
Opcjonalny limit czasu operacji dostawcy w milisekundach. Gdy pominięty, OpenClaw używa
agents.defaults.videoGenerationModel.timeoutMs, jeśli jest skonfigurowany.Opcje specyficzne dla dostawcy jako obiekt JSON (np.
{"seed": 42, "draft": true}).
Dostawcy deklarujący typowany schemat walidują klucze i typy; nieznane
klucze lub niezgodności pomijają kandydata podczas fallbacku. Dostawcy bez
zadeklarowanego schematu otrzymują opcje bez zmian. Uruchom video_generate action=list,
aby zobaczyć, co akceptuje każdy dostawca.Nie wszyscy dostawcy obsługują wszystkie parametry. OpenClaw normalizuje czas trwania do
najbliższej wartości obsługiwanej przez dostawcę oraz przemapowuje przetłumaczone wskazówki geometrii,
takie jak rozmiar na proporcje obrazu, gdy dostawca fallbacku udostępnia inną
powierzchnię sterowania. Naprawdę nieobsługiwane nadpisania są ignorowane na zasadzie best-effort
i zgłaszane jako ostrzeżenia w wyniku narzędzia. Twarde limity możliwości
(takie jak zbyt wiele wejść referencyjnych) kończą się błędem przed przesłaniem. Wyniki narzędzia
zgłaszają zastosowane ustawienia;
details.normalization przechwytuje każde
tłumaczenie z żądanego na zastosowane.- Brak mediów referencyjnych →
generate - Dowolna referencja obrazu →
imageToVideo - Dowolna referencja wideo →
videoToVideo - Referencyjne wejścia audio nie zmieniają rozwiązanego trybu; stosują się
ponad trybem wybranym przez referencje obrazu/wideo i działają tylko
z dostawcami deklarującymi
maxInputAudios.
Fallback i typowane opcje
Niektóre kontrole możliwości są stosowane w warstwie fallbacku, a nie na granicy narzędzia, więc żądanie przekraczające limity głównego dostawcy może nadal zostać uruchomione u obsługującego fallbacku:- Aktywny kandydat niedeklarujący
maxInputAudios(lub deklarujący0) jest pomijany, gdy żądanie zawiera referencje audio; próbowany jest następny kandydat. maxDurationSecondsaktywnego kandydata poniżej żądanegodurationSecondsbez zadeklarowanej listysupportedDurationSeconds→ pomijany.- Żądanie zawiera
providerOptions, a aktywny kandydat jawnie deklaruje typowany schematproviderOptions→ pomijany, jeśli podane klucze nie znajdują się w schemacie lub typy wartości nie pasują. Dostawcy bez zadeklarowanego schematu otrzymują opcje bez zmian (zgodne wstecznie przekazanie). Dostawca może zrezygnować ze wszystkich opcji dostawcy przez zadeklarowanie pustego schematu (capabilities.providerOptions: {}), co powoduje takie samo pominięcie jak niezgodność typu.
warn, aby operatorzy widzieli, kiedy
ich główny dostawca został pominięty; kolejne pominięcia są logowane na poziomie debug, aby
długie łańcuchy fallbacków pozostały ciche. Jeśli każdy kandydat zostanie pominięty, zagregowany
błąd zawiera powód pominięcia dla każdego z nich.
Akcje
| Akcja | Co robi |
|---|---|
generate | Domyślna. Tworzy wideo z podanego promptu i opcjonalnych wejść referencyjnych. |
status | Sprawdza stan zadania wideo w toku dla bieżącej sesji bez rozpoczynania kolejnego generowania. |
list | Pokazuje dostępnych dostawców, modele i ich możliwości. |
Wybór modelu
OpenClaw rozwiązuje model w tej kolejności:- Parametr narzędzia
model- jeśli agent określi go w wywołaniu. videoGenerationModel.primaryz konfiguracji.videoGenerationModel.fallbacksw kolejności.- Automatyczne wykrywanie - dostawcy z prawidłowym uwierzytelnieniem, zaczynając od bieżącego dostawcy domyślnego, a następnie pozostali dostawcy w kolejności alfabetycznej.
agents.defaults.mediaGenerationAutoProviderFallback: false, aby używać
tylko jawnych wpisów model, primary i fallbacks.
Uwagi o dostawcach
Alibaba
Alibaba
Używa asynchronicznego endpointu DashScope / Model Studio. Obrazy i
wideo referencyjne muszą być zdalnymi URL-ami
http(s).BytePlus (1.0)
BytePlus (1.0)
ID dostawcy:
byteplus.Modele: seedance-1-0-pro-250528 (domyślny),
seedance-1-0-pro-t2v-250528, seedance-1-0-pro-fast-251015,
seedance-1-0-lite-t2v-250428, seedance-1-0-lite-i2v-250428.Modele T2V (*-t2v-*) nie akceptują wejść obrazów; modele I2V i
ogólne modele *-pro-* obsługują pojedynczy obraz referencyjny (pierwszą
klatkę). Przekaż obraz pozycyjnie lub ustaw role: "first_frame".
Identyfikatory modeli T2V są automatycznie przełączane na odpowiadający wariant I2V,
gdy podano obraz.Obsługiwane klucze providerOptions: seed (number), draft (boolean -
wymusza 480p), camera_fixed (boolean).BytePlus Seedance 1.5
BytePlus Seedance 1.5
Wymaga Pluginu
@openclaw/byteplus-modelark.
ID dostawcy: byteplus-seedance15. Model:
seedance-1-5-pro-251215.Używa zunifikowanego API content[]. Obsługuje najwyżej 2 obrazy wejściowe
(first_frame + last_frame). Wszystkie wejścia muszą być zdalnymi URL-ami https://.
Ustaw role: "first_frame" / "last_frame" na każdym obrazie albo
przekaż obrazy pozycyjnie.aspectRatio: "adaptive" automatycznie wykrywa proporcje na podstawie obrazu wejściowego.
audio: true mapuje się na generate_audio. providerOptions.seed
(number) jest przekazywane dalej.BytePlus Seedance 2.0
BytePlus Seedance 2.0
Wymaga Pluginu
@openclaw/byteplus-modelark.
ID dostawcy: byteplus-seedance2. Modele:
dreamina-seedance-2-0-260128,
dreamina-seedance-2-0-fast-260128.Używa zunifikowanego API content[]. Obsługuje do 9 obrazów referencyjnych,
3 wideo referencyjne i 3 audio referencyjne. Wszystkie wejścia muszą być zdalnymi
URL-ami https://. Ustaw role na każdym zasobie - obsługiwane wartości:
"first_frame", "last_frame", "reference_image",
"reference_video", "reference_audio".aspectRatio: "adaptive" automatycznie wykrywa proporcje na podstawie obrazu wejściowego.
audio: true mapuje się na generate_audio. providerOptions.seed
(number) jest przekazywane dalej.ComfyUI
ComfyUI
Wykonywanie lokalne lub w chmurze sterowane przepływem pracy. Obsługuje text-to-video oraz
image-to-video przez skonfigurowany graf.
fal
fal
Używa przepływu opartego na kolejce dla długotrwałych zadań. OpenClaw domyślnie czeka do 20
minut, zanim uzna trwające zadanie kolejki fal za przekroczone czasowo. Większość modeli wideo fal
akceptuje pojedyncze odwołanie do obrazu. Modele Seedance 2.0 reference-to-video
akceptują do 9 obrazów, 3 wideo i 3 odwołań audio, przy
maksymalnie 12 plikach referencyjnych łącznie.
Google (Gemini / Veo)
Google (Gemini / Veo)
Obsługuje jedno odwołanie do obrazu albo jedno odwołanie do wideo. Żądania wygenerowanego dźwięku są
ignorowane z ostrzeżeniem na ścieżce Gemini API, ponieważ ten API odrzuca
parametr
generateAudio dla bieżącego generowania wideo Veo.MiniMax
MiniMax
Tylko pojedyncze odwołanie do obrazu. MiniMax akceptuje rozdzielczości
768P i 1080P;
żądania takie jak 720P są normalizowane do najbliższej
obsługiwanej wartości przed wysłaniem.OpenAI
OpenAI
Przekazywane jest tylko nadpisanie
size. Inne nadpisania stylu
(aspectRatio, resolution, audio, watermark) są ignorowane z
ostrzeżeniem.OpenRouter
OpenRouter
Używa asynchronicznego API
/videos OpenRouter. OpenClaw wysyła
zadanie, odpytuje polling_url i pobiera unsigned_urls albo
udokumentowany endpoint zawartości zadania. Dołączony domyślny model google/veo-3.1-fast
deklaruje czasy trwania 4/6/8 sekund, rozdzielczości 720P/1080P oraz
proporcje obrazu 16:9/9:16.Qwen
Qwen
Ten sam backend DashScope co Alibaba. Dane wejściowe referencji muszą być zdalnymi
adresami URL
http(s); pliki lokalne są odrzucane z góry.Runway
Runway
Obsługuje pliki lokalne przez URI danych. Video-to-video wymaga
runway/gen4_aleph. Uruchomienia tylko tekstowe udostępniają proporcje obrazu
16:9 i 9:16.Together
Together
Tylko pojedyncze odwołanie do obrazu.
Vydra
Vydra
Używa bezpośrednio
https://www.vydra.ai/api/v1, aby uniknąć przekierowań
usuwających uwierzytelnienie. veo3 jest dołączony tylko jako text-to-video; kling wymaga
zdalnego adresu URL obrazu.xAI
xAI
Obsługuje text-to-video, image-to-video z pojedynczą pierwszą klatką, do 7
danych wejściowych
reference_image przez xAI reference_images oraz zdalne
przepływy edycji/rozszerzania wideo.Tryby możliwości dostawców
Wspólny kontrakt generowania wideo obsługuje możliwości specyficzne dla trybu zamiast wyłącznie płaskich limitów zbiorczych. Nowe implementacje dostawców powinny preferować jawne bloki trybów:maxInputImages i maxInputVideos, nie
wystarczają do deklarowania obsługi trybu transformacji. Dostawcy powinni
jawnie deklarować generate, imageToVideo i videoToVideo, aby testy na żywo,
testy kontraktu i wspólne narzędzie video_generate mogły deterministycznie
weryfikować obsługę trybów.
Gdy jeden model u dostawcy ma szerszą obsługę wejść referencyjnych niż
pozostałe, użyj maxInputImagesByModel, maxInputVideosByModel albo
maxInputAudiosByModel zamiast podnosić limit dla całego trybu.
Testy na żywo
Opcjonalne pokrycie testami na żywo dla wspólnych dołączonych dostawców:~/.profile, domyślnie preferuje
klucze API live/env przed zapisanymi profilami uwierzytelniania i domyślnie uruchamia
smoke test bezpieczny dla wydania:
generatedla każdego dostawcy spoza FAL w przeglądzie.- Jednosekundowy prompt z homarem.
- Limit operacji na dostawcę z
OPENCLAW_LIVE_VIDEO_GENERATION_TIMEOUT_MS(domyślnie180000).
OPENCLAW_LIVE_VIDEO_GENERATION_FULL_MODES=1, aby uruchamiać także zadeklarowane
tryby transformacji, które wspólny przegląd może bezpiecznie wykonać z lokalnymi mediami:
imageToVideo, gdycapabilities.imageToVideo.enabled.videoToVideo, gdycapabilities.videoToVideo.enabledi dostawca/model akceptuje lokalne wejście wideo oparte na buforze we wspólnym przeglądzie.
videoToVideo obejmuje runway tylko wtedy, gdy
wybierzesz runway/gen4_aleph.
Konfiguracja
Ustaw domyślny model generowania wideo w konfiguracji OpenClaw:Powiązane
- Alibaba Model Studio
- Zadania w tle - śledzenie zadań dla asynchronicznego generowania wideo
- BytePlus
- ComfyUI
- Dokumentacja konfiguracji
- fal
- Google (Gemini)
- MiniMax
- Modele
- OpenAI
- Qwen
- Runway
- Together AI
- Omówienie narzędzi
- Vydra
- xAI