Przejdź do głównej treści

Generowanie filmów

Agenci OpenClaw mogą generować filmy na podstawie promptów tekstowych, obrazów referencyjnych lub istniejących filmów. Obsługiwanych jest dwanaście backendów dostawców, a każdy z nich oferuje inne opcje modeli, tryby wejściowe i zestawy funkcji. Agent automatycznie wybiera odpowiedniego dostawcę na podstawie konfiguracji i dostępnych kluczy API.
Narzędzie video_generate pojawia się tylko wtedy, gdy dostępny jest co najmniej jeden dostawca generowania filmów. Jeśli go nie widzisz w narzędziach agenta, ustaw klucz API dostawcy lub skonfiguruj agents.defaults.videoGenerationModel.

Szybki start

  1. Ustaw klucz API dla dowolnego obsługiwanego dostawcy:
export GEMINI_API_KEY="your-key"
  1. Opcjonalnie przypnij model domyślny:
openclaw config set agents.defaults.videoGenerationModel.primary "google/veo-3.1-fast-generate-preview"
  1. Poproś agenta:
Wygeneruj 5-sekundowy film kinowy przedstawiający przyjaznego homara surfującego o zachodzie słońca.
Agent automatycznie wywołuje video_generate. Nie jest wymagane dodawanie narzędzia do listy dozwolonych.

Co dzieje się podczas generowania filmu

Generowanie filmu jest asynchroniczne. Gdy agent wywołuje video_generate w sesji:
  1. OpenClaw wysyła żądanie do dostawcy i natychmiast zwraca identyfikator zadania.
  2. Dostawca przetwarza zadanie w tle (zwykle od 30 sekund do 5 minut w zależności od dostawcy i rozdzielczości).
  3. Gdy film jest gotowy, OpenClaw wybudza tę samą sesję za pomocą wewnętrznego zdarzenia ukończenia.
  4. Agent publikuje gotowy film z powrotem w oryginalnej rozmowie.
Gdy zadanie jest w toku, zduplikowane wywołania video_generate w tej samej sesji zwracają bieżący status zadania zamiast uruchamiać kolejne generowanie. Użyj openclaw tasks list lub openclaw tasks show <taskId>, aby sprawdzić postęp z poziomu CLI. Poza uruchomieniami agenta opartymi na sesji (na przykład przy bezpośrednich wywołaniach narzędzia) narzędzie przechodzi do generowania inline i zwraca końcową ścieżkę do multimediów w tej samej turze.

Obsługiwani dostawcy

DostawcaModel domyślnyTekstObraz referencyjnyFilm referencyjnyKlucz API
Alibabawan2.6-t2vTakTak (zdalny URL)Tak (zdalny URL)MODELSTUDIO_API_KEY
BytePlusseedance-1-0-lite-t2v-250428Tak1 obrazNieBYTEPLUS_API_KEY
ComfyUIworkflowTak1 obrazNieCOMFY_API_KEY lub COMFY_CLOUD_API_KEY
falfal-ai/minimax/video-01-liveTak1 obrazNieFAL_KEY
Googleveo-3.1-fast-generate-previewTak1 obraz1 filmGEMINI_API_KEY
MiniMaxMiniMax-Hailuo-2.3Tak1 obrazNieMINIMAX_API_KEY
OpenAIsora-2Tak1 obraz1 filmOPENAI_API_KEY
Qwenwan2.6-t2vTakTak (zdalny URL)Tak (zdalny URL)QWEN_API_KEY
Runwaygen4.5Tak1 obraz1 filmRUNWAYML_API_SECRET
TogetherWan-AI/Wan2.2-T2V-A14BTak1 obrazNieTOGETHER_API_KEY
Vydraveo3Tak1 obraz (kling)NieVYDRA_API_KEY
xAIgrok-imagine-videoTak1 obraz1 filmXAI_API_KEY
Niektórzy dostawcy akceptują dodatkowe lub alternatywne zmienne środowiskowe dla kluczy API. Szczegóły znajdziesz na poszczególnych stronach dostawców. Uruchom video_generate action=list, aby sprawdzić dostępnych dostawców i modele w czasie działania.

Parametry narzędzia

Wymagane

ParametrTypOpis
promptstringTekstowy opis filmu do wygenerowania (wymagany dla action: "generate")

Wejścia treści

ParametrTypOpis
imagestringPojedynczy obraz referencyjny (ścieżka lub URL)
imagesstring[]Wiele obrazów referencyjnych (maksymalnie 5)
videostringPojedynczy film referencyjny (ścieżka lub URL)
videosstring[]Wiele filmów referencyjnych (maksymalnie 4)

Kontrola stylu

ParametrTypOpis
aspectRatiostring1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
resolutionstring480P, 720P lub 1080P
durationSecondsnumberDocelowy czas trwania w sekundach (zaokrąglany do najbliższej wartości obsługiwanej przez dostawcę)
sizestringWskazówka rozmiaru, jeśli dostawca ją obsługuje
audiobooleanWłącz generowany dźwięk, jeśli jest obsługiwany
watermarkbooleanWłącz lub wyłącz znak wodny dostawcy, jeśli jest obsługiwany

Zaawansowane

ParametrTypOpis
actionstring"generate" (domyślnie), "status" lub "list"
modelstringNadpisanie dostawcy/modelu (np. runway/gen4.5)
filenamestringWskazówka dotycząca nazwy pliku
Nie wszyscy dostawcy obsługują wszystkie parametry. Nieobsługiwane nadpisania są ignorowane w miarę możliwości i zgłaszane jako ostrzeżenia w wyniku narzędzia. Twarde ograniczenia możliwości (takie jak zbyt wiele wejść referencyjnych) powodują błąd przed wysłaniem.

Akcje

  • generate (domyślnie) — utwórz film na podstawie podanego promptu i opcjonalnych wejść referencyjnych.
  • status — sprawdź stan zadania generowania filmu będącego w toku dla bieżącej sesji bez uruchamiania kolejnego generowania.
  • list — pokaż dostępnych dostawców, modele i ich możliwości.

Wybór modelu

Podczas generowania filmu OpenClaw ustala model w następującej kolejności:
  1. Parametr narzędzia model — jeśli agent określi go w wywołaniu.
  2. videoGenerationModel.primary — z konfiguracji.
  3. videoGenerationModel.fallbacks — próbowane po kolei.
  4. Automatyczne wykrywanie — używa dostawców z prawidłową autoryzacją, zaczynając od bieżącego domyślnego dostawcy, a następnie pozostałych dostawców w kolejności alfabetycznej.
Jeśli jeden dostawca zawiedzie, następny kandydat jest próbowany automatycznie. Jeśli wszyscy kandydaci zawiodą, błąd zawiera szczegóły z każdej próby.
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "google/veo-3.1-fast-generate-preview",
        fallbacks: ["runway/gen4.5", "qwen/wan2.6-t2v"],
      },
    },
  },
}

Uwagi o dostawcach

DostawcaUwagi
AlibabaUżywa asynchronicznego endpointu DashScope/Model Studio. Obrazy i filmy referencyjne muszą być zdalnymi adresami URL http(s).
BytePlusTylko pojedynczy obraz referencyjny.
ComfyUILokalne lub chmurowe wykonywanie sterowane workflow. Obsługuje text-to-video i image-to-video przez skonfigurowany graf.
falUżywa przepływu opartego na kolejce dla długotrwałych zadań. Tylko pojedynczy obraz referencyjny.
GoogleUżywa Gemini/Veo. Obsługuje jeden obraz lub jeden film referencyjny.
MiniMaxTylko pojedynczy obraz referencyjny.
OpenAIPrzekazywane jest tylko nadpisanie size. Inne nadpisania stylu (aspectRatio, resolution, audio, watermark) są ignorowane z ostrzeżeniem.
QwenTen sam backend DashScope co Alibaba. Wejścia referencyjne muszą być zdalnymi adresami URL http(s); pliki lokalne są odrzucane z góry.
RunwayObsługuje pliki lokalne przez URI danych. Video-to-video wymaga runway/gen4_aleph. Uruchomienia tylko tekstowe udostępniają proporcje 16:9 i 9:16.
TogetherTylko pojedynczy obraz referencyjny.
VydraUżywa bezpośrednio https://www.vydra.ai/api/v1, aby uniknąć przekierowań z gubieniem autoryzacji. veo3 jest dołączony tylko jako text-to-video; kling wymaga zdalnego adresu URL obrazu.
xAIObsługuje przepływy text-to-video, image-to-video oraz zdalną edycję/rozszerzanie wideo.

Konfiguracja

Ustaw domyślny model generowania filmów w konfiguracji OpenClaw:
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "qwen/wan2.6-t2v",
        fallbacks: ["qwen/wan2.6-r2v-flash"],
      },
    },
  },
}
Lub przez CLI:
openclaw config set agents.defaults.videoGenerationModel.primary "qwen/wan2.6-t2v"

Powiązane