Przejdź do głównej treści

Generowanie i rozumienie mediów

OpenClaw generuje obrazy, wideo i muzykę, rozumie media przychodzące (obrazy, audio, wideo) oraz odczytuje odpowiedzi na głos za pomocą text-to-speech. Wszystkie funkcje medialne są sterowane przez narzędzia: agent decyduje, kiedy ich użyć na podstawie rozmowy, a każde narzędzie pojawia się tylko wtedy, gdy skonfigurowano co najmniej jednego dostawcę zaplecza.

Możliwości w skrócie

MożliwośćNarzędzieDostawcyCo robi
Generowanie obrazówimage_generateComfyUI, fal, Google, MiniMax, OpenAI, VydraTworzy lub edytuje obrazy na podstawie promptów tekstowych lub materiałów referencyjnych
Generowanie wideovideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAITworzy wideo na podstawie tekstu, obrazów lub istniejących filmów
Generowanie muzykimusic_generateComfyUI, Google, MiniMaxTworzy muzykę lub ścieżki audio na podstawie promptów tekstowych
Text-to-speech (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIZamienia odpowiedzi wychodzące na mowę
Rozumienie mediów(automatyczne)Dowolny dostawca modeli obsługujących vision/audio oraz fallbacki CLIPodsumowuje obrazy, audio i wideo przychodzące

Macierz możliwości dostawców

Ta tabela pokazuje, którzy dostawcy obsługują które funkcje medialne na całej platformie.
DostawcaObrazyWideoMuzykaTTSSTT / transkrypcjaRozumienie mediów
AlibabaTak
BytePlusTak
ComfyUITakTakTak
DeepgramTak
ElevenLabsTak
falTakTak
GoogleTakTakTakTak
MicrosoftTak
MiniMaxTakTakTakTak
OpenAITakTakTakTakTak
QwenTak
RunwayTak
TogetherTak
VydraTakTak
xAITak
Rozumienie mediów korzysta z dowolnego modelu obsługującego vision lub audio, zarejestrowanego w konfiguracji dostawcy. Tabela powyżej wyróżnia dostawców z dedykowanym wsparciem dla rozumienia mediów; większość dostawców LLM z modelami multimodalnymi (Anthropic, Google, OpenAI itd.) może również rozumieć media przychodzące, gdy są skonfigurowane jako aktywny model odpowiedzi.

Jak działa generowanie asynchroniczne

Generowanie wideo i muzyki działa jako zadania w tle, ponieważ przetwarzanie po stronie dostawcy zwykle trwa od 30 sekund do kilku minut. Gdy agent wywołuje video_generate lub music_generate, OpenClaw wysyła żądanie do dostawcy, natychmiast zwraca identyfikator zadania i śledzi zadanie w rejestrze zadań. Agent nadal odpowiada na inne wiadomości, podczas gdy zadanie jest wykonywane. Gdy dostawca zakończy pracę, OpenClaw wybudza agenta, aby mógł opublikować gotowe media z powrotem w oryginalnym kanale. Generowanie obrazów i TTS są synchroniczne i kończą się inline wraz z odpowiedzią.

Szybkie linki