Zum Hauptinhalt springen

Mediengenerierung und Media Understanding

OpenClaw generiert Bilder, Videos und Musik, versteht eingehende Medien (Bilder, Audio, Video) und spricht Antworten mit Text-to-Speech laut aus. Alle Medienfähigkeiten sind Tool-gesteuert: Der Agent entscheidet anhand der Unterhaltung, wann er sie verwendet, und jedes Tool erscheint nur, wenn mindestens ein zugrunde liegender Provider konfiguriert ist.

Fähigkeiten auf einen Blick

FähigkeitToolProviderWas es macht
Bildgenerierungimage_generateComfyUI, fal, Google, MiniMax, OpenAI, VydraErstellt oder bearbeitet Bilder aus Text-Prompts oder Referenzen
Videogenerierungvideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAIErstellt Videos aus Text, Bildern oder vorhandenen Videos
Musikgenerierungmusic_generateComfyUI, Google, MiniMaxErstellt Musik oder Audiospuren aus Text-Prompts
Text-to-Speech (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIWandelt ausgehende Antworten in gesprochene Audiodateien um
Media Understanding(automatisch)Jeder bild-/audiofähige Modell-Provider sowie CLI-FallbacksFasst eingehende Bilder, Audio und Video zusammen

Matrix der Provider-Fähigkeiten

Diese Tabelle zeigt, welche Provider welche Medienfähigkeiten plattformweit unterstützen.
ProviderBildVideoMusikTTSSTT / TranskriptionMedia Understanding
AlibabaJa
BytePlusJa
ComfyUIJaJaJa
DeepgramJa
ElevenLabsJa
falJaJa
GoogleJaJaJaJa
MicrosoftJa
MiniMaxJaJaJaJa
OpenAIJaJaJaJaJa
QwenJa
RunwayJa
TogetherJa
VydraJaJa
xAIJa
Media Understanding verwendet jedes bildfähige oder audiofähige Modell, das in Ihrer Provider-Konfiguration registriert ist. Die obige Tabelle hebt Provider mit dedizierter Unterstützung für Media Understanding hervor; die meisten LLM-Provider mit multimodalen Modellen (Anthropic, Google, OpenAI usw.) können bei entsprechender Konfiguration als aktives Antwortmodell ebenfalls eingehende Medien verstehen.

So funktioniert asynchrone Generierung

Video- und Musikgenerierung laufen als Hintergrundaufgaben, da die Verarbeitung durch Provider typischerweise 30 Sekunden bis mehrere Minuten dauert. Wenn der Agent video_generate oder music_generate aufruft, übermittelt OpenClaw die Anfrage an den Provider, gibt sofort eine Task-ID zurück und verfolgt den Job im Task-Ledger. Der Agent antwortet weiter auf andere Nachrichten, während der Job läuft. Wenn der Provider fertig ist, weckt OpenClaw den Agenten, damit er die fertigen Medien zurück in den ursprünglichen Kanal posten kann. Bildgenerierung und TTS sind synchron und werden inline mit der Antwort abgeschlossen.