Mediengenerierung und Media Understanding
OpenClaw generiert Bilder, Videos und Musik, versteht eingehende Medien (Bilder, Audio, Video) und spricht Antworten mit Text-to-Speech laut aus. Alle Medienfähigkeiten sind Tool-gesteuert: Der Agent entscheidet anhand der Unterhaltung, wann er sie verwendet, und jedes Tool erscheint nur, wenn mindestens ein zugrunde liegender Provider konfiguriert ist.
Fähigkeiten auf einen Blick
| Fähigkeit | Tool | Provider | Was es macht |
|---|
| Bildgenerierung | image_generate | ComfyUI, fal, Google, MiniMax, OpenAI, Vydra | Erstellt oder bearbeitet Bilder aus Text-Prompts oder Referenzen |
| Videogenerierung | video_generate | Alibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAI | Erstellt Videos aus Text, Bildern oder vorhandenen Videos |
| Musikgenerierung | music_generate | ComfyUI, Google, MiniMax | Erstellt Musik oder Audiospuren aus Text-Prompts |
| Text-to-Speech (TTS) | tts | ElevenLabs, Microsoft, MiniMax, OpenAI | Wandelt ausgehende Antworten in gesprochene Audiodateien um |
| Media Understanding | (automatisch) | Jeder bild-/audiofähige Modell-Provider sowie CLI-Fallbacks | Fasst eingehende Bilder, Audio und Video zusammen |
Matrix der Provider-Fähigkeiten
Diese Tabelle zeigt, welche Provider welche Medienfähigkeiten plattformweit unterstützen.
| Provider | Bild | Video | Musik | TTS | STT / Transkription | Media Understanding |
|---|
| Alibaba | | Ja | | | | |
| BytePlus | | Ja | | | | |
| ComfyUI | Ja | Ja | Ja | | | |
| Deepgram | | | | | Ja | |
| ElevenLabs | | | | Ja | | |
| fal | Ja | Ja | | | | |
| Google | Ja | Ja | Ja | | | Ja |
| Microsoft | | | | Ja | | |
| MiniMax | Ja | Ja | Ja | Ja | | |
| OpenAI | Ja | Ja | | Ja | Ja | Ja |
| Qwen | | Ja | | | | |
| Runway | | Ja | | | | |
| Together | | Ja | | | | |
| Vydra | Ja | Ja | | | | |
| xAI | | Ja | | | | |
Media Understanding verwendet jedes bildfähige oder audiofähige Modell, das in Ihrer Provider-Konfiguration registriert ist. Die obige Tabelle hebt Provider mit dedizierter Unterstützung für Media Understanding hervor; die meisten LLM-Provider mit multimodalen Modellen (Anthropic, Google, OpenAI usw.) können bei entsprechender Konfiguration als aktives Antwortmodell ebenfalls eingehende Medien verstehen.
So funktioniert asynchrone Generierung
Video- und Musikgenerierung laufen als Hintergrundaufgaben, da die Verarbeitung durch Provider typischerweise 30 Sekunden bis mehrere Minuten dauert. Wenn der Agent video_generate oder music_generate aufruft, übermittelt OpenClaw die Anfrage an den Provider, gibt sofort eine Task-ID zurück und verfolgt den Job im Task-Ledger. Der Agent antwortet weiter auf andere Nachrichten, während der Job läuft. Wenn der Provider fertig ist, weckt OpenClaw den Agenten, damit er die fertigen Medien zurück in den ursprünglichen Kanal posten kann. Bildgenerierung und TTS sind synchron und werden inline mit der Antwort abgeschlossen.
Schnelllinks