Генерація та розуміння медіа
OpenClaw генерує зображення, відео та музику, розуміє вхідні медіа (зображення, аудіо, відео) і озвучує відповіді за допомогою синтезу мовлення з тексту. Усі медіаможливості керуються інструментами: агент сам вирішує, коли їх використовувати, на основі розмови, і кожен інструмент з’являється лише тоді, коли налаштовано принаймні одного базового постачальника.
Можливості з першого погляду
| Можливість | Інструмент | Постачальники | Що робить |
|---|
| Генерація зображень | image_generate | ComfyUI, fal, Google, MiniMax, OpenAI, Vydra | Створює або редагує зображення з текстових запитів чи референсів |
| Генерація відео | video_generate | Alibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAI | Створює відео з тексту, зображень або наявних відео |
| Генерація музики | music_generate | ComfyUI, Google, MiniMax | Створює музику або аудіодоріжки з текстових запитів |
| Синтез мовлення (TTS) | tts | ElevenLabs, Microsoft, MiniMax, OpenAI | Перетворює вихідні відповіді на озвучене аудіо |
| Розуміння медіа | (автоматично) | Будь-який постачальник моделей із підтримкою vision/audio, а також резервні варіанти CLI | Підсумовує вхідні зображення, аудіо та відео |
Матриця можливостей постачальників
Ця таблиця показує, які постачальники підтримують які медіаможливості на платформі.
| Постачальник | Зображення | Відео | Музика | TTS | STT / Транскрипція | Розуміння медіа |
|---|
| Alibaba | | Yes | | | | |
| BytePlus | | Yes | | | | |
| ComfyUI | Yes | Yes | Yes | | | |
| Deepgram | | | | | Yes | |
| ElevenLabs | | | | Yes | | |
| fal | Yes | Yes | | | | |
| Google | Yes | Yes | Yes | | | Yes |
| Microsoft | | | | Yes | | |
| MiniMax | Yes | Yes | Yes | Yes | | |
| OpenAI | Yes | Yes | | Yes | Yes | Yes |
| Qwen | | Yes | | | | |
| Runway | | Yes | | | | |
| Together | | Yes | | | | |
| Vydra | Yes | Yes | | | | |
| xAI | | Yes | | | | |
Розуміння медіа використовує будь-яку модель із підтримкою vision або audio, зареєстровану у вашій конфігурації постачальника. У таблиці вище виділено постачальників зі спеціалізованою підтримкою розуміння медіа; більшість постачальників LLM із мультимодальними моделями (Anthropic, Google, OpenAI тощо) також можуть розуміти вхідні медіа, якщо їх налаштовано як активну модель відповіді.
Як працює асинхронна генерація
Генерація відео та музики виконується як фонові завдання, оскільки обробка в постачальника зазвичай триває від 30 секунд до кількох хвилин. Коли агент викликає video_generate або music_generate, OpenClaw надсилає запит постачальнику, одразу повертає ID завдання та відстежує роботу в реєстрі завдань. Агент продовжує відповідати на інші повідомлення, поки виконується завдання. Коли постачальник завершує обробку, OpenClaw пробуджує агента, щоб той міг опублікувати готовий медіафайл назад у вихідний канал. Генерація зображень і TTS є синхронними та завершуються в межах відповіді.
Швидкі посилання