OpenClaw генерує зображення, відео та музику, розуміє вхідні медіа (зображення, аудіо, відео) і озвучує відповіді за допомогою перетворення тексту на мовлення. Усі медіаможливості керуються інструментами: агент вирішує, коли їх використовувати, на основі розмови, а кожен інструмент з’являється лише тоді, коли налаштовано принаймні одного підтримувального провайдера. Живе мовлення використовує контракт сеансу Talk замість шляху одноразового медіаінструмента. Talk має три режими: нативний для провайдераDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
realtime, локальний або потоковий
stt-tts і transcription для захоплення мовлення лише для спостереження. Ці режими
спільно використовують каталоги провайдерів, конверти подій і семантику скасування з
телефонією, зустрічами, браузерним реальним часом і нативними клієнтами push-to-talk.
Можливості
Генерація зображень
Створюйте й редагуйте зображення з текстових підказок або еталонних зображень через
image_generate. Синхронно — завершується безпосередньо у відповіді.Генерація відео
Текст-у-відео, зображення-у-відео та відео-у-відео через
video_generate.
Асинхронно — виконується у фоновому режимі й публікує результат, коли він готовий.Генерація музики
Генеруйте музику або аудіодоріжки через
music_generate. Асинхронно на спільних
провайдерах; шлях робочого процесу ComfyUI виконується синхронно.Перетворення тексту на мовлення
Перетворюйте вихідні відповіді на озвучене аудіо через інструмент
tts плюс
конфігурацію messages.tts. Синхронно.Розуміння медіа
Підсумовуйте вхідні зображення, аудіо та відео за допомогою модельних
провайдерів із підтримкою зору та спеціалізованих plugins для розуміння медіа.
Перетворення мовлення на текст
Транскрибуйте вхідні голосові повідомлення через пакетне STT або провайдерів
потокового STT для голосових викликів.
Матриця можливостей провайдерів
| Провайдер | Зображення | Відео | Музика | TTS | STT | Голос у реальному часі | Розуміння медіа |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Розуміння медіа використовує будь-яку зареєстровану у вашій конфігурації провайдера
модель із підтримкою зору або аудіо. Наведена вище матриця перелічує провайдерів зі спеціалізованою
підтримкою розуміння медіа; більшість мультимодальних провайдерів LLM (Anthropic, Google,
OpenAI тощо) також можуть розуміти вхідні медіа, коли їх налаштовано як активну
модель відповіді.
Асинхронно чи синхронно
| Можливість | Режим | Чому |
|---|---|---|
| Зображення | Синхронний | Відповіді провайдера повертаються за секунди; завершується безпосередньо у відповіді. |
| Текст-у-мовлення | Синхронний | Відповіді провайдера повертаються за секунди; додаються до аудіо відповіді. |
| Відео | Асинхронний | Обробка провайдером триває від 30 с до кількох хвилин; повільні черги можуть працювати до налаштованого тайм-ауту. |
| Музика (спільна) | Асинхронний | Та сама характеристика обробки провайдером, що й для відео. |
| Музика (ComfyUI) | Синхронний | Локальний робочий процес виконується безпосередньо на налаштованому сервері ComfyUI. |
Перетворення мовлення на текст і голосові виклики
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio та xAI можуть транскрибувати вхідне аудіо через пакетний шляхtools.media.audio, коли їх налаштовано.
Channel plugins, які попередньо перевіряють голосову нотатку для пропускання за згадкою або розбору
команд, позначають транскрибоване вкладення у вхідному контексті, тож спільний
прохід розуміння медіа повторно використовує цей транскрипт замість другого
виклику STT для того самого аудіо.
Deepgram, ElevenLabs, Mistral, OpenAI та xAI також реєструють провайдерів
потокового STT для голосових викликів, тож живе телефонне аудіо можна пересилати вибраному
постачальнику без очікування завершеного запису.
Для живих розмов із користувачами надавайте перевагу режиму Talk. Пакетні аудіо
вкладення залишаються на медійному шляху; браузерний реальний час, нативний push-to-talk,
телефонія та аудіо зустрічей мають використовувати події Talk і каталоги в межах сеансу,
повернуті Gateway.
Зіставлення провайдерів (як постачальники розподіляються між поверхнями)
Google
Поверхні зображень, відео, музики, пакетного TTS, бекендового голосу в реальному часі та
розуміння медіа.
OpenAI
OpenAI
Поверхні зображень, відео, пакетного TTS, пакетного STT, потокового STT для голосових викликів, бекендового
голосу в реальному часі та вбудовувань пам’яті.
DeepInfra
DeepInfra
Поверхні маршрутизації чату/моделей, генерації/редагування зображень, тексту-у-відео, пакетного TTS,
пакетного STT, розуміння медіазображень і вбудовувань пам’яті.
Нативні для DeepInfra моделі переранжування/класифікації/виявлення об’єктів не
реєструються, доки OpenClaw не матиме спеціалізованих контрактів провайдерів для цих
категорій.
xAI
xAI
Зображення, відео, пошук, виконання коду, пакетний TTS, пакетний STT і потоковий STT для голосових
викликів. Голос xAI Realtime є upstream-можливістю, але він
не реєструється в OpenClaw, доки спільний контракт голосу в реальному часі не зможе
його представити.