Tools

Огляд медіа

OpenClaw генерує зображення, відео й музику, розуміє вхідні медіа (зображення, аудіо, відео) і озвучує відповіді за допомогою перетворення тексту на мовлення. Усі медіаможливості керуються інструментами: агент вирішує, коли використовувати їх на основі розмови, і кожен інструмент з'являється лише тоді, коли налаштовано принаймні одного базового провайдера.

Живе мовлення використовує контракт сеансу Talk замість шляху одноразового медіаінструмента. Talk має три режими: нативний для провайдера realtime, локальний або потоковий stt-tts і transcription для захоплення мовлення лише в режимі спостереження. Ці режими спільно використовують каталоги провайдерів, конверти подій і семантику скасування з телефонією, зустрічами, браузерним режимом реального часу та нативними клієнтами push-to-talk.

Можливості

Генерація зображень

Створюйте й редагуйте зображення з текстових підказок або референсних зображень через image_generate. Асинхронно в чат-сеансах — виконується у фоновому режимі й публікує результат, коли він готовий.

Генерація відео

Text-to-video, image-to-video і video-to-video через video_generate. Асинхронно — виконується у фоновому режимі й публікує результат, коли він готовий.

Генерація музики

Генеруйте музику або аудіодоріжки через music_generate. Асинхронно в чат-сеансах у спільному життєвому циклі завдань генерації медіа.

Text-to-speech

Перетворюйте вихідні відповіді на озвучене аудіо через інструмент tts разом із конфігурацією messages.tts. Синхронно.

Розуміння медіа

Підсумовуйте вхідні зображення, аудіо та відео за допомогою провайдерів моделей із підтримкою зору та спеціалізованих plugins для розуміння медіа.

Speech-to-text

Транскрибуйте вхідні голосові повідомлення через пакетний STT або провайдерів потокового STT для Голосового виклику.

Матриця можливостей провайдерів

Провайдер	Зображення	Відео	Музика	TTS	STT	Голос у реальному часі	Розуміння медіа
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Асинхронно чи синхронно

Можливість	Режим	Чому
Зображення	Асинхронний	Обробка провайдером може тривати довше за чат-хід; згенеровані вкладення використовують спільний шлях завершення.
Text-to-speech	Синхронний	Відповіді провайдера повертаються за секунди; долучаються до аудіо відповіді.
Відео	Асинхронний	Обробка провайдером займає від 30 с до кількох хвилин; повільні черги можуть виконуватися до налаштованого тайм-ауту.
Музика	Асинхронний	Така сама характеристика обробки провайдером, як у відео.

Для асинхронних інструментів OpenClaw надсилає запит провайдеру, одразу повертає id завдання й відстежує роботу в реєстрі завдань. Агент продовжує відповідати на інші повідомлення, поки завдання виконується. Коли провайдер завершує роботу, OpenClaw пробуджує агента зі шляхами до згенерованих медіа, щоб він міг повідомити користувача через звичайний видимий режим відповіді сеансу: автоматичну доставку фінальної відповіді, якщо її налаштовано, або message(action="send"), коли сеанс вимагає інструмент повідомлень. Якщо сеанс запитувача неактивний або його активне пробудження не вдається, а деяких згенерованих медіа все ще бракує у відповіді завершення, OpenClaw надсилає ідемпотентний прямий резервний варіант лише з відсутніми медіа. Медіа, уже доставлені відповіддю завершення, не публікуються повторно.

Speech-to-text і Голосовий виклик

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio та xAI можуть транскрибувати вхідне аудіо через пакетний шлях tools.media.audio, коли їх налаштовано. Plugins каналів, які попередньо перевіряють голосову нотатку для фільтрації згадок або розбору команд, позначають транскрибоване вкладення у вхідному контексті, тож спільний прохід розуміння медіа повторно використовує цей транскрипт замість другого виклику STT для того самого аудіо.

Deepgram, ElevenLabs, Mistral, OpenAI та xAI також реєструють провайдерів потокового STT для Голосового виклику, тож живе телефонне аудіо можна пересилати вибраному постачальнику, не чекаючи завершеного запису.

Для живих розмов із користувачем віддавайте перевагу режиму Talk. Пакетні аудіовкладення залишаються на медіашляху; браузерний режим реального часу, нативний push-to-talk, телефонія та аудіо зустрічей мають використовувати події Talk і каталоги в межах сеансу, повернуті Gateway.

Зіставлення провайдерів (як постачальники розподіляються між поверхнями)

Google

Поверхні зображень, відео, музики, пакетного TTS, бекенд-голосу в реальному часі та розуміння медіа.

OpenAI

Поверхні зображень, відео, пакетного TTS, пакетного STT, потокового STT для Голосового виклику, бекенд-голосу в реальному часі та вбудовування пам'яті.

DeepInfra

Маршрутизація чату/моделей, генерація/редагування зображень, text-to-video, пакетний TTS, пакетний STT, розуміння медіазображень і поверхні вбудовування пам'яті. Нативні для DeepInfra моделі повторного ранжування, класифікації та виявлення об'єктів не реєструються, доки OpenClaw не матиме спеціалізованих контрактів провайдерів для цих категорій.

xAI

Зображення, відео, пошук, виконання коду, пакетний TTS, пакетний STT і потоковий STT для Голосового виклику. Голос xAI Realtime є висхідною можливістю, але не реєструється в OpenClaw, доки спільний контракт голосу в реальному часі не зможе її представляти.

Пов'язане

Was this useful?