Перейти до основного вмісту

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw генерує зображення, відео та музику, розуміє вхідні медіа (зображення, аудіо, відео) і озвучує відповіді за допомогою перетворення тексту на мовлення. Усі медіаможливості керуються інструментами: агент вирішує, коли їх використовувати, на основі розмови, а кожен інструмент з’являється лише тоді, коли налаштовано принаймні одного підтримувального провайдера. Живе мовлення використовує контракт сеансу Talk замість шляху одноразового медіаінструмента. Talk має три режими: нативний для провайдера realtime, локальний або потоковий stt-tts і transcription для захоплення мовлення лише для спостереження. Ці режими спільно використовують каталоги провайдерів, конверти подій і семантику скасування з телефонією, зустрічами, браузерним реальним часом і нативними клієнтами push-to-talk.

Можливості

Генерація зображень

Створюйте й редагуйте зображення з текстових підказок або еталонних зображень через image_generate. Синхронно — завершується безпосередньо у відповіді.

Генерація відео

Текст-у-відео, зображення-у-відео та відео-у-відео через video_generate. Асинхронно — виконується у фоновому режимі й публікує результат, коли він готовий.

Генерація музики

Генеруйте музику або аудіодоріжки через music_generate. Асинхронно на спільних провайдерах; шлях робочого процесу ComfyUI виконується синхронно.

Перетворення тексту на мовлення

Перетворюйте вихідні відповіді на озвучене аудіо через інструмент tts плюс конфігурацію messages.tts. Синхронно.

Розуміння медіа

Підсумовуйте вхідні зображення, аудіо та відео за допомогою модельних провайдерів із підтримкою зору та спеціалізованих plugins для розуміння медіа.

Перетворення мовлення на текст

Транскрибуйте вхідні голосові повідомлення через пакетне STT або провайдерів потокового STT для голосових викликів.

Матриця можливостей провайдерів

ПровайдерЗображенняВідеоМузикаTTSSTTГолос у реальному часіРозуміння медіа
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo
Розуміння медіа використовує будь-яку зареєстровану у вашій конфігурації провайдера модель із підтримкою зору або аудіо. Наведена вище матриця перелічує провайдерів зі спеціалізованою підтримкою розуміння медіа; більшість мультимодальних провайдерів LLM (Anthropic, Google, OpenAI тощо) також можуть розуміти вхідні медіа, коли їх налаштовано як активну модель відповіді.

Асинхронно чи синхронно

МожливістьРежимЧому
ЗображенняСинхроннийВідповіді провайдера повертаються за секунди; завершується безпосередньо у відповіді.
Текст-у-мовленняСинхроннийВідповіді провайдера повертаються за секунди; додаються до аудіо відповіді.
ВідеоАсинхроннийОбробка провайдером триває від 30 с до кількох хвилин; повільні черги можуть працювати до налаштованого тайм-ауту.
Музика (спільна)АсинхроннийТа сама характеристика обробки провайдером, що й для відео.
Музика (ComfyUI)СинхроннийЛокальний робочий процес виконується безпосередньо на налаштованому сервері ComfyUI.
Для асинхронних інструментів OpenClaw надсилає запит провайдеру, негайно повертає id завдання й відстежує роботу в реєстрі завдань. Агент продовжує відповідати на інші повідомлення, поки виконується завдання. Коли провайдер завершує роботу, OpenClaw пробуджує агента зі шляхами до згенерованих медіа, щоб він міг повідомити користувача і, коли цього вимагає політика доставки джерела, передати результат через інструмент повідомлень. Для групових/канальних маршрутів лише через інструмент повідомлень OpenClaw вважає відсутність доказу доставки інструментом повідомлень невдалою спробою завершення й надсилає згенеровані медіа як резервний варіант безпосередньо до початкового каналу.

Перетворення мовлення на текст і голосові виклики

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio та xAI можуть транскрибувати вхідне аудіо через пакетний шлях tools.media.audio, коли їх налаштовано. Channel plugins, які попередньо перевіряють голосову нотатку для пропускання за згадкою або розбору команд, позначають транскрибоване вкладення у вхідному контексті, тож спільний прохід розуміння медіа повторно використовує цей транскрипт замість другого виклику STT для того самого аудіо. Deepgram, ElevenLabs, Mistral, OpenAI та xAI також реєструють провайдерів потокового STT для голосових викликів, тож живе телефонне аудіо можна пересилати вибраному постачальнику без очікування завершеного запису. Для живих розмов із користувачами надавайте перевагу режиму Talk. Пакетні аудіо вкладення залишаються на медійному шляху; браузерний реальний час, нативний push-to-talk, телефонія та аудіо зустрічей мають використовувати події Talk і каталоги в межах сеансу, повернуті Gateway.

Зіставлення провайдерів (як постачальники розподіляються між поверхнями)

Поверхні зображень, відео, музики, пакетного TTS, бекендового голосу в реальному часі та розуміння медіа.
Поверхні зображень, відео, пакетного TTS, пакетного STT, потокового STT для голосових викликів, бекендового голосу в реальному часі та вбудовувань пам’яті.
Поверхні маршрутизації чату/моделей, генерації/редагування зображень, тексту-у-відео, пакетного TTS, пакетного STT, розуміння медіазображень і вбудовувань пам’яті. Нативні для DeepInfra моделі переранжування/класифікації/виявлення об’єктів не реєструються, доки OpenClaw не матиме спеціалізованих контрактів провайдерів для цих категорій.
Зображення, відео, пошук, виконання коду, пакетний TTS, пакетний STT і потоковий STT для голосових викликів. Голос xAI Realtime є upstream-можливістю, але він не реєструється в OpenClaw, доки спільний контракт голосу в реальному часі не зможе його представити.

Пов’язане