Tools
Обзор медиа
OpenClaw генерирует изображения, видео и музыку, понимает входящие медиа (изображения, аудио, видео) и произносит ответы вслух с помощью преобразования текста в речь. Все медиа-возможности управляются инструментами: агент решает, когда их использовать, на основе разговора, а каждый инструмент появляется только тогда, когда настроен хотя бы один поддерживающий поставщик.
Живая речь использует контракт сеанса Talk вместо пути одноразового медиа-
инструмента. У Talk есть три режима: встроенный у поставщика realtime,
локальный или потоковый stt-tts, а также transcription для речевого захвата
только в режиме наблюдения. Эти режимы разделяют каталоги поставщиков, конверты
событий и семантику отмены с телефонией, встречами, браузерным реальным
временем и нативными клиентами push-to-talk.
Возможности
Создавайте и редактируйте изображения по текстовым промптам или
референсным изображениям через image_generate. Асинхронно в чат-сеансах —
выполняется в фоне и публикует результат, когда он готов.
Текст-в-видео, изображение-в-видео и видео-в-видео через video_generate.
Асинхронно — выполняется в фоне и публикует результат, когда он готов.
Генерируйте музыку или аудиодорожки через music_generate. Асинхронно в
чат-сеансах в рамках общего жизненного цикла задач генерации медиа.
Преобразуйте исходящие ответы в речевое аудио через инструмент tts и
конфигурацию messages.tts. Синхронно.
Суммируйте входящие изображения, аудио и видео с помощью поставщиков моделей с поддержкой зрения и специализированных плагинов понимания медиа.
Транскрибируйте входящие голосовые сообщения через пакетные STT-поставщики или потоковые STT-поставщики для голосовых вызовов.
Матрица возможностей поставщиков
| Поставщик | Изображения | Видео | Музыка | TTS | STT | Голос в реальном времени | Понимание медиа |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | ✓ | ||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| Microsoft Foundry | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Асинхронно и синхронно
| Возможность | Режим | Почему |
|---|---|---|
| Изображение | Асинхронный | Обработка у поставщика может длиться дольше хода в чате; сгенерированные вложения используют общий путь завершения. |
| Преобразование текста в речь | Синхронный | Ответы поставщика возвращаются за секунды; прикрепляются к аудио ответа. |
| Видео | Асинхронный | Обработка у поставщика занимает от 30 с до нескольких минут; медленные очереди могут выполняться до настроенного тайм-аута. |
| Музыка | Асинхронный | Та же характеристика обработки у поставщика, что и у видео. |
Для асинхронных инструментов OpenClaw отправляет запрос поставщику, сразу
возвращает id задачи и отслеживает задание в реестре задач. Агент продолжает
отвечать на другие сообщения, пока задание выполняется. Когда поставщик
завершает работу, OpenClaw будит агента со сгенерированными путями медиа, чтобы
он мог сообщить пользователю через обычный для сеанса режим видимого ответа:
автоматическая доставка финального ответа, если она настроена, или
message(action="send"), когда сеансу требуется инструмент сообщений. Если
сеанс запрашивающего неактивен или его активное пробуждение завершается с
ошибкой, а часть сгенерированных медиа все еще отсутствует в ответе о
завершении, OpenClaw отправляет идемпотентный прямой запасной ответ только с
отсутствующими медиа. Медиа, уже доставленные ответом о завершении, повторно не
публикуются.
Преобразование речи в текст и голосовой вызов
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio и xAI могут
транскрибировать входящее аудио через пакетный путь tools.media.audio, если
они настроены. Плагины каналов, которые предварительно проверяют голосовую
заметку для фильтрации упоминаний или разбора команд, помечают
транскрибированное вложение во входящем контексте, поэтому общий проход
понимания медиа повторно использует эту транскрипцию вместо второго STT-вызова
для того же аудио.
Deepgram, ElevenLabs, Mistral, OpenAI и xAI также регистрируют потоковых STT-поставщиков для голосовых вызовов, поэтому живое телефонное аудио можно передавать выбранному поставщику без ожидания завершенной записи.
Для живых пользовательских разговоров предпочитайте режим Talk. Пакетные аудиовложения остаются на медиа-пути; браузерное реальное время, нативный push-to-talk, телефония и аудио встреч должны использовать события Talk и каталоги в области сеанса, возвращаемые Gateway.
Сопоставления поставщиков (как поставщики распределяются по поверхностям)
Поверхности изображений, видео, музыки, пакетного TTS, серверного голоса в реальном времени и понимания медиа.
OpenAI
Поверхности изображений, видео, пакетного TTS, пакетного STT, потокового STT для голосовых вызовов, серверного голоса в реальном времени и эмбеддингов памяти.
DeepInfra
Маршрутизация чата/моделей, генерация/редактирование изображений, текст-в-видео, пакетный TTS, пакетный STT, понимание медиа изображений и поверхности эмбеддингов памяти. Нативные для DeepInfra модели переранжирования/классификации/обнаружения объектов не регистрируются, пока у OpenClaw не появятся специализированные контракты поставщиков для этих категорий.
xAI
Изображения, видео, поиск, выполнение кода, пакетный TTS, пакетный STT и потоковый STT для голосовых вызовов. Голос xAI Realtime является вышестоящей возможностью, но не регистрируется в OpenClaw, пока общий контракт голоса в реальном времени не сможет ее представить.