Tools

Обзор медиа

OpenClaw генерирует изображения, видео и музыку, понимает входящие медиа (изображения, аудио, видео) и произносит ответы вслух с помощью преобразования текста в речь. Все медиа-возможности управляются инструментами: агент решает, когда их использовать, на основе разговора, а каждый инструмент появляется только тогда, когда настроен хотя бы один поддерживающий поставщик.

Живая речь использует контракт сеанса Talk вместо пути одноразового медиа- инструмента. У Talk есть три режима: встроенный у поставщика realtime, локальный или потоковый stt-tts, а также transcription для речевого захвата только в режиме наблюдения. Эти режимы разделяют каталоги поставщиков, конверты событий и семантику отмены с телефонией, встречами, браузерным реальным временем и нативными клиентами push-to-talk.

Возможности

Генерация изображений

Создавайте и редактируйте изображения по текстовым промптам или референсным изображениям через image_generate. Асинхронно в чат-сеансах — выполняется в фоне и публикует результат, когда он готов.

Генерация видео

Текст-в-видео, изображение-в-видео и видео-в-видео через video_generate. Асинхронно — выполняется в фоне и публикует результат, когда он готов.

Генерация музыки

Генерируйте музыку или аудиодорожки через music_generate. Асинхронно в чат-сеансах в рамках общего жизненного цикла задач генерации медиа.

Преобразование текста в речь

Преобразуйте исходящие ответы в речевое аудио через инструмент tts и конфигурацию messages.tts. Синхронно.

Понимание медиа

Суммируйте входящие изображения, аудио и видео с помощью поставщиков моделей с поддержкой зрения и специализированных плагинов понимания медиа.

Преобразование речи в текст

Транскрибируйте входящие голосовые сообщения через пакетные STT-поставщики или потоковые STT-поставщики для голосовых вызовов.

Матрица возможностей поставщиков

Поставщик	Изображения	Видео	Музыка	TTS	STT	Голос в реальном времени	Понимание медиа
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Асинхронно и синхронно

Возможность	Режим	Почему
Изображение	Асинхронный	Обработка у поставщика может длиться дольше хода в чате; сгенерированные вложения используют общий путь завершения.
Преобразование текста в речь	Синхронный	Ответы поставщика возвращаются за секунды; прикрепляются к аудио ответа.
Видео	Асинхронный	Обработка у поставщика занимает от 30 с до нескольких минут; медленные очереди могут выполняться до настроенного тайм-аута.
Музыка	Асинхронный	Та же характеристика обработки у поставщика, что и у видео.

Для асинхронных инструментов OpenClaw отправляет запрос поставщику, сразу возвращает id задачи и отслеживает задание в реестре задач. Агент продолжает отвечать на другие сообщения, пока задание выполняется. Когда поставщик завершает работу, OpenClaw будит агента со сгенерированными путями медиа, чтобы он мог сообщить пользователю через обычный для сеанса режим видимого ответа: автоматическая доставка финального ответа, если она настроена, или message(action="send"), когда сеансу требуется инструмент сообщений. Если сеанс запрашивающего неактивен или его активное пробуждение завершается с ошибкой, а часть сгенерированных медиа все еще отсутствует в ответе о завершении, OpenClaw отправляет идемпотентный прямой запасной ответ только с отсутствующими медиа. Медиа, уже доставленные ответом о завершении, повторно не публикуются.

Преобразование речи в текст и голосовой вызов

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio и xAI могут транскрибировать входящее аудио через пакетный путь tools.media.audio, если они настроены. Плагины каналов, которые предварительно проверяют голосовую заметку для фильтрации упоминаний или разбора команд, помечают транскрибированное вложение во входящем контексте, поэтому общий проход понимания медиа повторно использует эту транскрипцию вместо второго STT-вызова для того же аудио.

Deepgram, ElevenLabs, Mistral, OpenAI и xAI также регистрируют потоковых STT-поставщиков для голосовых вызовов, поэтому живое телефонное аудио можно передавать выбранному поставщику без ожидания завершенной записи.

Для живых пользовательских разговоров предпочитайте режим Talk. Пакетные аудиовложения остаются на медиа-пути; браузерное реальное время, нативный push-to-talk, телефония и аудио встреч должны использовать события Talk и каталоги в области сеанса, возвращаемые Gateway.

Сопоставления поставщиков (как поставщики распределяются по поверхностям)

Google

Поверхности изображений, видео, музыки, пакетного TTS, серверного голоса в реальном времени и понимания медиа.

OpenAI

Поверхности изображений, видео, пакетного TTS, пакетного STT, потокового STT для голосовых вызовов, серверного голоса в реальном времени и эмбеддингов памяти.

DeepInfra

Маршрутизация чата/моделей, генерация/редактирование изображений, текст-в-видео, пакетный TTS, пакетный STT, понимание медиа изображений и поверхности эмбеддингов памяти. Нативные для DeepInfra модели переранжирования/классификации/обнаружения объектов не регистрируются, пока у OpenClaw не появятся специализированные контракты поставщиков для этих категорий.

xAI

Изображения, видео, поиск, выполнение кода, пакетный TTS, пакетный STT и потоковый STT для голосовых вызовов. Голос xAI Realtime является вышестоящей возможностью, но не регистрируется в OpenClaw, пока общий контракт голоса в реальном времени не сможет ее представить.

Связанные материалы

Was this useful?