Перейти до основного вмісту

Генерація та розуміння медіа

OpenClaw генерує зображення, відео та музику, розуміє вхідні медіа (зображення, аудіо, відео) і озвучує відповіді за допомогою синтезу мовлення з тексту. Усі медіаможливості керуються інструментами: агент сам вирішує, коли їх використовувати, на основі розмови, і кожен інструмент з’являється лише тоді, коли налаштовано принаймні одного базового постачальника.

Можливості з першого погляду

МожливістьІнструментПостачальникиЩо робить
Генерація зображеньimage_generateComfyUI, fal, Google, MiniMax, OpenAI, VydraСтворює або редагує зображення з текстових запитів чи референсів
Генерація відеоvideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAIСтворює відео з тексту, зображень або наявних відео
Генерація музикиmusic_generateComfyUI, Google, MiniMaxСтворює музику або аудіодоріжки з текстових запитів
Синтез мовлення (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIПеретворює вихідні відповіді на озвучене аудіо
Розуміння медіа(автоматично)Будь-який постачальник моделей із підтримкою vision/audio, а також резервні варіанти CLIПідсумовує вхідні зображення, аудіо та відео

Матриця можливостей постачальників

Ця таблиця показує, які постачальники підтримують які медіаможливості на платформі.
ПостачальникЗображенняВідеоМузикаTTSSTT / ТранскрипціяРозуміння медіа
AlibabaYes
BytePlusYes
ComfyUIYesYesYes
DeepgramYes
ElevenLabsYes
falYesYes
GoogleYesYesYesYes
MicrosoftYes
MiniMaxYesYesYesYes
OpenAIYesYesYesYesYes
QwenYes
RunwayYes
TogetherYes
VydraYesYes
xAIYes
Розуміння медіа використовує будь-яку модель із підтримкою vision або audio, зареєстровану у вашій конфігурації постачальника. У таблиці вище виділено постачальників зі спеціалізованою підтримкою розуміння медіа; більшість постачальників LLM із мультимодальними моделями (Anthropic, Google, OpenAI тощо) також можуть розуміти вхідні медіа, якщо їх налаштовано як активну модель відповіді.

Як працює асинхронна генерація

Генерація відео та музики виконується як фонові завдання, оскільки обробка в постачальника зазвичай триває від 30 секунд до кількох хвилин. Коли агент викликає video_generate або music_generate, OpenClaw надсилає запит постачальнику, одразу повертає ID завдання та відстежує роботу в реєстрі завдань. Агент продовжує відповідати на інші повідомлення, поки виконується завдання. Коли постачальник завершує обробку, OpenClaw пробуджує агента, щоб той міг опублікувати готовий медіафайл назад у вихідний канал. Генерація зображень і TTS є синхронними та завершуються в межах відповіді.

Швидкі посилання

  • Image Generation — генерація та редагування зображень
  • Video Generation — text-to-video, image-to-video і video-to-video
  • Music Generation — створення музики та аудіодоріжок
  • Text-to-Speech — перетворення відповідей на озвучене аудіо
  • Media Understanding — розуміння вхідних зображень, аудіо та відео