Ana içeriğe atla

Medya Üretimi ve Anlama

OpenClaw görüntüler, videolar ve müzik üretir; gelen medyayı (görüntü, ses, video) anlar ve yanıtları metinden konuşmaya ile sesli olarak okur. Tüm medya yetenekleri araç odaklıdır: agent bunları konuşmaya göre ne zaman kullanacağına karar verir ve her araç yalnızca en az bir destekleyici sağlayıcı yapılandırıldığında görünür.

Yeteneklere hızlı bakış

YetenekAraçSağlayıcılarNe yapar
Görüntü üretimiimage_generateComfyUI, fal, Google, MiniMax, OpenAI, VydraMetin prompt’larından veya referanslardan görüntü oluşturur ya da düzenler
Video üretimivideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAIMetinden, görüntülerden veya mevcut videolardan video oluşturur
Müzik üretimimusic_generateComfyUI, Google, MiniMaxMetin prompt’larından müzik veya ses parçaları oluşturur
Metinden konuşmaya (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIGiden yanıtları konuşulan sese dönüştürür
Medya anlama(otomatik)Herhangi bir vision/audio yetenekli model sağlayıcısı, ayrıca CLI fallback’leriGelen görüntüleri, sesleri ve videoları özetler

Sağlayıcı yetenek matrisi

Bu tablo, sağlayıcıların platform genelinde hangi medya yeteneklerini desteklediğini gösterir.
SağlayıcıGörüntüVideoMüzikTTSSTT / TranskripsiyonMedya Anlama
AlibabaYes
BytePlusYes
ComfyUIYesYesYes
DeepgramYes
ElevenLabsYes
falYesYes
GoogleYesYesYesYes
MicrosoftYes
MiniMaxYesYesYesYes
OpenAIYesYesYesYesYes
QwenYes
RunwayYes
TogetherYes
VydraYesYes
xAIYes
Medya anlama, sağlayıcı config’inizde kayıtlı olan herhangi bir vision-capable veya audio-capable modeli kullanır. Yukarıdaki tablo, özel medya-anlama desteğine sahip sağlayıcıları öne çıkarır; multimodal modellere sahip çoğu LLM sağlayıcısı (Anthropic, Google, OpenAI vb.) etkin yanıt modeli olarak yapılandırıldığında gelen medyayı da anlayabilir.

Asenkron üretim nasıl çalışır

Video ve müzik üretimi arka plan görevleri olarak çalışır; çünkü sağlayıcı işlemesi tipik olarak 30 saniye ile birkaç dakika sürer. Agent video_generate veya music_generate çağırdığında, OpenClaw isteği sağlayıcıya gönderir, hemen bir görev kimliği döndürür ve işi görev ledger’ında izler. İş çalışırken agent diğer mesajlara yanıt vermeye devam eder. Sağlayıcı tamamladığında OpenClaw agent’ı uyandırır; böylece tamamlanmış medyayı özgün kanala geri gönderebilir. Görüntü üretimi ve TTS eşzamanlıdır ve yanıtla birlikte satır içinde tamamlanır.

Hızlı bağlantılar