Langsung ke konten utama

Pembuatan dan Pemahaman Media

OpenClaw membuat gambar, video, dan musik, memahami media masuk (gambar, audio, video), dan mengucapkan balasan dengan text-to-speech. Semua kapabilitas media digerakkan oleh tool: agen memutuskan kapan menggunakannya berdasarkan percakapan, dan setiap tool hanya muncul ketika setidaknya satu provider pendukung telah dikonfigurasi.

Kapabilitas secara ringkas

CapabilityToolProvidersWhat it does
Pembuatan gambarimage_generateComfyUI, fal, Google, MiniMax, OpenAI, VydraMembuat atau mengedit gambar dari prompt teks atau referensi
Pembuatan videovideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAIMembuat video dari teks, gambar, atau video yang sudah ada
Pembuatan musikmusic_generateComfyUI, Google, MiniMaxMembuat musik atau trek audio dari prompt teks
Text-to-speech (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIMengubah balasan keluar menjadi audio yang diucapkan
Pemahaman media(otomatis)Provider model apa pun yang mendukung vision/audio, ditambah fallback CLIMerangkum gambar, audio, dan video masuk

Matriks kapabilitas provider

Tabel ini menunjukkan provider mana yang mendukung kapabilitas media tertentu di seluruh platform.
ProviderGambarVideoMusikTTSSTT / TranskripsiPemahaman Media
AlibabaYa
BytePlusYa
ComfyUIYaYaYa
DeepgramYa
ElevenLabsYa
falYaYa
GoogleYaYaYaYa
MicrosoftYa
MiniMaxYaYaYaYa
OpenAIYaYaYaYaYa
QwenYa
RunwayYa
TogetherYa
VydraYaYa
xAIYa
Pemahaman media menggunakan model apa pun yang mendukung vision atau audio yang terdaftar dalam config provider Anda. Tabel di atas menyoroti provider dengan dukungan pemahaman media khusus; sebagian besar provider LLM dengan model multimodal (Anthropic, Google, OpenAI, dll.) juga dapat memahami media masuk ketika dikonfigurasi sebagai model balasan aktif.

Cara kerja pembuatan asinkron

Pembuatan video dan musik berjalan sebagai tugas latar belakang karena pemrosesan provider biasanya memerlukan 30 detik hingga beberapa menit. Saat agen memanggil video_generate atau music_generate, OpenClaw mengirim permintaan ke provider, segera mengembalikan ID tugas, dan melacak pekerjaan di ledger tugas. Agen tetap dapat merespons pesan lain saat pekerjaan berjalan. Saat provider selesai, OpenClaw membangunkan agen agar dapat memposting media yang sudah selesai kembali ke channel asal. Pembuatan gambar dan TTS bersifat sinkron dan selesai inline bersama balasan.

Tautan cepat