OpenClaw menghasilkan gambar, video, dan musik, memahami media masuk (gambar, audio, video), dan mengucapkan balasan dengan text-to-speech. Semua kapabilitas media digerakkan oleh alat: agen memutuskan kapan menggunakannya berdasarkan percakapan, dan setiap alat hanya muncul ketika setidaknya satu penyedia pendukung dikonfigurasi. Ucapan langsung menggunakan kontrak sesi Talk alih-alih jalur alat media sekali jalan. Talk memiliki tiga mode:Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
realtime asli penyedia, stt-tts lokal atau streaming,
dan transcription untuk penangkapan ucapan hanya-observasi. Mode-mode tersebut
berbagi katalog penyedia, amplop peristiwa, dan semantik pembatalan dengan
telefoni, rapat, realtime browser, dan klien push-to-talk native.
Kapabilitas
Image generation
Buat dan edit gambar dari prompt teks atau gambar referensi melalui
image_generate. Sinkron — selesai sebaris dengan balasan.Video generation
Teks-ke-video, gambar-ke-video, dan video-ke-video melalui
video_generate.
Asinkron — berjalan di latar belakang dan mengirimkan hasil saat siap.Music generation
Hasilkan musik atau trek audio melalui
music_generate. Asinkron pada
penyedia bersama; jalur alur kerja ComfyUI berjalan secara sinkron.Text-to-speech
Konversi balasan keluar menjadi audio lisan melalui alat
tts ditambah
konfigurasi messages.tts. Sinkron.Media understanding
Ringkas gambar, audio, dan video masuk menggunakan penyedia model
berkemampuan visi dan plugin pemahaman media khusus.
Speech-to-text
Transkripsikan pesan suara masuk melalui STT batch atau penyedia STT
streaming Voice Call.
Matriks kapabilitas penyedia
| Penyedia | Gambar | Video | Musik | TTS | STT | Suara realtime | Pemahaman media |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Pemahaman media menggunakan model berkemampuan visi atau audio apa pun yang terdaftar
dalam konfigurasi penyedia Anda. Matriks di atas mencantumkan penyedia dengan dukungan
pemahaman media khusus; sebagian besar penyedia LLM multimodal (Anthropic, Google,
OpenAI, dll.) juga dapat memahami media masuk saat dikonfigurasi sebagai model
balasan aktif.
Asinkron vs sinkron
| Kapabilitas | Mode | Alasan |
|---|---|---|
| Gambar | Sinkron | Respons penyedia kembali dalam hitungan detik; selesai sebaris dengan balasan. |
| Teks-ke-ucapan | Sinkron | Respons penyedia kembali dalam hitungan detik; dilampirkan ke audio balasan. |
| Video | Asinkron | Pemrosesan penyedia membutuhkan 30 dtk hingga beberapa menit; antrean lambat dapat berjalan hingga batas waktu yang dikonfigurasi. |
| Musik (bersama) | Asinkron | Karakteristik pemrosesan penyedia sama seperti video. |
| Musik (ComfyUI) | Sinkron | Alur kerja lokal berjalan sebaris terhadap server ComfyUI yang dikonfigurasi. |
Ucapan-ke-teks dan Voice Call
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio, dan xAI semuanya dapat mentranskripsikan audio masuk melalui jalur batchtools.media.audio saat dikonfigurasi.
Plugin saluran yang melakukan preflight pada catatan suara untuk gating penyebutan atau
penguraian perintah menandai lampiran yang ditranskripsikan pada konteks masuk, sehingga
lintasan pemahaman media bersama menggunakan kembali transkrip tersebut alih-alih membuat panggilan
STT kedua untuk audio yang sama.
Deepgram, ElevenLabs, Mistral, OpenAI, dan xAI juga mendaftarkan penyedia STT
streaming Voice Call, sehingga audio telepon langsung dapat diteruskan ke vendor
terpilih tanpa menunggu rekaman selesai.
Untuk percakapan pengguna langsung, gunakan mode Talk. Lampiran audio batch
tetap berada di jalur media; realtime browser, push-to-talk native,
telefoni, dan audio rapat harus menggunakan peristiwa Talk dan katalog bercakupan sesi
yang dikembalikan oleh Gateway.
Pemetaan penyedia (cara vendor dibagi di berbagai permukaan)
Google
Permukaan gambar, video, musik, TTS batch, suara realtime backend, dan
pemahaman media.
OpenAI
OpenAI
Permukaan gambar, video, TTS batch, STT batch, STT streaming Voice Call,
suara realtime backend, dan penyematan memori.
DeepInfra
DeepInfra
Perutean chat/model, pembuatan/pengeditan gambar, teks-ke-video, TTS batch,
STT batch, pemahaman media gambar, dan permukaan penyematan memori.
Model rerank/klasifikasi/deteksi-objek native DeepInfra tidak
didaftarkan sampai OpenClaw memiliki kontrak penyedia khusus untuk kategori
tersebut.
xAI
xAI
Gambar, video, pencarian, eksekusi kode, TTS batch, STT batch, dan STT
streaming Voice Call. Suara Realtime xAI adalah kapabilitas upstream tetapi
tidak didaftarkan di OpenClaw sampai kontrak suara-realtime bersama dapat
merepresentasikannya.