Tools

Ikhtisar media

OpenClaw menghasilkan gambar, video, dan musik, memahami media masuk (gambar, audio, video), dan mengucapkan balasan dengan text-to-speech. Semua kemampuan media digerakkan oleh tool: agen memutuskan kapan menggunakannya berdasarkan percakapan, dan setiap tool hanya muncul ketika setidaknya satu provider pendukung dikonfigurasi.

Ucapan langsung menggunakan kontrak sesi Talk, bukan jalur tool media sekali jalan. Talk memiliki tiga mode: realtime native provider, stt-tts lokal atau streaming, dan transcription untuk penangkapan ucapan hanya-observasi. Mode-mode tersebut berbagi katalog provider, envelope peristiwa, dan semantik pembatalan dengan telefoni, rapat, realtime browser, dan klien native push-to-talk.

Kemampuan

Image generation

Buat dan edit gambar dari prompt teks atau gambar referensi melalui image_generate. Asinkron dalam sesi chat — berjalan di latar belakang dan memposting hasilnya saat siap.

Video generation

Teks-ke-video, gambar-ke-video, dan video-ke-video melalui video_generate. Asinkron — berjalan di latar belakang dan memposting hasilnya saat siap.

Music generation

Hasilkan musik atau trek audio melalui music_generate. Asinkron dalam sesi chat pada siklus hidup tugas pembuatan media bersama.

Text-to-speech

Konversi balasan keluar menjadi audio lisan melalui tool tts plus konfigurasi messages.tts. Sinkron.

Media understanding

Ringkas gambar, audio, dan video masuk menggunakan provider model yang mendukung vision dan plugin pemahaman media khusus.

Speech-to-text

Transkripsikan pesan suara masuk melalui STT batch atau provider STT streaming Panggilan Suara.

Matriks kemampuan provider

Provider	Gambar	Video	Musik	TTS	STT	Suara realtime	Pemahaman media
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Asinkron vs sinkron

Kemampuan	Mode	Alasan
Gambar	Asinkron	Pemrosesan provider dapat melampaui giliran chat; lampiran yang dihasilkan menggunakan jalur penyelesaian bersama.
Text-to-speech	Sinkron	Respons provider kembali dalam hitungan detik; dilampirkan ke audio balasan.
Video	Asinkron	Pemrosesan provider memerlukan 30 detik hingga beberapa menit; antrean lambat dapat berjalan hingga timeout yang dikonfigurasi.
Musik	Asinkron	Karakteristik pemrosesan provider sama seperti video.

Untuk tool asinkron, OpenClaw mengirimkan permintaan ke provider, segera mengembalikan id tugas, dan melacak job dalam ledger tugas. Agen terus menanggapi pesan lain selama job berjalan. Ketika provider selesai, OpenClaw membangunkan agen dengan path media yang dihasilkan agar agen dapat memberi tahu pengguna melalui mode balasan-terlihat normal sesi: pengiriman balasan final otomatis ketika dikonfigurasi, atau message(action="send") ketika sesi memerlukan tool pesan. Jika sesi peminta tidak aktif atau wake aktifnya gagal, dan sebagian media yang dihasilkan masih hilang dari balasan penyelesaian, OpenClaw mengirim fallback langsung idempotent hanya dengan media yang hilang. Media yang sudah dikirim oleh balasan penyelesaian tidak diposting lagi.

Speech-to-text dan Panggilan Suara

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio, dan xAI semuanya dapat mentranskripsikan audio masuk melalui jalur batch tools.media.audio ketika dikonfigurasi. Plugin channel yang melakukan preflight catatan suara untuk gating mention atau parsing perintah menandai lampiran yang ditranskripsi pada konteks masuk, sehingga pass pemahaman media bersama menggunakan ulang transkrip tersebut alih-alih membuat panggilan STT kedua untuk audio yang sama.

Deepgram, ElevenLabs, Mistral, OpenAI, dan xAI juga mendaftarkan provider STT streaming Panggilan Suara, sehingga audio telepon langsung dapat diteruskan ke vendor yang dipilih tanpa menunggu rekaman selesai.

Untuk percakapan pengguna langsung, pilih mode Talk. Lampiran audio batch tetap berada pada jalur media; realtime browser, push-to-talk native, telefoni, dan audio rapat harus menggunakan peristiwa Talk dan katalog bercakupan sesi yang dikembalikan oleh Gateway.

Pemetaan provider (cara vendor terbagi di berbagai surface)

Google

Surface gambar, video, musik, TTS batch, suara realtime backend, dan pemahaman media.

OpenAI

Surface gambar, video, TTS batch, STT batch, STT streaming Panggilan Suara, suara realtime backend, dan embedding memori.

DeepInfra

Surface routing chat/model, pembuatan/pengeditan gambar, teks-ke-video, TTS batch, STT batch, pemahaman media gambar, dan embedding memori. Model rerank/klasifikasi/deteksi-objek native DeepInfra tidak didaftarkan sampai OpenClaw memiliki kontrak provider khusus untuk kategori tersebut.

xAI

Gambar, video, pencarian, eksekusi kode, TTS batch, STT batch, dan STT streaming Panggilan Suara. Suara Realtime xAI adalah kemampuan upstream tetapi tidak didaftarkan di OpenClaw sampai kontrak suara-realtime bersama dapat merepresentasikannya.

Terkait

Was this useful?