Langsung ke konten utama

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw menghasilkan gambar, video, dan musik, memahami media masuk (gambar, audio, video), dan mengucapkan balasan dengan text-to-speech. Semua kapabilitas media digerakkan oleh alat: agen memutuskan kapan menggunakannya berdasarkan percakapan, dan setiap alat hanya muncul ketika setidaknya satu penyedia pendukung dikonfigurasi. Ucapan langsung menggunakan kontrak sesi Talk alih-alih jalur alat media sekali jalan. Talk memiliki tiga mode: realtime asli penyedia, stt-tts lokal atau streaming, dan transcription untuk penangkapan ucapan hanya-observasi. Mode-mode tersebut berbagi katalog penyedia, amplop peristiwa, dan semantik pembatalan dengan telefoni, rapat, realtime browser, dan klien push-to-talk native.

Kapabilitas

Image generation

Buat dan edit gambar dari prompt teks atau gambar referensi melalui image_generate. Sinkron — selesai sebaris dengan balasan.

Video generation

Teks-ke-video, gambar-ke-video, dan video-ke-video melalui video_generate. Asinkron — berjalan di latar belakang dan mengirimkan hasil saat siap.

Music generation

Hasilkan musik atau trek audio melalui music_generate. Asinkron pada penyedia bersama; jalur alur kerja ComfyUI berjalan secara sinkron.

Text-to-speech

Konversi balasan keluar menjadi audio lisan melalui alat tts ditambah konfigurasi messages.tts. Sinkron.

Media understanding

Ringkas gambar, audio, dan video masuk menggunakan penyedia model berkemampuan visi dan plugin pemahaman media khusus.

Speech-to-text

Transkripsikan pesan suara masuk melalui STT batch atau penyedia STT streaming Voice Call.

Matriks kapabilitas penyedia

PenyediaGambarVideoMusikTTSSTTSuara realtimePemahaman media
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo
Pemahaman media menggunakan model berkemampuan visi atau audio apa pun yang terdaftar dalam konfigurasi penyedia Anda. Matriks di atas mencantumkan penyedia dengan dukungan pemahaman media khusus; sebagian besar penyedia LLM multimodal (Anthropic, Google, OpenAI, dll.) juga dapat memahami media masuk saat dikonfigurasi sebagai model balasan aktif.

Asinkron vs sinkron

KapabilitasModeAlasan
GambarSinkronRespons penyedia kembali dalam hitungan detik; selesai sebaris dengan balasan.
Teks-ke-ucapanSinkronRespons penyedia kembali dalam hitungan detik; dilampirkan ke audio balasan.
VideoAsinkronPemrosesan penyedia membutuhkan 30 dtk hingga beberapa menit; antrean lambat dapat berjalan hingga batas waktu yang dikonfigurasi.
Musik (bersama)AsinkronKarakteristik pemrosesan penyedia sama seperti video.
Musik (ComfyUI)SinkronAlur kerja lokal berjalan sebaris terhadap server ComfyUI yang dikonfigurasi.
Untuk alat asinkron, OpenClaw mengirimkan permintaan ke penyedia, segera mengembalikan id tugas, dan melacak pekerjaan dalam buku besar tugas. Agen terus merespons pesan lain sementara pekerjaan berjalan. Ketika penyedia selesai, OpenClaw membangunkan agen dengan jalur media yang dihasilkan agar agen dapat memberi tahu pengguna dan, bila diwajibkan oleh kebijakan pengiriman sumber, meneruskan hasil melalui alat pesan. Untuk rute grup/saluran khusus alat pesan, OpenClaw memperlakukan bukti pengiriman alat pesan yang hilang sebagai upaya penyelesaian yang gagal dan mengirimkan fallback media yang dihasilkan langsung ke saluran asli.

Ucapan-ke-teks dan Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio, dan xAI semuanya dapat mentranskripsikan audio masuk melalui jalur batch tools.media.audio saat dikonfigurasi. Plugin saluran yang melakukan preflight pada catatan suara untuk gating penyebutan atau penguraian perintah menandai lampiran yang ditranskripsikan pada konteks masuk, sehingga lintasan pemahaman media bersama menggunakan kembali transkrip tersebut alih-alih membuat panggilan STT kedua untuk audio yang sama. Deepgram, ElevenLabs, Mistral, OpenAI, dan xAI juga mendaftarkan penyedia STT streaming Voice Call, sehingga audio telepon langsung dapat diteruskan ke vendor terpilih tanpa menunggu rekaman selesai. Untuk percakapan pengguna langsung, gunakan mode Talk. Lampiran audio batch tetap berada di jalur media; realtime browser, push-to-talk native, telefoni, dan audio rapat harus menggunakan peristiwa Talk dan katalog bercakupan sesi yang dikembalikan oleh Gateway.

Pemetaan penyedia (cara vendor dibagi di berbagai permukaan)

Permukaan gambar, video, musik, TTS batch, suara realtime backend, dan pemahaman media.
Permukaan gambar, video, TTS batch, STT batch, STT streaming Voice Call, suara realtime backend, dan penyematan memori.
Perutean chat/model, pembuatan/pengeditan gambar, teks-ke-video, TTS batch, STT batch, pemahaman media gambar, dan permukaan penyematan memori. Model rerank/klasifikasi/deteksi-objek native DeepInfra tidak didaftarkan sampai OpenClaw memiliki kontrak penyedia khusus untuk kategori tersebut.
Gambar, video, pencarian, eksekusi kode, TTS batch, STT batch, dan STT streaming Voice Call. Suara Realtime xAI adalah kapabilitas upstream tetapi tidak didaftarkan di OpenClaw sampai kontrak suara-realtime bersama dapat merepresentasikannya.

Terkait