Mode Talk memiliki dua bentuk runtime:Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Talk macOS/iOS/Android native menggunakan pengenalan suara lokal, chat Gateway, dan TTS
talk.speak. Node mengiklankan kapabilitastalkdan mendeklarasikan perintahtalk.*yang didukung. - Talk browser menggunakan
talk.client.createuntuk sesiwebrtcdanprovider-websocketyang dimiliki klien, atautalk.session.createuntuk sesigateway-relayyang dimiliki Gateway.managed-roomdicadangkan untuk handoff Gateway dan ruang walkie-talkie. - Klien khusus transkripsi menggunakan
talk.session.create({ mode: "transcription", transport: "gateway-relay", brain: "none" }), lalutalk.session.appendAudio,talk.session.cancelTurn, dantalk.session.closeketika mereka membutuhkan teks layar atau dikte tanpa respons suara asisten.
- Mendengarkan ucapan
- Mengirim transkrip ke model melalui sesi aktif
- Menunggu respons
- Mengucapkannya melalui penyedia Talk yang dikonfigurasi (
talk.speak)
talk.client.toolCall; klien browser tidak memanggil chat.send secara langsung untuk konsultasi realtime.
Talk khusus transkripsi memancarkan amplop event Talk umum yang sama seperti sesi realtime dan STT/TTS, tetapi menggunakan mode: "transcription" dan brain: "none". Ini ditujukan untuk teks layar, dikte, dan tangkapan suara hanya-observasi; catatan suara unggahan sekali jalan tetap menggunakan jalur media/audio.
Perilaku (macOS)
- Overlay selalu aktif saat mode Talk diaktifkan.
- Transisi fase Mendengarkan → Berpikir → Berbicara.
- Saat ada jeda singkat (jendela hening), transkrip saat ini dikirim.
- Balasan ditulis ke WebChat (sama seperti mengetik).
- Interupsi saat ada ucapan (aktif secara default): jika pengguna mulai berbicara saat asisten sedang berbicara, kami menghentikan pemutaran dan mencatat timestamp interupsi untuk prompt berikutnya.
Direktif suara dalam balasan
Asisten dapat mengawali balasannya dengan satu baris JSON untuk mengontrol suara:- Hanya baris pertama yang tidak kosong.
- Kunci yang tidak dikenal diabaikan.
once: truehanya berlaku untuk balasan saat ini.- Tanpa
once, suara menjadi default baru untuk mode Talk. - Baris JSON dihapus sebelum pemutaran TTS.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Konfigurasi (~/.openclaw/openclaw.json)
interruptOnSpeech: truesilenceTimeoutMs: saat tidak diatur, Talk mempertahankan jendela jeda default platform sebelum mengirim transkrip (700 ms on macOS and Android, 900 ms on iOS)provider: memilih penyedia Talk aktif. Gunakanelevenlabs,mlx, atausystemuntuk jalur pemutaran lokal macOS.providers.<provider>.voiceId: fallback keELEVENLABS_VOICE_ID/SAG_VOICE_IDuntuk ElevenLabs (atau suara ElevenLabs pertama saat kunci API tersedia).providers.elevenlabs.modelId: default keeleven_v3saat tidak diatur.providers.mlx.modelId: default kemlx-community/Soprano-80M-bf16saat tidak diatur.providers.elevenlabs.apiKey: fallback keELEVENLABS_API_KEY(atau profil shell Gateway jika tersedia).consultThinkingLevel: override tingkat berpikir opsional untuk jalannya agen OpenClaw penuh di balik panggilan realtimeopenclaw_agent_consult.consultFastMode: override mode cepat opsional untuk panggilan realtimeopenclaw_agent_consult.realtime.provider: memilih penyedia suara realtime browser/server aktif. Gunakanopenaiuntuk WebRTC,googleuntuk WebSocket penyedia, atau penyedia khusus bridge melalui relay Gateway.realtime.providers.<provider>menyimpan konfigurasi realtime yang dimiliki penyedia. Browser hanya menerima kredensial sesi ephemeral atau terbatas, tidak pernah kunci API standar.realtime.providers.openai.voice: id suara OpenAI Realtime bawaan. Suaragpt-realtime-2saat ini adalahalloy,ash,ballad,coral,echo,sage,shimmer,verse,marin, dancedar;marindancedardirekomendasikan untuk kualitas terbaik.realtime.brain:agent-consultmerutekan panggilan tool realtime melalui kebijakan Gateway;direct-toolsadalah perilaku kompatibilitas khusus pemilik;noneuntuk transkripsi atau orkestrasi eksternal.realtime.instructions: menambahkan instruksi sistem yang menghadap penyedia ke prompt realtime bawaan OpenClaw. Gunakan ini untuk gaya dan nada suara; OpenClaw mempertahankan panduan defaultopenclaw_agent_consult.talk.catalogmengekspos mode valid, transport, strategi brain, format audio realtime, dan flag kapabilitas setiap penyedia agar klien Talk pihak pertama dapat menghindari kombinasi yang tidak didukung.- Penyedia transkripsi streaming ditemukan melalui
talk.catalog.transcription. Relay Gateway saat ini menggunakan konfigurasi penyedia streaming Voice Call hingga permukaan konfigurasi transkripsi Talk khusus ditambahkan. speechLocale: id locale BCP 47 opsional untuk pengenalan suara Talk di perangkat pada iOS/macOS. Biarkan tidak diatur untuk menggunakan default perangkat.outputFormat: default kepcm_44100di macOS/iOS danpcm_24000di Android (aturmp3_*untuk memaksa streaming MP3)
UI macOS
- Toggle bilah menu: Talk
- Tab konfigurasi: grup Mode Talk (id suara + toggle interupsi)
- Overlay:
- Mendengarkan: awan berdenyut sesuai level mikrofon
- Berpikir: animasi tenggelam
- Berbicara: cincin memancar
- Klik awan: hentikan berbicara
- Klik X: keluar dari mode Talk
UI Android
- Toggle tab suara: Talk
- Mic manual dan Talk adalah mode tangkapan runtime yang saling eksklusif.
- Mic manual berhenti saat aplikasi meninggalkan foreground atau pengguna meninggalkan tab Suara.
- Mode Talk terus berjalan hingga dimatikan atau node Android terputus, dan menggunakan tipe foreground-service mikrofon Android saat aktif.
Catatan
- Memerlukan izin Speech + Microphone.
- Talk native menggunakan sesi Gateway aktif dan hanya fallback ke polling riwayat saat event respons tidak tersedia.
- Talk realtime browser menggunakan
talk.client.toolCalluntukopenclaw_agent_consult, alih-alih mengeksposchat.sendke sesi browser yang dimiliki penyedia. - Talk khusus transkripsi menggunakan
talk.session.create,talk.session.appendAudio,talk.session.cancelTurn, dantalk.session.close; klien berlangganan ketalk.eventuntuk pembaruan transkrip parsial/final. - Gateway menyelesaikan pemutaran Talk melalui
talk.speakmenggunakan penyedia Talk aktif. Android fallback ke TTS sistem lokal hanya saat RPC tersebut tidak tersedia. - Pemutaran MLX lokal macOS menggunakan helper
openclaw-mlx-ttsbawaan saat ada, atau executable padaPATH. AturOPENCLAW_MLX_TTS_BINagar menunjuk ke binary helper kustom selama pengembangan. stabilityuntukeleven_v3divalidasi ke0.0,0.5, atau1.0; model lain menerima0..1.latency_tierdivalidasi ke0..4saat diatur.- Android mendukung format output
pcm_16000,pcm_22050,pcm_24000, danpcm_44100untuk streaming AudioTrack latensi rendah.