Modalità Talk
La modalità Talk è un ciclo continuo di conversazione vocale:- Ascolta la voce
- Invia la trascrizione al modello (sessione principale,
chat.send) - Attende la risposta
- La pronuncia tramite il provider Talk configurato (
talk.speak)
Comportamento (macOS)
- Overlay sempre attivo mentre la modalità Talk è abilitata.
- Transizioni di fase Ascolto → Elaborazione → Voce.
- Dopo una breve pausa (finestra di silenzio), la trascrizione corrente viene inviata.
- Le risposte vengono scritte in WebChat (come se fossero digitate).
- Interruzione alla voce (attiva per impostazione predefinita): se l’utente inizia a parlare mentre l’assistente sta parlando, interrompiamo la riproduzione e annotiamo il timestamp dell’interruzione per il prompt successivo.
Direttive vocali nelle risposte
L’assistente può anteporre alla sua risposta una singola riga JSON per controllare la voce:- Solo la prima riga non vuota.
- Le chiavi sconosciute vengono ignorate.
once: truesi applica solo alla risposta corrente.- Senza
once, la voce diventa il nuovo valore predefinito per la modalità Talk. - La riga JSON viene rimossa prima della riproduzione TTS.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Configurazione (~/.openclaw/openclaw.json)
interruptOnSpeech: truesilenceTimeoutMs: se non impostato, Talk mantiene la finestra di pausa predefinita della piattaforma prima di inviare la trascrizione (700 mssu macOS e Android,900 mssu iOS)voiceId: usa come fallbackELEVENLABS_VOICE_ID/SAG_VOICE_ID(oppure la prima voce ElevenLabs quando la chiave API è disponibile)modelId: predefinitoeleven_v3se non impostatoapiKey: usa come fallbackELEVENLABS_API_KEY(oppure il profilo shell del gateway, se disponibile)outputFormat: predefinitopcm_44100su macOS/iOS epcm_24000su Android (impostamp3_*per forzare lo streaming MP3)
UI macOS
- Interruttore nella barra dei menu: Talk
- Scheda di configurazione: gruppo Talk Mode (voice id + interruttore di interruzione)
- Overlay:
- Ascolto: nuvola pulsante con livello microfono
- Elaborazione: animazione di affondamento
- Voce: anelli radianti
- Clic sulla nuvola: interrompe la voce
- Clic sulla X: esce dalla modalità Talk
Note
- Richiede i permessi Speech + Microphone.
- Usa
chat.sendsulla chiave di sessionemain. - Il gateway risolve la riproduzione Talk tramite
talk.speakusando il provider Talk attivo. Android usa il fallback al TTS locale di sistema solo quando quell’RPC non è disponibile. stabilitypereleven_v3viene convalidato a0.0,0.5o1.0; gli altri modelli accettano0..1.latency_tierviene convalidato a0..4quando impostato.- Android supporta i formati di output
pcm_16000,pcm_22050,pcm_24000epcm_44100per lo streaming AudioTrack a bassa latenza.