Modo Talk
El modo Talk es un bucle continuo de conversación por voz:- Escuchar el habla
- Enviar la transcripción al modelo (sesión principal,
chat.send) - Esperar la respuesta
- Reproducirla mediante el proveedor Talk configurado (
talk.speak)
Comportamiento (macOS)
- Superposición siempre activa mientras el modo Talk está habilitado.
- Transiciones de fase Escuchando → Pensando → Hablando.
- En una pausa breve (ventana de silencio), se envía la transcripción actual.
- Las respuestas se escriben en WebChat (igual que al escribir).
- Interrumpir al hablar (activado de forma predeterminada): si la persona usuaria empieza a hablar mientras el asistente está hablando, detenemos la reproducción y anotamos la marca de tiempo de la interrupción para el siguiente prompt.
Directivas de voz en las respuestas
El asistente puede anteponer a su respuesta una única línea JSON para controlar la voz:- Solo la primera línea no vacía.
- Las claves desconocidas se ignoran.
once: truese aplica solo a la respuesta actual.- Sin
once, la voz se convierte en el nuevo valor predeterminado del modo Talk. - La línea JSON se elimina antes de la reproducción TTS.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Configuración (~/.openclaw/openclaw.json)
interruptOnSpeech: truesilenceTimeoutMs: cuando no está definido, Talk mantiene la ventana de pausa predeterminada de la plataforma antes de enviar la transcripción (700 ms en macOS y Android, 900 ms en iOS)voiceId: recurre aELEVENLABS_VOICE_ID/SAG_VOICE_ID(o a la primera voz de ElevenLabs cuando la clave API está disponible)modelId: el valor predeterminado eseleven_v3cuando no está definidoapiKey: recurre aELEVENLABS_API_KEY(o al perfil de shell del gateway si está disponible)outputFormat: el valor predeterminado espcm_44100en macOS/iOS ypcm_24000en Android (establecemp3_*para forzar streaming MP3)
IU de macOS
- Conmutador de barra de menús: Talk
- Pestaña de configuración: grupo Talk Mode (id de voz + conmutador de interrupción)
- Superposición:
- Escuchando: la nube pulsa con el nivel del micrófono
- Pensando: animación de hundimiento
- Hablando: anillos radiantes
- Hacer clic en la nube: detener la reproducción
- Hacer clic en X: salir del modo Talk
Notas
- Requiere permisos de Speech + Microphone.
- Usa
chat.sendcontra la clave de sesiónmain. - El gateway resuelve la reproducción de Talk mediante
talk.speakusando el proveedor Talk activo. Android recurre al TTS local del sistema solo cuando ese RPC no está disponible. stabilityparaeleven_v3se valida como0.0,0.5o1.0; otros modelos aceptan0..1.latency_tierse valida como0..4cuando está definido.- Android admite formatos de salida
pcm_16000,pcm_22050,pcm_24000ypcm_44100para streaming AudioTrack de baja latencia.