Talk-Modus
Der Talk-Modus ist eine kontinuierliche Sprachkonversationsschleife:- Auf Sprache hören
- Transkript an das Modell senden (Hauptsitzung,
chat.send) - Auf die Antwort warten
- Sie über den konfigurierten Talk-Provider sprechen (
talk.speak)
Verhalten (macOS)
- Immer aktive Überlagerung, solange der Talk-Modus aktiviert ist.
- Phasenübergänge Listening → Thinking → Speaking.
- Bei einer kurzen Pause (Stillefenster) wird das aktuelle Transkript gesendet.
- Antworten werden in WebChat geschrieben (wie beim Tippen).
- Unterbrechen bei Sprache (standardmäßig aktiviert): Wenn der Benutzer zu sprechen beginnt, während der Assistent spricht, stoppen wir die Wiedergabe und notieren den Zeitstempel der Unterbrechung für den nächsten Prompt.
Sprachdirektiven in Antworten
Der Assistent kann seiner Antwort eine einzelne JSON-Zeile voranstellen, um die Stimme zu steuern:- Nur die erste nicht leere Zeile.
- Unbekannte Schlüssel werden ignoriert.
once: truegilt nur für die aktuelle Antwort.- Ohne
oncewird die Stimme zur neuen Standardstimme für den Talk-Modus. - Die JSON-Zeile wird vor der TTS-Wiedergabe entfernt.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Konfiguration (~/.openclaw/openclaw.json)
interruptOnSpeech: truesilenceTimeoutMs: wenn nicht gesetzt, verwendet Talk das plattformspezifische Standard-Pausenfenster vor dem Senden des Transkripts (700 ms auf macOS und Android, 900 ms auf iOS)voiceId: greift aufELEVENLABS_VOICE_ID/SAG_VOICE_IDzurück (oder auf die erste ElevenLabs-Stimme, wenn ein API-Schlüssel verfügbar ist)modelId: standardmäßigeleven_v3, wenn nicht gesetztapiKey: greift aufELEVENLABS_API_KEYzurück (oder auf das Gateway-Shell-Profil, falls verfügbar)outputFormat: standardmäßigpcm_44100auf macOS/iOS undpcm_24000auf Android (setzen Siemp3_*, um MP3-Streaming zu erzwingen)
macOS-UI
- Menüleisten-Umschalter: Talk
- Konfigurations-Tab: Gruppe Talk Mode (Stimm-ID + Interrupt-Umschalter)
- Overlay:
- Listening: Wolke pulsiert mit Mikrofonpegel
- Thinking: sinkende Animation
- Speaking: ausstrahlende Ringe
- Auf Wolke klicken: Sprechen stoppen
- Auf X klicken: Talk-Modus beenden
Hinweise
- Erfordert Berechtigungen für Speech + Mikrofon.
- Verwendet
chat.sendgegen den Sitzungsschlüsselmain. - Das Gateway löst die Wiedergabe im Talk-Modus über
talk.speakmit dem aktiven Talk-Provider auf. Android greift nur dann auf lokales System-TTS zurück, wenn dieses RPC nicht verfügbar ist. stabilityfüreleven_v3wird auf0.0,0.5oder1.0validiert; andere Modelle akzeptieren0..1.latency_tierwird, wenn gesetzt, auf0..4validiert.- Android unterstützt die Ausgabeformate
pcm_16000,pcm_22050,pcm_24000undpcm_44100für latenzarmes AudioTrack-Streaming.