Tryb Talk ma dwa kształty środowiska uruchomieniowego:Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Natywny Talk w macOS/iOS/Android używa lokalnego rozpoznawania mowy, czatu Gateway oraz TTS
talk.speak. Węzły ogłaszają funkcjętalki deklarują obsługiwane poleceniatalk.*. - Talk w przeglądarce używa
talk.client.createdla sesjiwebrtciprovider-websocketnależących do klienta albotalk.session.createdla sesjigateway-relaynależących do Gateway.managed-roomjest zarezerwowane dla przekazania przez Gateway i pokojów typu walkie-talkie. - Klienci wyłącznie do transkrypcji używają
talk.session.create({ mode: "transcription", transport: "gateway-relay", brain: "none" }), a następnietalk.session.appendAudio,talk.session.cancelTurnitalk.session.close, gdy potrzebują napisów lub dyktowania bez głosowej odpowiedzi asystenta.
- Nasłuchuj mowy
- Wyślij transkrypt do modelu przez aktywną sesję
- Poczekaj na odpowiedź
- Odtwórz ją przez skonfigurowanego dostawcę Talk (
talk.speak)
talk.client.toolCall; klienci przeglądarkowi nie wywołują chat.send bezpośrednio dla konsultacji w czasie rzeczywistym.
Talk wyłącznie do transkrypcji emituje tę samą wspólną kopertę zdarzeń Talk co sesje czasu rzeczywistego oraz STT/TTS, ale używa mode: "transcription" i brain: "none". Służy do napisów, dyktowania i przechwytywania mowy wyłącznie w trybie obserwacji; jednorazowo przesyłane notatki głosowe nadal używają ścieżki media/audio.
Zachowanie (macOS)
- Nakładka zawsze włączona, gdy tryb Talk jest aktywny.
- Przejścia faz Słuchanie → Myślenie → Mówienie.
- Po krótkiej pauzie (oknie ciszy) bieżący transkrypt jest wysyłany.
- Odpowiedzi są zapisywane w WebChat (tak samo jak pisanie).
- Przerwanie mową (domyślnie włączone): jeśli użytkownik zacznie mówić, gdy asystent mówi, zatrzymujemy odtwarzanie i zapisujemy znacznik czasu przerwania dla następnego promptu.
Dyrektywy głosowe w odpowiedziach
Asystent może poprzedzić odpowiedź pojedynczym wierszem JSON, aby sterować głosem:- Tylko pierwszy niepusty wiersz.
- Nieznane klucze są ignorowane.
once: truedotyczy tylko bieżącej odpowiedzi.- Bez
oncegłos staje się nową domyślną wartością dla trybu Talk. - Wiersz JSON jest usuwany przed odtwarzaniem TTS.
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(WPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Konfiguracja (~/.openclaw/openclaw.json)
interruptOnSpeech: truesilenceTimeoutMs: gdy nie jest ustawione, Talk zachowuje domyślne okno pauzy platformy przed wysłaniem transkryptu (700 ms on macOS and Android, 900 ms on iOS)provider: wybiera aktywnego dostawcę Talk. Użyjelevenlabs,mlxalbosystemdla lokalnych ścieżek odtwarzania w macOS.providers.<provider>.voiceId: przechodzi awaryjnie naELEVENLABS_VOICE_ID/SAG_VOICE_IDdla ElevenLabs (albo pierwszy głos ElevenLabs, gdy klucz API jest dostępny).providers.elevenlabs.modelId: domyślnieeleven_v3, gdy nie jest ustawione.providers.mlx.modelId: domyślniemlx-community/Soprano-80M-bf16, gdy nie jest ustawione.providers.elevenlabs.apiKey: przechodzi awaryjnie naELEVENLABS_API_KEY(albo profil powłoki gateway, jeśli jest dostępny).consultThinkingLevel: opcjonalne nadpisanie poziomu myślenia dla pełnego uruchomienia agenta OpenClaw za wywołaniamiopenclaw_agent_consultw czasie rzeczywistym.consultFastMode: opcjonalne nadpisanie trybu szybkiego dla wywołańopenclaw_agent_consultw czasie rzeczywistym.realtime.provider: wybiera aktywnego dostawcę głosu czasu rzeczywistego po stronie przeglądarki/serwera. Użyjopenaidla WebRTC,googledla WebSocket dostawcy albo dostawcy tylko-mostkowego przez przekaźnik Gateway.realtime.providers.<provider>przechowuje konfigurację czasu rzeczywistego należącą do dostawcy. Przeglądarka otrzymuje tylko efemeryczne lub ograniczone poświadczenia sesji, nigdy standardowy klucz API.realtime.providers.openai.voice: wbudowany identyfikator głosu OpenAI Realtime. Obecne głosygpt-realtime-2toalloy,ash,ballad,coral,echo,sage,shimmer,verse,marinicedar;marinicedarsą zalecane dla najlepszej jakości.realtime.brain:agent-consultkieruje wywołania narzędzi czasu rzeczywistego przez politykę Gateway;direct-toolsto zachowanie zgodności tylko dla właściciela;nonesłuży do transkrypcji lub zewnętrznej orkiestracji.realtime.instructions: dołącza instrukcje systemowe widoczne dla dostawcy do wbudowanego promptu czasu rzeczywistego OpenClaw. Użyj tego dla stylu i tonu głosu; OpenClaw zachowuje domyślne wskazówkiopenclaw_agent_consult.talk.catalogudostępnia prawidłowe tryby, transporty, strategie brain, formaty audio czasu rzeczywistego i flagi funkcji każdego dostawcy, aby klienci Talk pierwszej strony mogli unikać nieobsługiwanych kombinacji.- Dostawcy transkrypcji strumieniowej są wykrywani przez
talk.catalog.transcription. Bieżący przekaźnik Gateway używa konfiguracji dostawcy strumieniowego Voice Call do czasu dodania dedykowanej powierzchni konfiguracji transkrypcji Talk. speechLocale: opcjonalny identyfikator locale BCP 47 dla rozpoznawania mowy Talk na urządzeniu w iOS/macOS. Pozostaw nieustawione, aby użyć domyślnego ustawienia urządzenia.outputFormat: domyślniepcm_44100w macOS/iOS ipcm_24000w Androidzie (ustawmp3_*, aby wymusić strumieniowanie MP3)
Interfejs macOS
- Przełącznik na pasku menu: Talk
- Karta konfiguracji: grupa Tryb Talk (identyfikator głosu + przełącznik przerwania)
- Nakładka:
- Słuchanie: chmura pulsuje zgodnie z poziomem mikrofonu
- Myślenie: animacja opadania
- Mówienie: rozchodzące się pierścienie
- Kliknięcie chmury: zatrzymaj mówienie
- Kliknięcie X: wyjdź z trybu Talk
Interfejs Android
- Przełącznik karty Voice: Talk
- Ręczne tryby Mic i Talk wzajemnie wykluczają się jako tryby przechwytywania w środowisku uruchomieniowym.
- Ręczny Mic zatrzymuje się, gdy aplikacja opuszcza pierwszy plan albo użytkownik opuszcza kartę Voice.
- Tryb Talk działa, dopóki nie zostanie wyłączony albo węzeł Android się nie rozłączy, i podczas aktywności używa typu usługi pierwszoplanowej mikrofonu Androida.
Uwagi
- Wymaga uprawnień do mowy i mikrofonu.
- Natywny Talk używa aktywnej sesji Gateway i przechodzi awaryjnie na odpytywanie historii tylko wtedy, gdy zdarzenia odpowiedzi są niedostępne.
- Talk w czasie rzeczywistym w przeglądarce używa
talk.client.toolCalldlaopenclaw_agent_consultzamiast ujawniaćchat.sendsesjom przeglądarkowym należącym do dostawcy. - Talk wyłącznie do transkrypcji używa
talk.session.create,talk.session.appendAudio,talk.session.cancelTurnitalk.session.close; klienci subskrybujątalk.event, aby otrzymywać częściowe/końcowe aktualizacje transkryptu. - Gateway rozwiązuje odtwarzanie Talk przez
talk.speakz użyciem aktywnego dostawcy Talk. Android przechodzi awaryjnie na lokalny systemowy TTS tylko wtedy, gdy ten RPC jest niedostępny. - Lokalne odtwarzanie MLX w macOS używa dołączonego pomocnika
openclaw-mlx-tts, gdy jest obecny, albo pliku wykonywalnego wPATH. UstawOPENCLAW_MLX_TTS_BIN, aby wskazać niestandardowy plik binarny pomocnika podczas programowania. stabilitydlaeleven_v3jest walidowane do0.0,0.5albo1.0; inne modele akceptują0..1.latency_tierjest walidowane do0..4, gdy jest ustawione.- Android obsługuje formaty wyjściowe
pcm_16000,pcm_22050,pcm_24000ipcm_44100dla strumieniowania AudioTrack o niskim opóźnieniu.