Zamiana tekstu na mowę

OpenClaw może konwertować odpowiedzi wychodzące na dźwięk u 14 dostawców mowy oraz dostarczać natywne wiadomości głosowe w Feishu, Matrix, Telegram i WhatsApp, załączniki audio wszędzie indziej oraz strumienie PCM/Ulaw dla telefonii i Talk. TTS to wyjściowa połowa mowy w trybie stt-tts Talk. Sesje Talk realtime natywne dla dostawcy syntetyzują mowę wewnątrz dostawcy czasu rzeczywistego zamiast wywoływać tę ścieżkę TTS, natomiast sesje transcription nie syntetyzują głosowej odpowiedzi asystenta.

Szybki start

Pick a provider

OpenAI i ElevenLabs to najbardziej niezawodne opcje hostowane. Microsoft i Local CLI działają bez klucza API. Pełną listę znajdziesz w macierzy dostawców.

Set the API key

Wyeksportuj zmienną środowiskową dla swojego dostawcy, na przykład OPENAI_API_KEY, ELEVENLABS_API_KEY. Microsoft i Local CLI nie wymagają klucza.

Enable in config

Ustaw messages.tts.auto: "always" oraz messages.tts.provider:

{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
    },
  },
}

Try it in chat

/tts status pokazuje bieżący stan. /tts audio Hello from OpenClaw wysyła jednorazową odpowiedź audio.

Auto-TTS jest domyślnie wyłączone. Gdy messages.tts.provider nie jest ustawione, OpenClaw wybiera pierwszego skonfigurowanego dostawcę w kolejności automatycznego wyboru rejestru. Wbudowane narzędzie agenta tts działa tylko dla jawnej intencji: zwykły czat pozostaje tekstowy, chyba że użytkownik poprosi o audio, użyje /tts albo włączy mowę Auto-TTS/dyrektyw.

Obsługiwani dostawcy

Dostawca	Uwierzytelnianie	Uwagi
Azure Speech	`AZURE_SPEECH_KEY` + `AZURE_SPEECH_REGION` (także `AZURE_SPEECH_API_KEY`, `SPEECH_KEY`, `SPEECH_REGION`)	Natywne wyjście notatek głosowych Ogg/Opus i telefonia.
DeepInfra	`DEEPINFRA_API_KEY`	TTS zgodne z OpenAI. Domyślnie `hexgrad/Kokoro-82M`.
ElevenLabs	`ELEVENLABS_API_KEY` lub `XI_API_KEY`	Klonowanie głosu, wielojęzyczność, deterministyczność przez `seed`; strumieniowane do odtwarzania głosu w Discord.
Google Gemini	`GEMINI_API_KEY` lub `GOOGLE_API_KEY`	Wsadowe TTS Gemini API; świadome persony przez `promptTemplate: "audio-profile-v1"`.
Gradium	`GRADIUM_API_KEY`	Wyjście notatek głosowych i telefonii.
Inworld	`INWORLD_API_KEY`	Strumieniowe API TTS. Natywne notatki głosowe Opus i telefonia PCM.
Local CLI	brak	Uruchamia skonfigurowane lokalne polecenie TTS.
Microsoft	brak	Publiczne neuronowe TTS Edge przez `node-edge-tts`. Najlepsze staranie, bez SLA.
MiniMax	`MINIMAX_API_KEY` (lub plan tokenowy: `MINIMAX_OAUTH_TOKEN`, `MINIMAX_CODE_PLAN_KEY`, `MINIMAX_CODING_API_KEY`)	API T2A v2. Domyślnie `speech-2.8-hd`.
OpenAI	`OPENAI_API_KEY`	Używane także do automatycznych podsumowań; obsługuje personę `instructions`.
OpenRouter	`OPENROUTER_API_KEY` (może ponownie użyć `models.providers.openrouter.apiKey`)	Model domyślny `hexgrad/kokoro-82m`.
Volcengine	`VOLCENGINE_TTS_API_KEY` lub `BYTEPLUS_SEED_SPEECH_API_KEY` (starszy AppID/token: `VOLCENGINE_TTS_APPID`/`_TOKEN`)	HTTP API BytePlus Seed Speech.
Vydra	`VYDRA_API_KEY`	Wspólny dostawca obrazów, wideo i mowy.
xAI	`XAI_API_KEY`	Wsadowe TTS xAI. Natywna notatka głosowa Opus nie jest obsługiwana.
Xiaomi MiMo	`XIAOMI_API_KEY`	MiMo TTS przez uzupełnienia czatu Xiaomi.

Jeśli skonfigurowano wielu dostawców, wybrany dostawca jest używany jako pierwszy, a pozostali są opcjami zapasowymi. Automatyczne podsumowania używają summaryModel (lub agents.defaults.model.primary), więc ten dostawca również musi być uwierzytelniony, jeśli pozostawisz podsumowania włączone.

Dołączony dostawca Microsoft używa internetowej usługi neuronowego TTS Microsoft Edge przez node-edge-tts. Jest to publiczna usługa internetowa bez opublikowanego SLA ani limitu — traktuj ją jako działającą na zasadzie najlepszego starania. Starszy identyfikator dostawcy edge jest normalizowany do microsoft, a openclaw doctor --fix przepisuje utrwaloną konfigurację; nowe konfiguracje powinny zawsze używać microsoft.

Konfiguracja

Konfiguracja TTS znajduje się w messages.tts w ~/.openclaw/openclaw.json. Wybierz preset i dostosuj blok dostawcy:

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          apiKey: "${AZURE_SPEECH_KEY}",
          region: "eastus",
          voice: "en-US-JennyNeural",
          lang: "en-US",
          outputFormat: "audio-24khz-48kbitrate-mono-mp3",
          voiceNoteOutputFormat: "ogg-24khz-16bit-mono-opus",
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
      providers: {
        elevenlabs: {
          apiKey: "${ELEVENLABS_API_KEY}",
          model: "eleven_multilingual_v2",
          voiceId: "EXAVITQu4vr4xnSDxMaL",
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "google",
      providers: {
        google: {
          apiKey: "${GEMINI_API_KEY}",
          model: "gemini-3.1-flash-tts-preview",
          voiceName: "Kore",
          // Optional natural-language style prompts:
          // audioProfile: "Speak in a calm, podcast-host tone.",
          // speakerName: "Alex",
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "gradium",
      providers: {
        gradium: {
          apiKey: "${GRADIUM_API_KEY}",
          voiceId: "YTpq7expH9539ERJ",
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "inworld",
      providers: {
        inworld: {
          apiKey: "${INWORLD_API_KEY}",
          modelId: "inworld-tts-1.5-max",
          voiceId: "Sarah",
          temperature: 0.7,
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "tts-local-cli",
      providers: {
        "tts-local-cli": {
          command: "say",
          args: ["-o", "{{OutputPath}}", "{{Text}}"],
          outputFormat: "wav",
          timeoutMs: 120000,
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "microsoft",
      providers: {
        microsoft: {
          enabled: true,
          voice: "en-US-MichelleNeural",
          lang: "en-US",
          outputFormat: "audio-24khz-48kbitrate-mono-mp3",
          rate: "+0%",
          pitch: "+0%",
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "minimax",
      providers: {
        minimax: {
          apiKey: "${MINIMAX_API_KEY}",
          model: "speech-2.8-hd",
          voiceId: "English_expressive_narrator",
          speed: 1.0,
          vol: 1.0,
          pitch: 0,
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "openai",
      summaryModel: "openai/gpt-4.1-mini",
      modelOverrides: { enabled: true },
      providers: {
        openai: {
          apiKey: "${OPENAI_API_KEY}",
          model: "gpt-4o-mini-tts",
          voice: "alloy",
        },
        elevenlabs: {
          apiKey: "${ELEVENLABS_API_KEY}",
          model: "eleven_multilingual_v2",
          voiceId: "EXAVITQu4vr4xnSDxMaL",
          voiceSettings: { stability: 0.5, similarityBoost: 0.75, style: 0.0, useSpeakerBoost: true, speed: 1.0 },
          applyTextNormalization: "auto",
          languageCode: "en",
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "openrouter",
      providers: {
        openrouter: {
          apiKey: "${OPENROUTER_API_KEY}",
          model: "hexgrad/kokoro-82m",
          voice: "af_alloy",
          responseFormat: "mp3",
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "volcengine",
      providers: {
        volcengine: {
          apiKey: "${VOLCENGINE_TTS_API_KEY}",
          resourceId: "seed-tts-1.0",
          voice: "en_female_anna_mars_bigtts",
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "xai",
      providers: {
        xai: {
          apiKey: "${XAI_API_KEY}",
          voiceId: "eve",
          language: "en",
          responseFormat: "mp3",
        },
      },
    },
  },
}

{
  messages: {
    tts: {
      auto: "always",
      provider: "xiaomi",
      providers: {
        xiaomi: {
          apiKey: "${XIAOMI_API_KEY}",
          model: "mimo-v2.5-tts",
          voice: "mimo_default",
          format: "mp3",
        },
      },
    },
  },
}

Nadpisania głosu dla poszczególnych agentów

Użyj agents.list[].tts, gdy jeden agent powinien mówić z innym dostawcą, głosem, modelem, personą lub trybem Auto-TTS. Blok agenta jest głęboko scalany z messages.tts, więc poświadczenia dostawcy mogą pozostać w globalnej konfiguracji dostawcy:

{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
      providers: {
        elevenlabs: { apiKey: "${ELEVENLABS_API_KEY}", model: "eleven_multilingual_v2" },
      },
    },
  },
  agents: {
    list: [
      {
        id: "reader",
        tts: {
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL" },
          },
        },
      },
    ],
  },
}

Aby przypiąć personę dla konkretnego agenta, ustaw agents.list[].tts.persona obok konfiguracji dostawcy — zastępuje ona globalne messages.tts.persona tylko dla tego agenta. Kolejność pierwszeństwa dla automatycznych odpowiedzi, /tts audio, /tts status oraz narzędzia agenta tts:

messages.tts
aktywne agents.list[].tts
nadpisanie kanału, gdy kanał obsługuje channels.<channel>.tts
nadpisanie konta, gdy kanał przekazuje channels.<channel>.accounts.<id>.tts
lokalne preferencje /tts dla tego hosta
dyrektywy wbudowane [[tts:...]], gdy włączone są nadpisania modelu

Nadpisania kanału i konta używają tego samego kształtu co messages.tts i są głęboko scalane z wcześniejszymi warstwami, więc współdzielone dane uwierzytelniające dostawcy mogą pozostać w messages.tts, podczas gdy kanał lub konto bota zmienia tylko głos, model, personę albo tryb automatyczny:

{
  messages: {
    tts: {
      provider: "openai",
      providers: {
        openai: { apiKey: "${OPENAI_API_KEY}", model: "gpt-4o-mini-tts" },
      },
    },
  },
  channels: {
    feishu: {
      accounts: {
        english: {
          tts: {
            providers: {
              openai: { voice: "shimmer" },
            },
          },
        },
      },
    },
  },
}

Persony

Persona to stabilna tożsamość mówiona, którą można deterministycznie stosować u różnych dostawców. Może preferować jednego dostawcę, definiować neutralny wobec dostawców zamiar promptu oraz przenosić powiązania specyficzne dla dostawcy dla głosów, modeli, szablonów promptów, ziaren i ustawień głosu.

Minimalna persona

{
  messages: {
    tts: {
      auto: "always",
      persona: "narrator",
      personas: {
        narrator: {
          label: "Narrator",
          provider: "elevenlabs",
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL", modelId: "eleven_multilingual_v2" },
          },
        },
      },
    },
  },
}

Pełna persona (prompt neutralny wobec dostawcy)

{
  messages: {
    tts: {
      auto: "always",
      persona: "alfred",
      personas: {
        alfred: {
          label: "Alfred",
          description: "Dry, warm British butler narrator.",
          provider: "google",
          fallbackPolicy: "preserve-persona",
          prompt: {
            profile: "A brilliant British butler. Dry, witty, warm, charming, emotionally expressive, never generic.",
            scene: "A quiet late-night study. Close-mic narration for a trusted operator.",
            sampleContext: "The speaker is answering a private technical request with concise confidence and dry warmth.",
            style: "Refined, understated, lightly amused.",
            accent: "British English.",
            pacing: "Measured, with short dramatic pauses.",
            constraints: ["Do not read configuration values aloud.", "Do not explain the persona."],
          },
          providers: {
            google: {
              model: "gemini-3.1-flash-tts-preview",
              voiceName: "Algieba",
              promptTemplate: "audio-profile-v1",
            },
            openai: { model: "gpt-4o-mini-tts", voice: "cedar" },
            elevenlabs: {
              voiceId: "voice_id",
              modelId: "eleven_multilingual_v2",
              seed: 42,
              voiceSettings: {
                stability: 0.65,
                similarityBoost: 0.8,
                style: 0.25,
                useSpeakerBoost: true,
                speed: 0.95,
              },
            },
          },
        },
      },
    },
  },
}

Rozstrzyganie persony

Aktywna persona jest wybierana deterministycznie:

lokalna preferencja /tts persona <id>, jeśli jest ustawiona.
messages.tts.persona, jeśli jest ustawione.
Brak persony.

Wybór dostawcy działa według zasady najpierw jawne ustawienia:

Bezpośrednie nadpisania (CLI, Gateway, Talk, dozwolone dyrektywy TTS).
lokalna preferencja /tts provider <id>.
provider aktywnej persony.
messages.tts.provider.
Automatyczny wybór z rejestru.

Dla każdej próby dostawcy OpenClaw scala konfiguracje w tej kolejności:

messages.tts.providers.<id>
messages.tts.personas.<persona>.providers.<id>
Zaufane nadpisania żądania
Dozwolone nadpisania z dyrektyw TTS wyemitowanych przez model

Jak dostawcy używają promptów persony

Pola promptu persony (profile, scene, sampleContext, style, accent, pacing, constraints) są neutralne wobec dostawców. Każdy dostawca decyduje, jak ich używać:

Google Gemini

Opakowuje pola promptu persony w strukturę promptu Gemini TTS tylko wtedy, gdy efektywna konfiguracja dostawcy Google ustawia promptTemplate: "audio-profile-v1" albo personaPrompt. Starsze pola audioProfile i speakerName nadal są poprzedzane jako tekst promptu specyficzny dla Google. Wbudowane znaczniki audio, takie jak [whispers] lub [laughs] wewnątrz bloku [[tts:text]], są zachowywane w transkrypcie Gemini; OpenClaw nie generuje tych znaczników.

OpenAI

Mapuje pola promptu persony na pole żądania instructions tylko wtedy, gdy nie skonfigurowano jawnych instructions OpenAI. Jawne instructions zawsze ma pierwszeństwo.

Other providers

Używają tylko powiązań persony specyficznych dla dostawcy w personas.<id>.providers.<provider>. Pola promptu persony są ignorowane, chyba że dostawca implementuje własne mapowanie promptu persony.

Zasada awaryjna

fallbackPolicy steruje zachowaniem, gdy persona nie ma powiązania dla próbowanego dostawcy:

Zasada	Zachowanie
`preserve-persona`	Domyślne. Pola promptu neutralne wobec dostawcy pozostają dostępne; dostawca może ich użyć albo je zignorować.
`provider-defaults`	Persona jest pomijana podczas przygotowania promptu dla tej próby; dostawca używa swoich neutralnych ustawień domyślnych, a przejście awaryjne do innych dostawców trwa dalej.
`fail`	Pomija tę próbę dostawcy z `reasonCode: "not_configured"` i `personaBinding: "missing"`. Dostawcy awaryjni nadal są próbowani.

Całe żądanie TTS kończy się niepowodzeniem tylko wtedy, gdy każdy próbowany dostawca zostanie pominięty albo zakończy się błędem. Wybór dostawcy sesji Talk ma zakres sesji. Klient Talk powinien wybierać identyfikatory dostawców, identyfikatory modeli, identyfikatory głosów i ustawienia regionalne z talk.catalog oraz przekazywać je przez sesję Talk albo żądanie przekazania. Otwarcie sesji głosowej nie powinno modyfikować messages.tts ani globalnych domyślnych dostawców Talk.

Dyrektywy sterowane przez model

Domyślnie asystent może emitować dyrektywy [[tts:...]], aby nadpisać głos, model albo szybkość dla pojedynczej odpowiedzi, a także opcjonalny blok [[tts:text]]...[[/tts:text]] dla ekspresyjnych wskazówek, które powinny pojawić się tylko w audio:

Here you go.

[[tts:voiceId=pMsXgVXv3BLzUgSXRplE model=eleven_v3 speed=1.1]]
[[tts:text]](laughs) Read the song once more.[[/tts:text]]

Gdy messages.tts.auto ma wartość "tagged", dyrektywy są wymagane, aby wyzwolić audio. Dostarczanie bloków strumieniowych usuwa dyrektywy z widocznego tekstu, zanim kanał je zobaczy, nawet gdy są podzielone między sąsiadujące bloki. provider=... jest ignorowane, chyba że modelOverrides.allowProvider: true. Gdy odpowiedź deklaruje provider=..., pozostałe klucze w tej dyrektywie są parsowane tylko przez tego dostawcę; nieobsługiwane klucze są usuwane i zgłaszane jako ostrzeżenia dyrektyw TTS. Dostępne klucze dyrektyw:

provider (zarejestrowany identyfikator dostawcy; wymaga allowProvider: true)
voice / voiceName / voice_name / google_voice / voiceId
model / google_model
stability, similarityBoost, style, speed, useSpeakerBoost
vol / volume (głośność MiniMax, 0–10)
pitch (całkowitoliczbowy ton MiniMax, −12 do 12; wartości ułamkowe są obcinane)
emotion (znacznik emocji Volcengine)
applyTextNormalization (auto|on|off)
languageCode (ISO 639-1)
seed

Całkowicie wyłącz nadpisania modelu:

{ messages: { tts: { modelOverrides: { enabled: false } } } }

Zezwól na przełączanie dostawców, zachowując konfigurowalność innych ustawień:

{ messages: { tts: { modelOverrides: { enabled: true, allowProvider: true, allowSeed: false } } } }

Polecenia ukośnikowe

Pojedyncze polecenie /tts. Na Discordzie OpenClaw rejestruje też /voice, ponieważ /tts jest wbudowanym poleceniem Discorda — tekstowe /tts ... nadal działa.

/tts off | on | status
/tts chat on | off | default
/tts latest
/tts provider <id>
/tts persona <id> | off
/tts limit <chars>
/tts summary off
/tts audio <text>

Polecenia wymagają autoryzowanego nadawcy (obowiązują reguły listy dozwolonych/owner) oraz włączonego commands.text albo natywnej rejestracji poleceń.

Uwagi dotyczące zachowania:

/tts on zapisuje lokalną preferencję TTS jako always; /tts off zapisuje ją jako off.
/tts chat on|off|default zapisuje nadpisanie automatycznego TTS o zakresie sesji dla bieżącego czatu.
/tts persona <id> zapisuje lokalną preferencję persony; /tts persona off ją czyści.
/tts latest odczytuje najnowszą odpowiedź asystenta z transkryptu bieżącej sesji i wysyła ją raz jako audio. Przechowuje tylko hash tej odpowiedzi we wpisie sesji, aby zapobiec zduplikowanym wysyłkom głosowym.
/tts audio generuje jednorazową odpowiedź audio (nie włącza TTS).
limit i summary są przechowywane w lokalnych preferencjach, nie w głównej konfiguracji.
/tts status zawiera diagnostykę przejścia awaryjnego dla najnowszej próby — Fallback: <primary> -> <used>, Attempts: ... oraz szczegóły każdej próby (provider:outcome(reasonCode) latency).
/status pokazuje aktywny tryb TTS oraz skonfigurowanego dostawcę, model, głos i oczyszczone metadane niestandardowego punktu końcowego, gdy TTS jest włączony.

Preferencje poszczególnych użytkowników

Polecenia ukośnikowe zapisują lokalne nadpisania w prefsPath. Wartość domyślna to ~/.openclaw/settings/tts.json; nadpisz ją zmienną środowiskową OPENCLAW_TTS_PREFS albo messages.tts.prefsPath.

Przechowywane pole	Efekt
`auto`	Lokalne nadpisanie automatycznego TTS (`always`, `off`, …)
`provider`	Lokalne nadpisanie głównego dostawcy
`persona`	Lokalne nadpisanie persony
`maxLength`	Próg podsumowania (domyślnie `1500` znaków)
`summarize`	Przełącznik podsumowania (domyślnie `true`)

Nadpisują one efektywną konfigurację z messages.tts oraz aktywnego bloku agents.list[].tts dla tego hosta.

Formaty wyjściowe (stałe)

Dostarczanie głosu TTS jest sterowane możliwościami kanału. Pluginy kanałów deklarują, czy TTS w stylu wiadomości głosowej powinien prosić dostawców o natywny cel voice-note, czy zachować normalną syntezę audio-file i tylko oznaczać zgodne dane wyjściowe do dostarczania głosowego.

Kanały obsługujące wiadomości głosowe: odpowiedzi jako wiadomości głosowe preferują Opus (opus_48000_64 z ElevenLabs, opus z OpenAI).
- 48 kHz / 64 kbps to dobry kompromis dla wiadomości głosowych.
Feishu / WhatsApp: gdy odpowiedź jako wiadomość głosowa jest tworzona jako MP3/WebM/WAV/M4A lub inny prawdopodobny plik audio, Plugin kanału transkoduje ją do 48 kHz Ogg/Opus za pomocą ffmpeg przed wysłaniem natywnej wiadomości głosowej. WhatsApp wysyła wynik przez ładunek audio Baileys z ptt: true i audio/ogg; codecs=opus. Jeśli konwersja się nie powiedzie, Feishu otrzymuje oryginalny plik jako załącznik; wysyłka przez WhatsApp kończy się niepowodzeniem zamiast opublikowania niezgodnego ładunku PTT.
Inne kanały: MP3 (mp3_44100_128 z ElevenLabs, mp3 z OpenAI).
- 44,1 kHz / 128 kbps to domyślny balans dla wyrazistości mowy.
MiniMax: MP3 (model speech-2.8-hd, częstotliwość próbkowania 32 kHz) dla zwykłych załączników audio. Dla celów wiadomości głosowych deklarowanych przez kanał OpenClaw transkoduje MP3 MiniMax do 48 kHz Opus za pomocą ffmpeg przed dostarczeniem, gdy kanał deklaruje transkodowanie.
Xiaomi MiMo: domyślnie MP3 albo WAV, gdy skonfigurowano. Dla celów wiadomości głosowych deklarowanych przez kanał OpenClaw transkoduje wyjście Xiaomi do 48 kHz Opus za pomocą ffmpeg przed dostarczeniem, gdy kanał deklaruje transkodowanie.
Lokalny CLI: używa skonfigurowanego outputFormat. Cele wiadomości głosowych są konwertowane do Ogg/Opus, a wyjście telefoniczne jest konwertowane do surowego 16 kHz mono PCM za pomocą ffmpeg.
Google Gemini: TTS API Gemini zwraca surowe 24 kHz PCM. OpenClaw opakowuje je jako WAV dla załączników audio, transkoduje je do 48 kHz Opus dla celów wiadomości głosowych i zwraca PCM bezpośrednio dla Talk/telefonii.
Gradium: WAV dla załączników audio, Opus dla celów wiadomości głosowych oraz ulaw_8000 przy 8 kHz dla telefonii.
Inworld: MP3 dla zwykłych załączników audio, natywne OGG_OPUS dla celów wiadomości głosowych oraz surowe PCM przy 22050 Hz dla Talk/telefonii.
xAI: domyślnie MP3; responseFormat może mieć wartość mp3, wav, pcm, mulaw lub alaw. OpenClaw używa wsadowego punktu końcowego REST TTS xAI i zwraca kompletny załącznik audio; streamingowy WebSocket TTS xAI nie jest używany przez tę ścieżkę dostawcy. Natywny format Opus dla wiadomości głosowych nie jest obsługiwany przez tę ścieżkę.
Microsoft: używa microsoft.outputFormat (domyślnie audio-24khz-48kbitrate-mono-mp3).
- Wbudowany transport akceptuje outputFormat, ale nie wszystkie formaty są dostępne w usłudze.
- Wartości formatu wyjściowego odpowiadają formatom wyjściowym Microsoft Speech (w tym Ogg/WebM Opus).
- Telegram sendVoice akceptuje OGG/MP3/M4A; użyj OpenAI/ElevenLabs, jeśli potrzebujesz gwarantowanych wiadomości głosowych Opus.
- Jeśli skonfigurowany format wyjściowy Microsoft zawiedzie, OpenClaw ponawia próbę z MP3.

Formaty wyjściowe OpenAI/ElevenLabs są stałe dla każdego kanału (zobacz wyżej).

Zachowanie Auto-TTS

Gdy messages.tts.auto jest włączone, OpenClaw:

Pomija TTS, jeśli odpowiedź zawiera już media lub dyrektywę MEDIA:.
Pomija bardzo krótkie odpowiedzi (poniżej 10 znaków).
Streszcza długie odpowiedzi, gdy streszczenia są włączone, używając summaryModel (lub agents.defaults.model.primary).
Dołącza wygenerowane audio do odpowiedzi.
W mode: "final" nadal wysyła TTS tylko audio dla strumieniowanych odpowiedzi końcowych po zakończeniu strumienia tekstu; wygenerowane media przechodzą przez tę samą normalizację mediów kanału co zwykłe załączniki odpowiedzi.

Jeśli odpowiedź przekracza maxLength, a streszczenie jest wyłączone (lub nie ma klucza API dla modelu streszczeń), audio jest pomijane i wysyłana jest zwykła odpowiedź tekstowa.

Reply -> TTS enabled?
  no  -> send text
  yes -> has media / MEDIA: / short?
          yes -> send text
          no  -> length > limit?
                   no  -> TTS -> attach audio
                   yes -> summary enabled?
                            no  -> send text
                            yes -> summarize -> TTS -> attach audio

Formaty wyjściowe według kanału

Cel	Format
Feishu / Matrix / Telegram / WhatsApp	Odpowiedzi jako wiadomości głosowe preferują Opus (`opus_48000_64` z ElevenLabs, `opus` z OpenAI). 48 kHz / 64 kbps równoważy wyrazistość i rozmiar.
Inne kanały	MP3 (`mp3_44100_128` z ElevenLabs, `mp3` z OpenAI). 44,1 kHz / 128 kbps domyślnie dla mowy.
Talk / telefonia	Natywne dla dostawcy PCM (Inworld 22050 Hz, Google 24 kHz) albo `ulaw_8000` z Gradium dla telefonii.

Uwagi dotyczące dostawców:

Transkodowanie Feishu / WhatsApp: Gdy odpowiedź jako wiadomość głosowa trafia jako MP3/WebM/WAV/M4A, Plugin kanału transkoduje ją do 48 kHz Ogg/Opus za pomocą ffmpeg. WhatsApp wysyła przez Baileys z ptt: true i audio/ogg; codecs=opus. Jeśli konwersja się nie powiedzie: Feishu awaryjnie dołącza oryginalny plik; wysyłka przez WhatsApp kończy się niepowodzeniem zamiast opublikowania niezgodnego ładunku PTT.
MiniMax / Xiaomi MiMo: Domyślnie MP3 (32 kHz dla MiniMax speech-2.8-hd); transkodowane do 48 kHz Opus dla celów wiadomości głosowych przez ffmpeg.
Lokalny CLI: Używa skonfigurowanego outputFormat. Cele wiadomości głosowych są konwertowane do Ogg/Opus, a wyjście telefoniczne do surowego 16 kHz mono PCM.
Google Gemini: Zwraca surowe 24 kHz PCM. OpenClaw opakowuje jako WAV dla załączników, transkoduje do 48 kHz Opus dla celów wiadomości głosowych, zwraca PCM bezpośrednio dla Talk/telefonii.
Inworld: Załączniki MP3, natywna wiadomość głosowa OGG_OPUS, surowe PCM 22050 Hz dla Talk/telefonii.
xAI: Domyślnie MP3; responseFormat może mieć wartość mp3|wav|pcm|mulaw|alaw. Używa wsadowego punktu końcowego REST xAI — streamingowe WebSocket TTS nie jest używane. Natywny format Opus dla wiadomości głosowych nie jest obsługiwany.
Microsoft: Używa microsoft.outputFormat (domyślnie audio-24khz-48kbitrate-mono-mp3). Telegram sendVoice akceptuje OGG/MP3/M4A; użyj OpenAI/ElevenLabs, jeśli potrzebujesz gwarantowanych wiadomości głosowych Opus. Jeśli skonfigurowany format Microsoft zawiedzie, OpenClaw ponawia próbę z MP3.

Formaty wyjściowe OpenAI i ElevenLabs są stałe dla każdego kanału zgodnie z powyższą listą.

Dokumentacja pól

Top-level messages.tts.*

auto

"off" | "always" | "inbound" | "tagged"

Tryb Auto-TTS. inbound wysyła audio tylko po przychodzącej wiadomości głosowej; tagged wysyła audio tylko wtedy, gdy odpowiedź zawiera dyrektywy [[tts:...]] lub blok [[tts:text]].

enabled

boolean

przestarzałe

Starszy przełącznik. openclaw doctor --fix migruje go do auto.

mode

"final" | "all"

domyślnie:"final"

"all" obejmuje odpowiedzi narzędzi/bloków oprócz odpowiedzi końcowych.

provider

string

Identyfikator dostawcy mowy. Gdy nie jest ustawiony, OpenClaw używa pierwszego skonfigurowanego dostawcy w kolejności automatycznego wyboru rejestru. Starsze provider: "edge" jest przepisywane na "microsoft" przez openclaw doctor --fix.

persona

string

Aktywny identyfikator persony z personas. Normalizowany do małych liter.

personas.<id>

object

Stabilna tożsamość mówiona. Pola: label, description, provider, fallbackPolicy, prompt, providers.<provider>. Zobacz Persony.

summaryModel

string

Tani model do automatycznego streszczenia; domyślnie agents.defaults.model.primary. Akceptuje provider/model lub skonfigurowany alias modelu.

modelOverrides

object

Pozwala modelowi emitować dyrektywy TTS. enabled domyślnie ma wartość true; allowProvider domyślnie ma wartość false.

providers.<id>

object

Ustawienia należące do dostawcy, kluczowane identyfikatorem dostawcy mowy. Starsze bezpośrednie bloki (messages.tts.openai, .elevenlabs, .microsoft, .edge) są przepisywane przez openclaw doctor --fix; zatwierdzaj tylko messages.tts.providers.<id>.

maxTextLength

number

Twardy limit znaków wejścia TTS. /tts audio kończy się niepowodzeniem po przekroczeniu.

timeoutMs

number

Limit czasu żądania w milisekundach.

prefsPath

string

Nadpisuje lokalną ścieżkę JSON preferencji (dostawca/limit/streszczenie). Domyślnie ~/.openclaw/settings/tts.json.

Azure Speech

apiKey

string

Env: AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY lub SPEECH_KEY.

region

string

Region Azure Speech (np. eastus). Env: AZURE_SPEECH_REGION lub SPEECH_REGION.

endpoint

string

Opcjonalne nadpisanie punktu końcowego Azure Speech (alias baseUrl).

voice

string

ShortName głosu Azure. Domyślnie en-US-JennyNeural.

lang

string

Kod języka SSML. Domyślnie en-US.

outputFormat

string

Azure X-Microsoft-OutputFormat dla standardowego audio. Domyślnie audio-24khz-48kbitrate-mono-mp3.

voiceNoteOutputFormat

string

Azure X-Microsoft-OutputFormat dla wyjścia wiadomości głosowej. Domyślnie ogg-24khz-16bit-mono-opus.

ElevenLabs

apiKey

string

Awaryjnie używa ELEVENLABS_API_KEY lub XI_API_KEY.

model

string

Identyfikator modelu (np. eleven_multilingual_v2, eleven_v3).

voiceId

string

Identyfikator głosu ElevenLabs.

voiceSettings

object

stability, similarityBoost, style (każde 0..1), useSpeakerBoost (true|false), speed (0.5..2.0, 1.0 = normalnie).

applyTextNormalization

"auto" | "on" | "off"

Tryb normalizacji tekstu.

languageCode

string

2-literowy ISO 639-1 (np. en, de).

seed

number

Liczba całkowita 0..4294967295 dla deterministyczności na zasadzie najlepszych starań.

baseUrl

string

Nadpisz bazowy adres URL API ElevenLabs.

Google Gemini

apiKey

string

Awaryjnie używa GEMINI_API_KEY / GOOGLE_API_KEY. Jeśli pominięto, TTS może ponownie użyć models.providers.google.apiKey przed awaryjnym użyciem env.

model

string

Model TTS Gemini. Domyślnie gemini-3.1-flash-tts-preview.

voiceName

string

Nazwa gotowego głosu Gemini. Domyślnie Kore. Alias: voice.

audioProfile

string

Prompt stylu w języku naturalnym dodawany przed tekstem mówionym.

speakerName

string

Opcjonalna etykieta mówcy dodawana przed tekstem mówionym, gdy prompt używa nazwanego mówcy.

promptTemplate

"audio-profile-v1"

Ustaw na audio-profile-v1, aby opakować pola promptu aktywnej persony w deterministyczną strukturę promptu TTS Gemini.

personaPrompt

string

Dodatkowy tekst promptu persony specyficzny dla Google, dołączany do Notatek reżysera szablonu.

baseUrl

string

Akceptowany jest tylko https://generativelanguage.googleapis.com.

Gradium

apiKey

string

Zmienna środowiskowa: GRADIUM_API_KEY.

baseUrl

string

Domyślnie https://api.gradium.ai.

voiceId

string

Domyślnie Emma (YTpq7expH9539ERJ).

Inworld

Główny Inworld

apiKey

string

Zmienna środowiskowa: INWORLD_API_KEY.

baseUrl

string

Domyślnie https://api.inworld.ai.

modelId

string

Domyślnie inworld-tts-1.5-max. Także: inworld-tts-1.5-mini, inworld-tts-1-max, inworld-tts-1.

voiceId

string

Domyślnie Sarah.

temperature

number

Temperatura próbkowania 0..2.

Local CLI (tts-local-cli)

command

string

Lokalny plik wykonywalny lub ciąg polecenia dla CLI TTS.

args

string[]

Argumenty polecenia. Obsługuje symbole zastępcze {{Text}}, {{OutputPath}}, {{OutputDir}}, {{OutputBase}}.

outputFormat

"mp3" | "opus" | "wav"

Oczekiwany format wyjścia CLI. Domyślnie mp3 dla załączników audio.

timeoutMs

number

Limit czasu polecenia w milisekundach. Domyślnie 120000.

cwd

string

Opcjonalny katalog roboczy polecenia.

env

Record<string, string>

Opcjonalne nadpisania środowiska dla polecenia.

Microsoft (no API key)

enabled

boolean

domyślnie:"true"

Zezwalaj na użycie mowy Microsoft.

voice

string

Nazwa głosu neuronowego Microsoft (np. en-US-MichelleNeural).

lang

string

Kod języka (np. en-US).

outputFormat

string

Format wyjścia Microsoft. Domyślnie audio-24khz-48kbitrate-mono-mp3. Nie wszystkie formaty są obsługiwane przez dołączony transport oparty na Edge.

rate / pitch / volume

string

Ciągi procentowe (np. +10%, -5%).

saveSubtitles

boolean

Zapisuj napisy JSON obok pliku audio.

proxy

string

Adres URL proxy dla żądań mowy Microsoft.

timeoutMs

number

Nadpisanie limitu czasu żądania (ms).

edge.*

object

przestarzałe

Starszy alias. Uruchom openclaw doctor --fix, aby przepisać utrwaloną konfigurację na providers.microsoft.

MiniMax

apiKey

string

Używa awaryjnie MINIMAX_API_KEY. Uwierzytelnianie Token Plan przez MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY lub MINIMAX_CODING_API_KEY.

baseUrl

string

Domyślnie https://api.minimax.io. Zmienna środowiskowa: MINIMAX_API_HOST.

model

string

Domyślnie speech-2.8-hd. Zmienna środowiskowa: MINIMAX_TTS_MODEL.

voiceId

string

Domyślnie English_expressive_narrator. Zmienna środowiskowa: MINIMAX_TTS_VOICE_ID.

speed

number

0.5..2.0. Domyślnie 1.0.

vol

number

(0, 10]. Domyślnie 1.0.

pitch

number

Liczba całkowita -12..12. Domyślnie 0. Wartości ułamkowe są obcinane przed wysłaniem żądania.

OpenAI

apiKey

string

Używa awaryjnie OPENAI_API_KEY.

model

string

Identyfikator modelu TTS OpenAI (np. gpt-4o-mini-tts).

voice

string

Nazwa głosu (np. alloy, cedar).

instructions

string

Jawne pole instructions OpenAI. Gdy jest ustawione, pola promptu persony nie są automatycznie mapowane.

extraBody / extra_body

Record<string, unknown>

Dodatkowe pola JSON scalane z treścią żądania /audio/speech po wygenerowanych polach TTS OpenAI. Użyj tego dla punktów końcowych zgodnych z OpenAI, takich jak Kokoro, które wymagają kluczy specyficznych dla providera, takich jak lang; niebezpieczne klucze prototypu są ignorowane.

baseUrl

string

Nadpisz punkt końcowy TTS OpenAI. Kolejność rozwiązywania: konfiguracja → OPENAI_TTS_BASE_URL → https://api.openai.com/v1. Wartości inne niż domyślne są traktowane jako punkty końcowe TTS zgodne z OpenAI, więc niestandardowe nazwy modeli i głosów są akceptowane.

OpenRouter

apiKey

string

Zmienna środowiskowa: OPENROUTER_API_KEY. Może ponownie użyć models.providers.openrouter.apiKey.

baseUrl

string

Domyślnie https://openrouter.ai/api/v1. Starszy https://openrouter.ai/v1 jest normalizowany.

model

string

Domyślnie hexgrad/kokoro-82m. Alias: modelId.

voice

string

Domyślnie af_alloy. Alias: voiceId.

responseFormat

"mp3" | "pcm"

Domyślnie mp3.

speed

number

Nadpisanie szybkości natywne dla providera.

Volcengine (BytePlus Seed Speech)

apiKey

string

Zmienna środowiskowa: VOLCENGINE_TTS_API_KEY lub BYTEPLUS_SEED_SPEECH_API_KEY.

resourceId

string

Domyślnie seed-tts-1.0. Zmienna środowiskowa: VOLCENGINE_TTS_RESOURCE_ID. Użyj seed-tts-2.0, gdy Twój projekt ma uprawnienie do TTS 2.0.

appKey

string

Nagłówek klucza aplikacji. Domyślnie aGjiRDfUWi. Zmienna środowiskowa: VOLCENGINE_TTS_APP_KEY.

baseUrl

string

Nadpisz punkt końcowy HTTP Seed Speech TTS. Zmienna środowiskowa: VOLCENGINE_TTS_BASE_URL.

voice

string

Typ głosu. Domyślnie en_female_anna_mars_bigtts. Zmienna środowiskowa: VOLCENGINE_TTS_VOICE.

speedRatio

number

Współczynnik szybkości natywny dla providera.

emotion

string

Znacznik emocji natywny dla providera.

appId / token / cluster

string

przestarzałe

Starsze pola Volcengine Speech Console. Zmienna środowiskowa: VOLCENGINE_TTS_APPID, VOLCENGINE_TTS_TOKEN, VOLCENGINE_TTS_CLUSTER (domyślnie volcano_tts).

xAI

apiKey

string

Zmienna środowiskowa: XAI_API_KEY.

baseUrl

string

Domyślnie https://api.x.ai/v1. Zmienna środowiskowa: XAI_BASE_URL.

voiceId

string

Domyślnie eve. Aktywne głosy: ara, eve, leo, rex, sal, una.

language

string

Kod języka BCP-47 lub auto. Domyślnie en.

responseFormat

"mp3" | "wav" | "pcm" | "mulaw" | "alaw"

Domyślnie mp3.

speed

number

Nadpisanie szybkości natywne dla providera.

Xiaomi MiMo

apiKey

string

Zmienna środowiskowa: XIAOMI_API_KEY.

baseUrl

string

Domyślnie https://api.xiaomimimo.com/v1. Zmienna środowiskowa: XIAOMI_BASE_URL.

model

string

Domyślnie mimo-v2.5-tts. Zmienna środowiskowa: XIAOMI_TTS_MODEL. Obsługuje także mimo-v2-tts.

voice

string

Domyślnie mimo_default. Zmienna środowiskowa: XIAOMI_TTS_VOICE.

format

"mp3" | "wav"

Domyślnie mp3. Zmienna środowiskowa: XIAOMI_TTS_FORMAT.

style

string

Opcjonalna instrukcja stylu w języku naturalnym wysyłana jako wiadomość użytkownika; nie jest wypowiadana.

Narzędzie agenta

Narzędzie tts konwertuje tekst na mowę i zwraca załącznik audio do dostarczenia w odpowiedzi. W Feishu, Matrix, Telegram i WhatsApp audio jest dostarczane jako wiadomość głosowa, a nie jako załącznik pliku. Feishu i WhatsApp mogą transkodować wyjście TTS inne niż Opus na tej ścieżce, gdy ffmpeg jest dostępny. WhatsApp wysyła audio przez Baileys jako notatkę głosową PTT (audio z ptt: true) i wysyła widoczny tekst oddzielnie od audio PTT, ponieważ klienci nie renderują konsekwentnie podpisów przy notatkach głosowych. Narzędzie akceptuje opcjonalne pola channel i timeoutMs; timeoutMs jest limitem czasu żądania providera dla pojedynczego wywołania, w milisekundach.

Gateway RPC

Metoda	Cel
`tts.status`	Odczytaj bieżący stan TTS i ostatnią próbę.
`tts.enable`	Ustaw lokalną preferencję automatyczną na `always`.
`tts.disable`	Ustaw lokalną preferencję automatyczną na `off`.
`tts.convert`	Jednorazowa konwersja tekst → audio.
`tts.setProvider`	Ustaw lokalną preferencję providera.
`tts.setPersona`	Ustaw lokalną preferencję persony.
`tts.providers`	Wyświetl skonfigurowanych providerów i status.

Overview

Plugins

Bundled plugin guides

Building plugins

Skills

Automation

Tools

Agent coordination

Zamiana tekstu na mowę

Szybki start

Obsługiwani dostawcy

Konfiguracja

Nadpisania głosu dla poszczególnych agentów

Persony

Minimalna persona

Pełna persona (prompt neutralny wobec dostawcy)

Rozstrzyganie persony

Jak dostawcy używają promptów persony

Zasada awaryjna

Dyrektywy sterowane przez model

Polecenia ukośnikowe

Preferencje poszczególnych użytkowników

Formaty wyjściowe (stałe)

Zachowanie Auto-TTS

Formaty wyjściowe według kanału

Dokumentacja pól

Główny Inworld

Narzędzie agenta

Gateway RPC

Linki do usług

Powiązane

Overview

Plugins

Bundled plugin guides

Building plugins

Skills

Automation

Tools

Agent coordination

Documentation Index

​Szybki start

​Obsługiwani dostawcy

​Konfiguracja

​Nadpisania głosu dla poszczególnych agentów

​Persony

​Minimalna persona

​Pełna persona (prompt neutralny wobec dostawcy)

​Rozstrzyganie persony

​Jak dostawcy używają promptów persony

​Zasada awaryjna

​Dyrektywy sterowane przez model

​Polecenia ukośnikowe

​Preferencje poszczególnych użytkowników

​Formaty wyjściowe (stałe)

​Zachowanie Auto-TTS

​Formaty wyjściowe według kanału

​Dokumentacja pól

​Główny Inworld

​Narzędzie agenta

​Gateway RPC

​Linki do usług

​Powiązane

Szybki start

Obsługiwani dostawcy

Konfiguracja

Nadpisania głosu dla poszczególnych agentów

Persony

Minimalna persona

Pełna persona (prompt neutralny wobec dostawcy)

Rozstrzyganie persony

Jak dostawcy używają promptów persony

Zasada awaryjna

Dyrektywy sterowane przez model

Polecenia ukośnikowe

Preferencje poszczególnych użytkowników

Formaty wyjściowe (stałe)

Zachowanie Auto-TTS

Formaty wyjściowe według kanału

Dokumentacja pól

Główny Inworld

Narzędzie agenta

Gateway RPC

Linki do usług

Powiązane