Tools

Zamiana tekstu na mowę

OpenClaw może konwertować odpowiedzi wychodzące na audio przy użyciu 14 dostawców mowy i dostarczać natywne wiadomości głosowe w Feishu, Matrix, Telegram i WhatsApp, załączniki audio wszędzie indziej oraz strumienie PCM/Ulaw dla telefonii i Talk.

TTS to połowa trybu stt-tts w Talk odpowiedzialna za wyjście mowy. Natywne dla dostawcy sesje Talk typu realtime syntetyzują mowę wewnątrz dostawcy czasu rzeczywistego zamiast wywoływać tę ścieżkę TTS, natomiast sesje transcription nie syntetyzują głosowej odpowiedzi asystenta.

Szybki start

  • Wybierz dostawcę

    OpenAI i ElevenLabs to najbardziej niezawodne opcje hostowane. Microsoft i Local CLI działają bez klucza API. Pełną listę znajdziesz w macierzy dostawców.

  • Ustaw klucz API

    Wyeksportuj zmienną środowiskową dla swojego dostawcy (na przykład OPENAI_API_KEY, ELEVENLABS_API_KEY). Microsoft i Local CLI nie wymagają klucza.

  • Włącz w konfiguracji

    Ustaw messages.tts.auto: "always" i messages.tts.provider:

    json5
    {  messages: {    tts: {      auto: "always",      provider: "elevenlabs",    },  },}
  • Wypróbuj w czacie

    /tts status pokazuje bieżący stan. /tts audio Hello from OpenClaw wysyła jednorazową odpowiedź audio.

  • Obsługiwani dostawcy

    Dostawca Uwierzytelnianie Uwagi
    Azure Speech AZURE_SPEECH_KEY + AZURE_SPEECH_REGION (także AZURE_SPEECH_API_KEY, SPEECH_KEY, SPEECH_REGION) Natywne wyjście notatki głosowej Ogg/Opus i telefonia.
    DeepInfra DEEPINFRA_API_KEY TTS zgodny z OpenAI. Domyślnie hexgrad/Kokoro-82M.
    ElevenLabs ELEVENLABS_API_KEY lub XI_API_KEY Klonowanie głosu, wielojęzyczność, deterministycznie przez seed; strumieniowane dla odtwarzania głosu w Discord.
    Google Gemini GEMINI_API_KEY lub GOOGLE_API_KEY Wsadowe TTS w Gemini API; uwzględnia personę przez promptTemplate: "audio-profile-v1".
    Gradium GRADIUM_API_KEY Wyjście notatki głosowej i telefonii.
    Inworld INWORLD_API_KEY Streamingowe API TTS. Natywna notatka głosowa Opus i telefonia PCM.
    Local CLI brak Uruchamia skonfigurowane lokalne polecenie TTS.
    Microsoft brak Publiczne neuronowe TTS Edge przez node-edge-tts. Najlepszy możliwy wysiłek, bez SLA.
    MiniMax MINIMAX_API_KEY (lub plan Token: MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY, MINIMAX_CODING_API_KEY) API T2A v2. Domyślnie speech-2.8-hd.
    OpenAI OPENAI_API_KEY Używany także do automatycznego podsumowania; obsługuje personę instructions.
    OpenRouter OPENROUTER_API_KEY (może ponownie używać models.providers.openrouter.apiKey) Domyślny model hexgrad/kokoro-82m.
    Volcengine VOLCENGINE_TTS_API_KEY lub BYTEPLUS_SEED_SPEECH_API_KEY (starsze AppID/token: VOLCENGINE_TTS_APPID/_TOKEN) HTTP API BytePlus Seed Speech.
    Vydra VYDRA_API_KEY Wspólny dostawca obrazów, wideo i mowy.
    xAI XAI_API_KEY Wsadowe TTS xAI. Natywna notatka głosowa Opus nie jest obsługiwana.
    Xiaomi MiMo XIAOMI_API_KEY MiMo TTS przez uzupełnienia czatu Xiaomi.

    Jeśli skonfigurowano wielu dostawców, wybrany dostawca jest używany jako pierwszy, a pozostali są opcjami zapasowymi. Automatyczne podsumowanie używa summaryModel (lub agents.defaults.model.primary), więc ten dostawca także musi być uwierzytelniony, jeśli podsumowania pozostają włączone.

    Konfiguracja

    Konfiguracja TTS znajduje się pod messages.tts w ~/.openclaw/openclaw.json. Wybierz preset i dostosuj blok dostawcy:

    Azure Speech

    json5
    {messages: {tts: {  auto: "always",  provider: "azure-speech",  providers: {    "azure-speech": {      apiKey: "${AZURE_SPEECH_KEY}",      region: "eastus",      speakerVoice: "en-US-JennyNeural",      lang: "en-US",      outputFormat: "audio-24khz-48kbitrate-mono-mp3",      voiceNoteOutputFormat: "ogg-24khz-16bit-mono-opus",    },  },},},}

    ElevenLabs

    json5
    {messages: {tts: {  auto: "always",  provider: "elevenlabs",  providers: {    elevenlabs: {      apiKey: "${ELEVENLABS_API_KEY}",      model: "eleven_multilingual_v2",      speakerVoiceId: "EXAVITQu4vr4xnSDxMaL",    },  },},},}

    Google Gemini

    json5
    {messages: {tts: {  auto: "always",  provider: "google",  providers: {    google: {      apiKey: "${GEMINI_API_KEY}",      model: "gemini-3.1-flash-tts-preview",      speakerVoice: "Kore",      // Optional natural-language style prompts:      // audioProfile: "Speak in a calm, podcast-host tone.",      // speakerName: "Alex",    },  },},},}

    Gradium

    json5
    {messages: {tts: {  auto: "always",  provider: "gradium",  providers: {    gradium: {      apiKey: "${GRADIUM_API_KEY}",      speakerVoiceId: "YTpq7expH9539ERJ",    },  },},},}

    Inworld

    json5
    {messages: {tts: {  auto: "always",  provider: "inworld",  providers: {    inworld: {      apiKey: "${INWORLD_API_KEY}",      modelId: "inworld-tts-1.5-max",      speakerVoiceId: "Sarah",      temperature: 0.7,    },  },},},}

    Local CLI

    json5
    {messages: {tts: {  auto: "always",  provider: "tts-local-cli",  providers: {    "tts-local-cli": {      command: "say",      args: ["-o", "{{OutputPath}}", "{{Text}}"],      outputFormat: "wav",      timeoutMs: 120000,    },  },},},}

    Microsoft (bez klucza)

    json5
    {messages: {tts: {  auto: "always",  provider: "microsoft",  providers: {    microsoft: {      enabled: true,      speakerVoice: "en-US-MichelleNeural",      lang: "en-US",      outputFormat: "audio-24khz-48kbitrate-mono-mp3",      rate: "+0%",      pitch: "+0%",    },  },},},}

    MiniMax

    json5
    {messages: {tts: {  auto: "always",  provider: "minimax",  providers: {    minimax: {      apiKey: "${MINIMAX_API_KEY}",      model: "speech-2.8-hd",      speakerVoiceId: "English_expressive_narrator",      speed: 1.0,      vol: 1.0,      pitch: 0,    },  },},},}

    OpenAI + ElevenLabs

    json5
    {messages: {tts: {  auto: "always",  provider: "openai",  summaryModel: "openai/gpt-4.1-mini",  modelOverrides: { enabled: true },  providers: {    openai: {      apiKey: "${OPENAI_API_KEY}",      model: "gpt-4o-mini-tts",      speakerVoice: "alloy",    },    elevenlabs: {      apiKey: "${ELEVENLABS_API_KEY}",      model: "eleven_multilingual_v2",      speakerVoiceId: "EXAVITQu4vr4xnSDxMaL",      voiceSettings: { stability: 0.5, similarityBoost: 0.75, style: 0.0, useSpeakerBoost: true, speed: 1.0 },      applyTextNormalization: "auto",      languageCode: "en",    },  },},},}

    OpenRouter

    json5
    {messages: {tts: {  auto: "always",  provider: "openrouter",  providers: {    openrouter: {      apiKey: "${OPENROUTER_API_KEY}",      model: "hexgrad/kokoro-82m",      speakerVoice: "af_alloy",      responseFormat: "mp3",    },  },},},}

    Volcengine

    json5
    {messages: {tts: {  auto: "always",  provider: "volcengine",  providers: {    volcengine: {      apiKey: "${VOLCENGINE_TTS_API_KEY}",      resourceId: "seed-tts-1.0",      speakerVoice: "en_female_anna_mars_bigtts",    },  },},},}

    xAI

    json5
    {messages: {tts: {  auto: "always",  provider: "xai",  providers: {    xai: {      apiKey: "${XAI_API_KEY}",      speakerVoiceId: "eve",      language: "en",      responseFormat: "mp3",    },  },},},}

    Xiaomi MiMo

    json5
    {messages: {tts: {  auto: "always",  provider: "xiaomi",  providers: {    xiaomi: {      apiKey: "${XIAOMI_API_KEY}",      model: "mimo-v2.5-tts",      speakerVoice: "mimo_default",      format: "mp3",    },  },},},}

    Dla Xiaomi mimo-v2.5-tts-voicedesign pomiń speakerVoice i ustaw style na prompt projektowania głosu. OpenClaw wysyła ten prompt jako wiadomość user TTS i nie wysyła audio.voice dla modelu voicedesign.

    Nadpisania głosu dla poszczególnych agentów

    Użyj agents.list[].tts, gdy jeden agent powinien mówić z innym dostawcą, głosem, modelem, personą lub trybem auto-TTS. Blok agenta jest głęboko scalany z messages.tts, więc dane uwierzytelniające dostawcy mogą pozostać w globalnej konfiguracji dostawcy:

    json5
    {  messages: {    tts: {      auto: "always",      provider: "elevenlabs",      providers: {        elevenlabs: { apiKey: "${ELEVENLABS_API_KEY}", model: "eleven_multilingual_v2" },      },    },  },  agents: {    list: [      {        id: "reader",        tts: {          providers: {            elevenlabs: { speakerVoiceId: "EXAVITQu4vr4xnSDxMaL" },          },        },      },    ],  },}

    Aby przypiąć personę dla konkretnego agenta, ustaw agents.list[].tts.persona obok konfiguracji dostawcy — zastępuje ona globalne messages.tts.persona tylko dla tego agenta.

    Kolejność pierwszeństwa dla automatycznych odpowiedzi, /tts audio, /tts status i narzędzia agenta tts:

    1. messages.tts
    2. aktywne agents.list[].tts
    3. nadpisanie kanału, gdy kanał obsługuje channels.<channel>.tts
    4. nadpisanie konta, gdy kanał przekazuje channels.<channel>.accounts.<id>.tts
    5. lokalne preferencje /tts dla tego hosta
    6. dyrektywy inline [[tts:...]], gdy nadpisania modelu są włączone

    Nadpisania kanału i konta używają tego samego kształtu co messages.tts i głęboko scalają się z wcześniejszymi warstwami, więc współdzielone dane uwierzytelniające dostawcy mogą pozostać w messages.tts, podczas gdy kanał lub konto bota zmienia tylko głos lektora, model, personę albo tryb automatyczny:

    json5
    {  messages: {    tts: {      provider: "openai",      providers: {        openai: { apiKey: "${OPENAI_API_KEY}", model: "gpt-4o-mini-tts" },      },    },  },  channels: {    feishu: {      accounts: {        english: {          tts: {            providers: {              openai: { speakerVoice: "shimmer" },            },          },        },      },    },  },}

    Persony

    Persona to stabilna tożsamość mówiona, którą można deterministycznie stosować u różnych dostawców. Może preferować jednego dostawcę, definiować neutralną wobec dostawców intencję promptu oraz przenosić powiązania specyficzne dla dostawcy dla głosów, modeli, szablonów promptów, ziaren i ustawień głosu.

    Minimalna persona

    json5
    {  messages: {    tts: {      auto: "always",      persona: "narrator",      personas: {        narrator: {          label: "Narrator",          provider: "elevenlabs",          providers: {            elevenlabs: {              speakerVoiceId: "EXAVITQu4vr4xnSDxMaL",              modelId: "eleven_multilingual_v2",            },          },        },      },    },  },}

    Pełna persona (prompt neutralny wobec dostawcy)

    json5
    {  messages: {    tts: {      auto: "always",      persona: "alfred",      personas: {        alfred: {          label: "Alfred",          description: "Dry, warm British butler narrator.",          provider: "google",          fallbackPolicy: "preserve-persona",          prompt: {            profile: "A brilliant British butler. Dry, witty, warm, charming, emotionally expressive, never generic.",            scene: "A quiet late-night study. Close-mic narration for a trusted operator.",            sampleContext: "The speaker is answering a private technical request with concise confidence and dry warmth.",            style: "Refined, understated, lightly amused.",            accent: "British English.",            pacing: "Measured, with short dramatic pauses.",            constraints: ["Do not read configuration values aloud.", "Do not explain the persona."],          },          providers: {            google: {              model: "gemini-3.1-flash-tts-preview",              speakerVoice: "Algieba",              promptTemplate: "audio-profile-v1",            },            openai: { model: "gpt-4o-mini-tts", speakerVoice: "cedar" },            elevenlabs: {              speakerVoiceId: "voice_id",              modelId: "eleven_multilingual_v2",              seed: 42,              voiceSettings: {                stability: 0.65,                similarityBoost: 0.8,                style: 0.25,                useSpeakerBoost: true,                speed: 0.95,              },            },          },        },      },    },  },}

    Rozstrzyganie persony

    Aktywna persona jest wybierana deterministycznie:

    1. lokalna preferencja /tts persona <id>, jeśli ustawiona.
    2. messages.tts.persona, jeśli ustawione.
    3. Brak persony.

    Wybór dostawcy działa według zasady „najpierw jawne ustawienia”:

    1. Bezpośrednie nadpisania (CLI, Gateway, Talk, dozwolone dyrektywy TTS).
    2. Lokalna preferencja /tts provider <id>.
    3. provider aktywnej persony.
    4. messages.tts.provider.
    5. Automatyczny wybór z rejestru.

    Dla każdej próby dostawcy OpenClaw scala konfiguracje w tej kolejności:

    1. messages.tts.providers.<id>
    2. messages.tts.personas.<persona>.providers.<id>
    3. Zaufane nadpisania żądania
    4. Dozwolone nadpisania z dyrektyw TTS wyemitowanych przez model

    Jak dostawcy używają promptów persony

    Pola promptu persony (profile, scene, sampleContext, style, accent, pacing, constraints) są neutralne wobec dostawcy. Każdy dostawca decyduje, jak ich używać:

    Google Gemini

    Opakowuje pola promptu persony w strukturę promptu Gemini TTS tylko wtedy, gdy efektywna konfiguracja dostawcy Google ustawia promptTemplate: "audio-profile-v1" albo personaPrompt. Starsze pola audioProfile i speakerName nadal są dołączane na początku jako tekst promptu specyficzny dla Google. Tagi audio inline, takie jak [whispers] lub [laughs] wewnątrz bloku [[tts:text]], są zachowywane w transkrypcie Gemini; OpenClaw nie generuje tych tagów.

    OpenAI

    Mapuje pola promptu persony na pole żądania instructions tylko wtedy, gdy nie skonfigurowano jawnych OpenAI instructions. Jawne instructions zawsze ma pierwszeństwo.

    Inni dostawcy

    Używają tylko powiązań persony specyficznych dla dostawcy pod personas.<id>.providers.<provider>. Pola promptu persony są ignorowane, chyba że dostawca implementuje własne mapowanie promptu persony.

    Zasada fallbacku

    fallbackPolicy kontroluje zachowanie, gdy persona nie ma powiązania dla próbowanego dostawcy:

    Zasada Zachowanie
    preserve-persona Domyślne. Pola promptu neutralne wobec dostawcy pozostają dostępne; dostawca może ich użyć lub je zignorować.
    provider-defaults Persona jest pomijana podczas przygotowania promptu dla tej próby; dostawca używa swoich neutralnych ustawień domyślnych, podczas gdy fallback do innych dostawców trwa dalej.
    fail Pomiń tę próbę dostawcy z reasonCode: "not_configured" i personaBinding: "missing". Dostawcy fallbacku nadal są próbowani.

    Całe żądanie TTS kończy się niepowodzeniem tylko wtedy, gdy każdy próbowany dostawca zostanie pominięty albo zakończy się niepowodzeniem.

    Wybór dostawcy sesji Talk jest ograniczony do sesji. Klient Talk powinien wybierać identyfikatory dostawców, identyfikatory modeli, identyfikatory głosów i ustawienia regionalne z talk.catalog oraz przekazywać je przez sesję Talk lub żądanie handoff. Otwarcie sesji głosowej nie powinno mutować messages.tts ani globalnych domyślnych ustawień dostawców Talk.

    Dyrektywy sterowane modelem

    Domyślnie asystent może emitować dyrektywy [[tts:...]], aby nadpisać głos, model lub prędkość dla pojedynczej odpowiedzi, a także opcjonalny blok [[tts:text]]...[[/tts:text]] dla wskazówek ekspresyjnych, które powinny pojawić się tylko w audio:

    text
    Here you go. [[tts:speakerVoiceId=pMsXgVXv3BLzUgSXRplE model=eleven_v3 speed=1.1]][[tts:text]](laughs) Read the song once more.[[/tts:text]]

    Gdy messages.tts.auto ma wartość "tagged", dyrektywy są wymagane, aby wyzwolić audio. Dostarczanie bloków strumieniowych usuwa dyrektywy z widocznego tekstu, zanim kanał je zobaczy, nawet gdy są podzielone między sąsiednie bloki.

    provider=... jest ignorowane, chyba że modelOverrides.allowProvider: true. Gdy odpowiedź deklaruje provider=..., pozostałe klucze w tej dyrektywie są parsowane tylko przez tego dostawcę; nieobsługiwane klucze są usuwane i raportowane jako ostrzeżenia dyrektyw TTS.

    Dostępne klucze dyrektyw:

    • provider (zarejestrowany identyfikator dostawcy; wymaga allowProvider: true)
    • speakerVoice / speakerVoiceId (starsze aliasy: voice, voiceName, voice_name, google_voice, voiceId)
    • model / google_model
    • stability, similarityBoost, style, speed, useSpeakerBoost
    • vol / volume (głośność MiniMax, 0–10)
    • pitch (całkowita wysokość tonu MiniMax, −12 do 12; wartości ułamkowe są obcinane)
    • emotion (tag emocji Volcengine)
    • applyTextNormalization (auto|on|off)
    • languageCode (ISO 639-1)
    • seed

    Całkowicie wyłącz nadpisania modelu:

    json5
    { messages: { tts: { modelOverrides: { enabled: false } } } }

    Zezwól na przełączanie dostawców, pozostawiając inne pokrętła konfigurowalne:

    json5
    { messages: { tts: { modelOverrides: { enabled: true, allowProvider: true, allowSeed: false } } } }

    Polecenia slash

    Pojedyncze polecenie /tts. W Discord OpenClaw rejestruje także /voice, ponieważ /tts jest wbudowanym poleceniem Discord — tekstowe /tts ... nadal działa.

    text
    /tts off | on | status/tts chat on | off | default/tts latest/tts provider <id>/tts persona <id> | off/tts limit <chars>/tts summary off/tts audio <text>

    Uwagi dotyczące zachowania:

    • /tts on zapisuje lokalną preferencję TTS jako always; /tts off zapisuje ją jako off.
    • /tts chat on|off|default zapisuje nadpisanie auto-TTS o zakresie sesji dla bieżącego czatu.
    • /tts persona <id> zapisuje lokalną preferencję persony; /tts persona off ją czyści.
    • /tts latest odczytuje najnowszą odpowiedź asystenta z transkryptu bieżącej sesji i wysyła ją jednorazowo jako audio. Przechowuje tylko skrót tej odpowiedzi we wpisie sesji, aby tłumić zduplikowane wysyłki głosowe.
    • /tts audio generuje jednorazową odpowiedź audio (nie włącza TTS).
    • limit i summary są przechowywane w lokalnych preferencjach, nie w głównej konfiguracji.
    • /tts status zawiera diagnostykę fallbacku dla najnowszej próby — Fallback: <primary> -> <used>, Attempts: ... oraz szczegóły każdej próby (provider:outcome(reasonCode) latency).
    • /status pokazuje aktywny tryb TTS oraz skonfigurowanego dostawcę, model, głos i oczyszczone metadane niestandardowego punktu końcowego, gdy TTS jest włączony.

    Preferencje użytkownika

    Polecenia slash zapisują lokalne nadpisania do prefsPath. Wartość domyślna to ~/.openclaw/settings/tts.json; nadpisz ją zmienną środowiskową OPENCLAW_TTS_PREFS albo messages.tts.prefsPath.

    Przechowywane pole Efekt
    auto Lokalne nadpisanie auto-TTS (always, off, …)
    provider Lokalne nadpisanie głównego dostawcy
    persona Lokalne nadpisanie persony
    maxLength Próg podsumowania (domyślnie 1500 znaków)
    summarize Przełącznik podsumowania (domyślnie true)

    Zastępują one efektywną konfigurację z messages.tts oraz aktywny blok agents.list[].tts dla tego hosta.

    Formaty wyjściowe (stałe)

    Dostarczanie głosu TTS jest sterowane możliwościami kanału. Pluginy kanałów ogłaszają, czy TTS w stylu głosu powinien prosić dostawców o natywny cel voice-note, czy zachować zwykłą syntezę audio-file i tylko oznaczać zgodne wyjście do dostarczania głosu.

    • Kanały obsługujące notatki głosowe: odpowiedzi jako notatki głosowe preferują Opus (opus_48000_64 z ElevenLabs, opus z OpenAI).
      • 48 kHz / 64 kbps to dobry kompromis dla wiadomości głosowej.
    • Feishu / WhatsApp: gdy odpowiedź jako notatka głosowa zostanie utworzona jako MP3/WebM/WAV/M4A lub inny prawdopodobny plik audio, Plugin kanału transkoduje ją do 48 kHz Ogg/Opus za pomocą ffmpeg przed wysłaniem natywnej wiadomości głosowej. WhatsApp wysyła wynik przez ładunek Baileys audio z ptt: true i audio/ogg; codecs=opus. Jeśli konwersja się nie powiedzie, Feishu otrzymuje oryginalny plik jako załącznik; wysyłanie WhatsApp kończy się niepowodzeniem zamiast opublikowania niezgodnego ładunku PTT.
    • Inne kanały: MP3 (mp3_44100_128 z ElevenLabs, mp3 z OpenAI).
      • 44,1 kHz / 128 kbps to domyślny balans dla klarowności mowy.
    • MiniMax: MP3 (model speech-2.8-hd, częstotliwość próbkowania 32 kHz) dla zwykłych załączników audio. W przypadku celów notatek głosowych ogłaszanych przez kanał OpenClaw transkoduje MP3 MiniMax do 48 kHz Opus za pomocą ffmpeg przed dostarczeniem, gdy kanał ogłasza obsługę transkodowania.
    • Xiaomi MiMo: domyślnie MP3 albo WAV po skonfigurowaniu. W przypadku celów notatek głosowych ogłaszanych przez kanał OpenClaw transkoduje wyjście Xiaomi do 48 kHz Opus za pomocą ffmpeg przed dostarczeniem, gdy kanał ogłasza obsługę transkodowania.
    • Lokalny CLI: używa skonfigurowanego outputFormat. Cele notatek głosowych są konwertowane do Ogg/Opus, a wyjście telefoniczne jest konwertowane do surowego, monofonicznego PCM 16 kHz za pomocą ffmpeg.
    • Google Gemini: TTS Gemini API zwraca surowy PCM 24 kHz. OpenClaw opakowuje go jako WAV dla załączników audio, transkoduje go do 48 kHz Opus dla celów notatek głosowych i zwraca PCM bezpośrednio dla Talk/telefonii.
    • Gradium: WAV dla załączników audio, Opus dla celów notatek głosowych i ulaw_8000 przy 8 kHz dla telefonii.
    • Inworld: MP3 dla zwykłych załączników audio, natywne OGG_OPUS dla celów notatek głosowych i surowe PCM przy 22050 Hz dla Talk/telefonii.
    • xAI: domyślnie MP3; responseFormat może być mp3, wav, pcm, mulaw albo alaw. OpenClaw używa wsadowego punktu końcowego REST TTS xAI i zwraca kompletny załącznik audio; strumieniowy WebSocket TTS xAI nie jest używany przez tę ścieżkę dostawcy. Natywny format notatek głosowych Opus nie jest obsługiwany przez tę ścieżkę.
    • Microsoft: używa microsoft.outputFormat (domyślnie audio-24khz-48kbitrate-mono-mp3).
      • Dołączony transport akceptuje outputFormat, ale nie wszystkie formaty są dostępne z usługi.
      • Wartości formatu wyjściowego są zgodne z formatami wyjściowymi Microsoft Speech (w tym Ogg/WebM Opus).
      • Telegram sendVoice akceptuje OGG/MP3/M4A; użyj OpenAI/ElevenLabs, jeśli potrzebujesz gwarantowanych wiadomości głosowych Opus.
      • Jeśli skonfigurowany format wyjściowy Microsoft zawiedzie, OpenClaw ponawia próbę z MP3.

    Formaty wyjściowe OpenAI/ElevenLabs są stałe dla każdego kanału (zobacz powyżej).

    Zachowanie Auto-TTS

    Gdy messages.tts.auto jest włączone, OpenClaw:

    • Pomija TTS, jeśli odpowiedź zawiera już media strukturalne.
    • Pomija bardzo krótkie odpowiedzi (poniżej 10 znaków).
    • Streszcza długie odpowiedzi, gdy streszczenia są włączone, używając summaryModel (albo agents.defaults.model.primary).
    • Dołącza wygenerowane audio do odpowiedzi.
    • W mode: "final" nadal wysyła TTS tylko audio dla strumieniowanych odpowiedzi końcowych po zakończeniu strumienia tekstu; wygenerowane media przechodzą przez tę samą normalizację mediów kanału co zwykłe załączniki odpowiedzi.

    Jeśli odpowiedź przekracza maxLength, a streszczenie jest wyłączone (albo brakuje klucza API dla modelu streszczania), audio jest pomijane i wysyłana jest zwykła odpowiedź tekstowa.

    text
    Reply -> TTS enabled?  no  -> send text  yes -> has media / short?          yes -> send text          no  -> length > limit?                   no  -> TTS -> attach audio                   yes -> summary enabled?                            no  -> send text                            yes -> summarize -> TTS -> attach audio

    Formaty wyjściowe według kanału

    Cel Format
    Feishu / Matrix / Telegram / WhatsApp Odpowiedzi jako notatki głosowe preferują Opus (opus_48000_64 z ElevenLabs, opus z OpenAI). 48 kHz / 64 kbps równoważy klarowność i rozmiar.
    Inne kanały MP3 (mp3_44100_128 z ElevenLabs, mp3 z OpenAI). 44,1 kHz / 128 kbps domyślnie dla mowy.
    Talk / telefonia Natywny dla dostawcy PCM (Inworld 22050 Hz, Google 24 kHz) albo ulaw_8000 z Gradium dla telefonii.

    Uwagi dotyczące poszczególnych dostawców:

    • Transkodowanie Feishu / WhatsApp: Gdy odpowiedź jako notatka głosowa trafia jako MP3/WebM/WAV/M4A, Plugin kanału transkoduje do 48 kHz Ogg/Opus za pomocą ffmpeg. WhatsApp wysyła przez Baileys z ptt: true i audio/ogg; codecs=opus. Jeśli konwersja się nie powiedzie: Feishu wraca do dołączenia oryginalnego pliku; wysyłanie WhatsApp kończy się niepowodzeniem zamiast opublikowania niezgodnego ładunku PTT.
    • MiniMax / Xiaomi MiMo: Domyślnie MP3 (32 kHz dla MiniMax speech-2.8-hd); transkodowane do 48 kHz Opus dla celów notatek głosowych przez ffmpeg.
    • Lokalny CLI: Używa skonfigurowanego outputFormat. Cele notatek głosowych są konwertowane do Ogg/Opus, a wyjście telefoniczne do surowego, monofonicznego PCM 16 kHz.
    • Google Gemini: Zwraca surowy PCM 24 kHz. OpenClaw opakowuje jako WAV dla załączników, transkoduje do 48 kHz Opus dla celów notatek głosowych, zwraca PCM bezpośrednio dla Talk/telefonii.
    • Inworld: załączniki MP3, natywne notatki głosowe OGG_OPUS, surowe PCM 22050 Hz dla Talk/telefonii.
    • xAI: domyślnie MP3; responseFormat może mieć wartość mp3|wav|pcm|mulaw|alaw. Używa wsadowego punktu końcowego REST xAI — strumieniowy WebSocket TTS nie jest używany. Natywny format notatek głosowych Opus nie jest obsługiwany.
    • Microsoft: Używa microsoft.outputFormat (domyślnie audio-24khz-48kbitrate-mono-mp3). Telegram sendVoice akceptuje OGG/MP3/M4A; użyj OpenAI/ElevenLabs, jeśli potrzebujesz gwarantowanych wiadomości głosowych Opus. Jeśli skonfigurowany format Microsoft zawiedzie, OpenClaw ponawia próbę z MP3.

    Formaty wyjściowe OpenAI i ElevenLabs są stałe dla każdego kanału zgodnie z powyższą listą.

    Informacje o polach

    messages.tts.* najwyższego poziomu
    auto"off" | "always" | "inbound" | "tagged"

    Tryb Auto-TTS. inbound wysyła audio tylko po przychodzącej wiadomości głosowej; tagged wysyła audio tylko wtedy, gdy odpowiedź zawiera dyrektywy [[tts:...]] albo blok [[tts:text]].

    enabledboolean

    Przestarzały przełącznik. openclaw doctor --fix migruje go do auto.

    mode"final" | "all"default: final

    "all" obejmuje odpowiedzi narzędzi/bloków oprócz odpowiedzi końcowych.

    providerstring

    Identyfikator dostawcy mowy. Gdy nie jest ustawiony, OpenClaw używa pierwszego skonfigurowanego dostawcy w kolejności automatycznego wyboru rejestru. Przestarzałe provider: "edge" jest przepisywane na "microsoft" przez openclaw doctor --fix.

    personastring

    Aktywny identyfikator persony z personas. Normalizowany do małych liter.

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InBlcnNvbmFzLjxpZA " type="object"> Stabilna tożsamość mówiona. Pola: label, description, provider, fallbackPolicy, prompt, providers.<provider>. Zobacz Persony.

    summaryModelstring

    Tani model do automatycznego streszczania; domyślnie agents.defaults.model.primary. Akceptuje provider/model albo skonfigurowany alias modelu.

    modelOverridesobject

    Zezwól modelowi na emitowanie dyrektyw TTS. enabled domyślnie ma wartość true; allowProvider domyślnie ma wartość false.

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InByb3ZpZGVycy48aWQ " type="object"> Ustawienia należące do dostawcy, indeksowane identyfikatorem dostawcy mowy. Przestarzałe bezpośrednie bloki (messages.tts.openai, .elevenlabs, .microsoft, .edge) są przepisywane przez openclaw doctor --fix; zatwierdzaj tylko messages.tts.providers.<id>.

    maxTextLengthnumber

    Twardy limit znaków wejściowych TTS. /tts audio kończy się niepowodzeniem po przekroczeniu.

    timeoutMsnumber

    Limit czasu żądania w milisekundach.

    prefsPathstring

    Zastąp lokalną ścieżkę JSON preferencji (dostawca/limit/streszczenie). Domyślnie ~/.openclaw/settings/tts.json.

    Azure Speech

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg Env: AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY albo SPEECH_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InJlZ2lvbiIgdHlwZT0ic3RyaW5nIg Region Azure Speech (np. eastus). Env: AZURE_SPEECH_REGION albo SPEECH_REGION. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImVuZHBvaW50IiB0eXBlPSJzdHJpbmci Opcjonalne zastąpienie punktu końcowego Azure Speech (alias baseUrl). OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZSIgdHlwZT0ic3RyaW5nIg ShortName głosu Azure. Domyślnie en-US-JennyNeural. Przestarzały alias: voice. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImxhbmciIHR5cGU9InN0cmluZyI Kod języka SSML. Domyślnie en-US. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im91dHB1dEZvcm1hdCIgdHlwZT0ic3RyaW5nIg Azure X-Microsoft-OutputFormat dla standardowego audio. Domyślnie audio-24khz-48kbitrate-mono-mp3. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InZvaWNlTm90ZU91dHB1dEZvcm1hdCIgdHlwZT0ic3RyaW5nIg Azure X-Microsoft-OutputFormat dla wyjścia notatek głosowych. Domyślnie ogg-24khz-16bit-mono-opus. OPENCLAW_DOCS_MARKER:paramClose:

    ElevenLabs

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg Wraca do ELEVENLABS_API_KEY albo XI_API_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im1vZGVsIiB0eXBlPSJzdHJpbmci Identyfikator modelu (np. eleven_multilingual_v2, eleven_v3). OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZUlkIiB0eXBlPSJzdHJpbmci Identyfikator głosu ElevenLabs. Przestarzały alias: voiceId. OPENCLAW_DOCS_MARKER:paramClose:

    voiceSettingsobject

    stability, similarityBoost, style (każde 0..1), useSpeakerBoost (true|false), speed (0.5..2.0, 1.0 = normalne).

    applyTextNormalization"auto" | "on" | "off"

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Imxhbmd1YWdlQ29kZSIgdHlwZT0ic3RyaW5nIg 2-literowy ISO 639-1 (np. en, de). OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNlZWQiIHR5cGU9Im51bWJlciI Liczba całkowita 0..4294967295 dla determinizmu w najlepszym możliwym zakresie. OPENCLAW_DOCS_MARKER:paramClose:

    baseUrlstring
    Google Gemini

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg Wraca do GEMINI_API_KEY / GOOGLE_API_KEY. Jeśli pominięto, TTS może ponownie użyć models.providers.google.apiKey przed powrotem do zmiennych środowiskowych. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im1vZGVsIiB0eXBlPSJzdHJpbmci Model TTS Gemini. Domyślnie gemini-3.1-flash-tts-preview. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZSIgdHlwZT0ic3RyaW5nIg Nazwa wbudowanego głosu Gemini. Domyślnie Kore. Przestarzałe aliasy: voiceName, voice. OPENCLAW_DOCS_MARKER:paramClose:

    audioProfilestring
    speakerNamestring

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InByb21wdFRlbXBsYXRlIiB0eXBlPSciYXVkaW8tcHJvZmlsZS12MSIn Ustaw na audio-profile-v1, aby opakować aktywne pola promptu persony w deterministyczną strukturę promptu TTS Gemini. OPENCLAW_DOCS_MARKER:paramClose:

    personaPromptstring

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImJhc2VVcmwiIHR5cGU9InN0cmluZyI Akceptowane jest tylko https://generativelanguage.googleapis.com. OPENCLAW_DOCS_MARKER:paramClose:

    Gradium

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg Środowisko: GRADIUM_API_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImJhc2VVcmwiIHR5cGU9InN0cmluZyI Domyślnie https://api.gradium.ai. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZUlkIiB0eXBlPSJzdHJpbmci Domyślnie Emma (YTpq7expH9539ERJ). Starszy alias: voiceId. OPENCLAW_DOCS_MARKER:paramClose:

    Inworld

    Podstawowy Inworld

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg Środowisko: INWORLD_API_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImJhc2VVcmwiIHR5cGU9InN0cmluZyI Domyślnie https://api.inworld.ai. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im1vZGVsSWQiIHR5cGU9InN0cmluZyI Domyślnie inworld-tts-1.5-max. Także: inworld-tts-1.5-mini, inworld-tts-1-max, inworld-tts-1. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZUlkIiB0eXBlPSJzdHJpbmci Domyślnie Sarah. Starszy alias: voiceId. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InRlbXBlcmF0dXJlIiB0eXBlPSJudW1iZXIi Temperatura próbkowania 0..2. OPENCLAW_DOCS_MARKER:paramClose:

    Lokalny CLI (tts-local-cli)
    commandstring

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFyZ3MiIHR5cGU9InN0cmluZ1tdIg Argumenty polecenia. Obsługuje symbole zastępcze {{Text}}, {{OutputPath}}, {{OutputDir}}, {{OutputBase}}. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im91dHB1dEZvcm1hdCIgdHlwZT0nIm1wMyIgfCAib3B1cyIgfCAid2F2Iic Oczekiwany format wyjściowy CLI. Domyślnie mp3 dla załączników audio. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InRpbWVvdXRNcyIgdHlwZT0ibnVtYmVyIg Limit czasu polecenia w milisekundach. Domyślnie 120000. OPENCLAW_DOCS_MARKER:paramClose:

    cwdstring
    envRecord<string, string��-�өr:'jYޝ�i�Ƨ���v�
    Microsoft (bez klucza API)
    enabledbooleandefault: true

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZSIgdHlwZT0ic3RyaW5nIg Nazwa głosu neuronowego Microsoft (np. en-US-MichelleNeural). Starszy alias: voice. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImxhbmciIHR5cGU9InN0cmluZyI Kod języka (np. en-US). OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im91dHB1dEZvcm1hdCIgdHlwZT0ic3RyaW5nIg Format wyjściowy Microsoft. Domyślnie audio-24khz-48kbitrate-mono-mp3. Nie wszystkie formaty są obsługiwane przez dołączony transport oparty na Edge. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InJhdGUgLyBwaXRjaCAvIHZvbHVtZSIgdHlwZT0ic3RyaW5nIg Ciągi procentowe (np. +10%, -5%). OPENCLAW_DOCS_MARKER:paramClose:

    saveSubtitlesboolean
    proxystring
    timeoutMsnumber

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImVkZ2UuKiIgdHlwZT0ib2JqZWN0IiBkZXByZWNhdGVk Starszy alias. Uruchom openclaw doctor --fix, aby przepisać utrwaloną konfigurację na providers.microsoft. OPENCLAW_DOCS_MARKER:paramClose:

    MiniMax

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg W razie braku używa MINIMAX_API_KEY. Uwierzytelnianie Token Plan przez MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY lub MINIMAX_CODING_API_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImJhc2VVcmwiIHR5cGU9InN0cmluZyI Domyślnie https://api.minimax.io. Środowisko: MINIMAX_API_HOST. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im1vZGVsIiB0eXBlPSJzdHJpbmci Domyślnie speech-2.8-hd. Środowisko: MINIMAX_TTS_MODEL. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZUlkIiB0eXBlPSJzdHJpbmci Domyślnie English_expressive_narrator. Środowisko: MINIMAX_TTS_VOICE_ID. Starszy alias: voiceId. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWVkIiB0eXBlPSJudW1iZXIi 0.5..2.0. Domyślnie 1.0. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InZvbCIgdHlwZT0ibnVtYmVyIg (0, 10]. Domyślnie 1.0. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InBpdGNoIiB0eXBlPSJudW1iZXIi Liczba całkowita -12..12. Domyślnie 0. Wartości ułamkowe są obcinane przed żądaniem. OPENCLAW_DOCS_MARKER:paramClose:

    OpenAI

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg W razie braku używa OPENAI_API_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im1vZGVsIiB0eXBlPSJzdHJpbmci Identyfikator modelu TTS OpenAI (np. gpt-4o-mini-tts). OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZSIgdHlwZT0ic3RyaW5nIg Nazwa głosu (np. alloy, cedar). Starszy alias: voice. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Imluc3RydWN0aW9ucyIgdHlwZT0ic3RyaW5nIg Jawne pole OpenAI instructions. Po ustawieniu pola promptu persony nie są automatycznie mapowane. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImV4dHJhQm9keSAvIGV4dHJhX2JvZHkiIHR5cGU9IlJlY29yZDxzdHJpbmcsIHVua25vd24 ">Dodatkowe pola JSON scalane z treściami żądań /audio/speech po wygenerowanych polach TTS OpenAI. Użyj tego dla punktów końcowych zgodnych z OpenAI, takich jak Kokoro, które wymagają kluczy specyficznych dla dostawcy, takich jak lang; niebezpieczne klucze prototypu są ignorowane. OPENCLAW_DOCS_MARKER:paramClose:

    baseUrlstring

    Nadpisz punkt końcowy TTS OpenAI. Kolejność rozstrzygania: konfiguracja → OPENAI_TTS_BASE_URLhttps://api.openai.com/v1. Wartości inne niż domyślne są traktowane jako punkty końcowe TTS zgodne z OpenAI, więc niestandardowe nazwy modeli i głosów są akceptowane.

    OpenRouter

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg Środowisko: OPENROUTER_API_KEY. Może ponownie użyć models.providers.openrouter.apiKey. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImJhc2VVcmwiIHR5cGU9InN0cmluZyI Domyślnie https://openrouter.ai/api/v1. Starszy https://openrouter.ai/v1 jest normalizowany. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im1vZGVsIiB0eXBlPSJzdHJpbmci Domyślnie hexgrad/kokoro-82m. Alias: modelId. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZSIgdHlwZT0ic3RyaW5nIg Domyślnie af_alloy. Starsze aliasy: voice, voiceId. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InJlc3BvbnNlRm9ybWF0IiB0eXBlPScibXAzIiB8ICJwY20iJw Domyślnie mp3. OPENCLAW_DOCS_MARKER:paramClose:

    speednumber
    Volcengine (BytePlus Seed Speech)

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg Środowisko: VOLCENGINE_TTS_API_KEY lub BYTEPLUS_SEED_SPEECH_API_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InJlc291cmNlSWQiIHR5cGU9InN0cmluZyI Domyślnie seed-tts-1.0. Środowisko: VOLCENGINE_TTS_RESOURCE_ID. Użyj seed-tts-2.0, gdy Twój projekt ma uprawnienie TTS 2.0. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwcEtleSIgdHlwZT0ic3RyaW5nIg Nagłówek klucza aplikacji. Domyślnie aGjiRDfUWi. Środowisko: VOLCENGINE_TTS_APP_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImJhc2VVcmwiIHR5cGU9InN0cmluZyI Nadpisz punkt końcowy HTTP Seed Speech TTS. Środowisko: VOLCENGINE_TTS_BASE_URL. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZSIgdHlwZT0ic3RyaW5nIg Typ głosu. Domyślnie en_female_anna_mars_bigtts. Środowisko: VOLCENGINE_TTS_VOICE. Starszy alias: voice. OPENCLAW_DOCS_MARKER:paramClose:

    speedRationumber
    emotionstring

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwcElkIC8gdG9rZW4gLyBjbHVzdGVyIiB0eXBlPSJzdHJpbmciIGRlcHJlY2F0ZWQ Starsze pola Volcengine Speech Console. Środowisko: VOLCENGINE_TTS_APPID, VOLCENGINE_TTS_TOKEN, VOLCENGINE_TTS_CLUSTER (domyślnie volcano_tts). OPENCLAW_DOCS_MARKER:paramClose:

    xAI

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg Środowisko: XAI_API_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImJhc2VVcmwiIHR5cGU9InN0cmluZyI Domyślnie https://api.x.ai/v1. Środowisko: XAI_BASE_URL. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZUlkIiB0eXBlPSJzdHJpbmci Domyślnie eve. Aktywne głosy: ara, eve, leo, rex, sal, una. Starszy alias: voiceId. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Imxhbmd1YWdlIiB0eXBlPSJzdHJpbmci Kod języka BCP-47 lub auto. Domyślnie en. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InJlc3BvbnNlRm9ybWF0IiB0eXBlPScibXAzIiB8ICJ3YXYiIHwgInBjbSIgfCAibXVsYXciIHwgImFsYXciJw Domyślnie mp3. OPENCLAW_DOCS_MARKER:paramClose:

    speednumber
    Xiaomi MiMo

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImFwaUtleSIgdHlwZT0ic3RyaW5nIg Środowisko: XIAOMI_API_KEY. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImJhc2VVcmwiIHR5cGU9InN0cmluZyI Domyślnie https://api.xiaomimimo.com/v1. Środowisko: XIAOMI_BASE_URL. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9Im1vZGVsIiB0eXBlPSJzdHJpbmci Domyślnie mimo-v2.5-tts. Środowisko: XIAOMI_TTS_MODEL. Obsługuje także mimo-v2-tts i mimo-v2.5-tts-voicedesign. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InNwZWFrZXJWb2ljZSIgdHlwZT0ic3RyaW5nIg Domyślnie mimo_default dla modeli z gotowym głosem. Środowisko: XIAOMI_TTS_VOICE. Starszy alias: voice. Nie jest wysyłane dla mimo-v2.5-tts-voicedesign. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9ImZvcm1hdCIgdHlwZT0nIm1wMyIgfCAid2F2Iic Domyślnie mp3. Środowisko: XIAOMI_TTS_FORMAT. OPENCLAW_DOCS_MARKER:paramClose:

    OPENCLAW_DOCS_MARKER:paramOpen:IHBhdGg9InN0eWxlIiB0eXBlPSJzdHJpbmci Opcjonalna instrukcja stylu w języku naturalnym wysyłana jako wiadomość użytkownika; nie jest wypowiadana. Dla mimo-v2.5-tts-voicedesign jest to prompt projektowania głosu; OpenClaw dostarcza wartość domyślną, gdy zostanie pominięta. OPENCLAW_DOCS_MARKER:paramClose:

    Narzędzie agenta

    Narzędzie tts konwertuje tekst na mowę i zwraca załącznik audio do dostarczenia odpowiedzi. W Feishu, Matrix, Telegram i WhatsApp audio jest dostarczane jako wiadomość głosowa, a nie jako załącznik pliku. Feishu i WhatsApp mogą transkodować wyjście TTS inne niż Opus na tej ścieżce, gdy ffmpeg jest dostępny.

    WhatsApp wysyła audio przez Baileys jako notatkę głosową PTT (audio z ptt: true) i wysyła widoczny tekst oddzielnie od audio PTT, ponieważ klienci nie renderują konsekwentnie podpisów przy notatkach głosowych.

    Narzędzie akceptuje opcjonalne pola channel i timeoutMs; timeoutMs to limit czasu żądania dostawcy dla pojedynczego wywołania w milisekundach. Wartości dla pojedynczego wywołania nadpisują messages.tts.timeoutMs; skonfigurowane limity czasu TTS nadpisują dowolną domyślną wartość dostawcy utworzoną przez Plugin.

    RPC Gateway

    Metoda Cel
    tts.status Odczytaj bieżący stan TTS i ostatnią próbę.
    tts.enable Ustaw lokalną preferencję automatyczną na always.
    tts.disable Ustaw lokalną preferencję automatyczną na off.
    tts.convert Jednorazowy tekst → audio.
    tts.setProvider Ustaw lokalną preferencję dostawcy.
    tts.setPersona Ustaw lokalną preferencję persony.
    tts.providers Wyświetl listę skonfigurowanych dostawców i status.

    Łącza usług

    Powiązane

    Was this useful?
    On this page

    On this page