OpenClaw kan uitgaande antwoorden omzetten naar audio via 14 spraakproviders en native spraakberichten leveren op Feishu, Matrix, Telegram en WhatsApp, audiobijlagen overal elders, en PCM/Ulaw-streams voor telefonie en Talk.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
Snelstart
Kies een provider
OpenAI en ElevenLabs zijn de betrouwbaarste gehoste opties. Microsoft en
Local CLI werken zonder API-sleutel. Zie de providermatrix
voor de volledige lijst.
Stel de API-sleutel in
Exporteer de omgevingsvariabele voor je provider (bijvoorbeeld
OPENAI_API_KEY,
ELEVENLABS_API_KEY). Microsoft en Local CLI hebben geen sleutel nodig.Auto-TTS staat standaard uit. Wanneer
messages.tts.provider niet is ingesteld,
kiest OpenClaw de eerste geconfigureerde provider in de auto-selectievolgorde van het register.Ondersteunde providers
| Provider | Auth | Opmerkingen |
|---|---|---|
| Azure Speech | AZURE_SPEECH_KEY + AZURE_SPEECH_REGION (ook AZURE_SPEECH_API_KEY, SPEECH_KEY, SPEECH_REGION) | Native Ogg/Opus-spraaknotitie-uitvoer en telefonie. |
| DeepInfra | DEEPINFRA_API_KEY | OpenAI-compatibele TTS. Standaard ingesteld op hexgrad/Kokoro-82M. |
| ElevenLabs | ELEVENLABS_API_KEY of XI_API_KEY | Stemklonen, meertalig, deterministisch via seed. |
| Google Gemini | GEMINI_API_KEY of GOOGLE_API_KEY | Gemini API TTS; persona-bewust via promptTemplate: "audio-profile-v1". |
| Gradium | GRADIUM_API_KEY | Spraaknotitie- en telefonie-uitvoer. |
| Inworld | INWORLD_API_KEY | Streaming TTS-API. Native Opus-spraaknotitie en PCM-telefonie. |
| Local CLI | geen | Voert een geconfigureerde lokale TTS-opdracht uit. |
| Microsoft | geen | Publieke Edge neural TTS via node-edge-tts. Naar beste vermogen, geen SLA. |
| MiniMax | MINIMAX_API_KEY (of Token Plan: MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY, MINIMAX_CODING_API_KEY) | T2A v2-API. Standaard ingesteld op speech-2.8-hd. |
| OpenAI | OPENAI_API_KEY | Ook gebruikt voor automatische samenvatting; ondersteunt persona-instructions. |
| OpenRouter | OPENROUTER_API_KEY (kan models.providers.openrouter.apiKey hergebruiken) | Standaardmodel hexgrad/kokoro-82m. |
| Volcengine | VOLCENGINE_TTS_API_KEY of BYTEPLUS_SEED_SPEECH_API_KEY (verouderde AppID/token: VOLCENGINE_TTS_APPID/_TOKEN) | BytePlus Seed Speech HTTP-API. |
| Vydra | VYDRA_API_KEY | Gedeelde image-, video- en spraakprovider. |
| xAI | XAI_API_KEY | xAI batch-TTS. Native Opus-spraaknotitie wordt niet ondersteund. |
| Xiaomi MiMo | XIAOMI_API_KEY | MiMo TTS via Xiaomi-chatvoltooiingen. |
summaryModel (of
agents.defaults.model.primary), dus die provider moet ook geauthenticeerd zijn
als je samenvattingen ingeschakeld houdt.
Configuratie
TTS-configuratie staat ondermessages.tts in ~/.openclaw/openclaw.json. Kies een
preset en pas het providerblok aan:
- Azure Speech
- ElevenLabs
- Google Gemini
- Gradium
- Inworld
- Local CLI
- Microsoft (no key)
- MiniMax
- OpenAI + ElevenLabs
- OpenRouter
- Volcengine
- xAI
- Xiaomi MiMo
Spraakoverschrijvingen per agent
Gebruikagents.list[].tts wanneer één agent moet spreken met een andere provider,
stem, model, persona of automatische TTS-modus. Het agentblok wordt diep samengevoegd over
messages.tts, zodat providerreferenties in de globale providerconfiguratie kunnen blijven staan:
agents.list[].tts.persona in naast de providerconfiguratie — dit overschrijft de globale messages.tts.persona alleen voor die agent.
Volgorde van prioriteit voor automatische antwoorden, /tts audio, /tts status en de
agenttool tts:
messages.tts- actieve
agents.list[].tts - kanaaloverschrijving, wanneer het kanaal
channels.<channel>.ttsondersteunt - accountoverschrijving, wanneer het kanaal
channels.<channel>.accounts.<id>.ttsdoorgeeft - lokale
/tts-voorkeuren voor deze host - inline
[[tts:...]]-directieven wanneer modeloverschrijvingen zijn ingeschakeld
messages.tts en
worden met een deep merge samengevoegd over de eerdere lagen, zodat gedeelde providerreferenties in
messages.tts kunnen blijven terwijl een kanaal of botaccount alleen de stem, het model, de persona
of de automatische modus wijzigt:
Persona’s
Een persona is een stabiele gesproken identiteit die deterministisch over providers heen kan worden toegepast. Deze kan één provider verkiezen, providerneutrale promptintentie definiëren en providerspecifieke bindingen bevatten voor stemmen, modellen, promptsjablonen, seeds en steminstellingen.Minimale persona
Volledige persona (providerneutrale prompt)
Personaresolutie
De actieve persona wordt deterministisch geselecteerd:/tts persona <id>lokale voorkeur, indien ingesteld.messages.tts.persona, indien ingesteld.- Geen persona.
- Directe overschrijvingen (CLI, Gateway, Talk, toegestane TTS-directives).
/tts provider <id>lokale voorkeur.- De
providervan de actieve persona. messages.tts.provider.- Automatische registerselectie.
messages.tts.providers.<id>messages.tts.personas.<persona>.providers.<id>- Vertrouwde aanvraagoverschrijvingen
- Toegestane door het model uitgezonden TTS-directive-overschrijvingen
Hoe providers personaprompts gebruiken
Personapromptvelden (profile, scene, sampleContext, style, accent,
pacing, constraints) zijn providerneutraal. Elke provider bepaalt hoe
deze worden gebruikt:
Google Gemini
Google Gemini
Verpakt personapromptvelden in een Gemini TTS-promptstructuur alleen wanneer
de effectieve Google-providerconfiguratie
promptTemplate: "audio-profile-v1"
of personaPrompt instelt. De oudere velden audioProfile en speakerName worden
nog steeds vooraf toegevoegd als Google-specifieke prompttekst. Inline audiotags zoals
[whispers] of [laughs] binnen een [[tts:text]]-blok blijven behouden
binnen het Gemini-transcript; OpenClaw genereert deze tags niet.OpenAI
OpenAI
Koppelt personapromptvelden aan het aanvraagveld
instructions alleen wanneer
er geen expliciete OpenAI-instructions is geconfigureerd. Expliciete instructions
heeft altijd voorrang.Other providers
Other providers
Gebruiken alleen de providerspecifieke personabindingen onder
personas.<id>.providers.<provider>. Personapromptvelden worden genegeerd,
tenzij de provider een eigen persona-promptkoppeling implementeert.Fallbackbeleid
fallbackPolicy bepaalt het gedrag wanneer een persona geen binding heeft voor de
geprobeerde provider:
| Beleid | Gedrag |
|---|---|
preserve-persona | Standaard. Providerneutrale promptvelden blijven beschikbaar; de provider kan ze gebruiken of negeren. |
provider-defaults | Persona wordt weggelaten uit promptvoorbereiding voor die poging; de provider gebruikt zijn neutrale standaardwaarden terwijl fallback naar andere providers doorgaat. |
fail | Sla die providerpoging over met reasonCode: "not_configured" en personaBinding: "missing". Fallbackproviders worden nog steeds geprobeerd. |
Modelgestuurde directives
Standaard kan de assistent[[tts:...]]-directives uitzenden om
stem, model of snelheid voor één antwoord te overschrijven, plus een optioneel
[[tts:text]]...[[/tts:text]]-blok voor expressieve aanwijzingen die alleen in
audio moeten verschijnen:
messages.tts.auto "tagged" is, zijn directives vereist om
audio te activeren. Streamingbloklevering verwijdert directives uit zichtbare tekst voordat het
kanaal ze ziet, zelfs wanneer ze over aangrenzende blokken zijn gesplitst.
provider=... wordt genegeerd tenzij modelOverrides.allowProvider: true. Wanneer een
antwoord provider=... declareert, worden de andere sleutels in die directive
alleen door die provider geparsed; niet-ondersteunde sleutels worden verwijderd en gerapporteerd als TTS
directive-waarschuwingen.
Beschikbare directive-sleutels:
provider(geregistreerde provider-id; vereistallowProvider: true)voice/voiceName/voice_name/google_voice/voiceIdmodel/google_modelstability,similarityBoost,style,speed,useSpeakerBoostvol/volume(MiniMax-volume, 0-10)pitch(MiniMax-gehele pitch, −12 tot 12; fractionele waarden worden afgekapt)emotion(Volcengine-emotietag)applyTextNormalization(auto|on|off)languageCode(ISO 639-1)seed
Slash-commando’s
Enkel commando/tts. Op Discord registreert OpenClaw ook /voice omdat
/tts een ingebouwd Discord-commando is — tekst /tts ... werkt nog steeds.
Commando’s vereisen een geautoriseerde afzender (allowlist-/eigenaarsregels zijn van toepassing) en ofwel
commands.text of native commandoregistratie moet zijn ingeschakeld./tts onschrijft de lokale TTS-voorkeur naaralways;/tts offschrijft deze naaroff./tts chat on|off|defaultschrijft een sessiegebonden auto-TTS-overschrijving voor de huidige chat./tts persona <id>schrijft de lokale personavoorkeur;/tts persona offwist deze./tts latestleest het nieuwste assistentantwoord uit het huidige sessietranscript en verstuurt het eenmaal als audio. Het slaat alleen een hash van dat antwoord op in de sessie-entry om dubbele stemverzendingen te onderdrukken./tts audiogenereert een eenmalig audioantwoord (schakelt TTS niet in).limitensummaryworden opgeslagen in lokale voorkeuren, niet in de hoofdconfiguratie./tts statusbevat fallbackdiagnostiek voor de nieuwste poging —Fallback: <primary> -> <used>,Attempts: ...en details per poging (provider:outcome(reasonCode) latency)./statustoont de actieve TTS-modus plus geconfigureerde provider, model, stem en opgeschoonde aangepaste eindpuntmetadata wanneer TTS is ingeschakeld.
Voorkeuren per gebruiker
Slash-commando’s schrijven lokale overschrijvingen naarprefsPath. De standaardwaarde is
~/.openclaw/settings/tts.json; overschrijf met de env-var OPENCLAW_TTS_PREFS
of messages.tts.prefsPath.
| Opgeslagen veld | Effect |
|---|---|
auto | Lokale auto-TTS-overschrijving (always, off, …) |
provider | Lokale primaire provideroverride |
persona | Lokale personaoverride |
maxLength | Samenvattingsdrempel (standaard 1500 tekens) |
summarize | Samenvattingsschakelaar (standaard true) |
messages.tts plus het actieve
agents.list[].tts-blok voor die host.
Uitvoerformaten (vast)
TTS-stemlevering wordt aangestuurd door kanaalmogelijkheden. Kanaalplugins adverteren of TTS in stemstijl providers moet vragen om een nativevoice-note-doel of
normale audio-file-synthese moet behouden en compatibele uitvoer alleen voor stemlevering moet markeren.
- Kanalen met spraaknotitiemogelijkheid: spraaknotitie-antwoorden geven de voorkeur aan Opus (
opus_48000_64van ElevenLabs,opusvan OpenAI).- 48 kHz / 64 kbps is een goede afweging voor spraakberichten.
- Feishu / WhatsApp: wanneer een spraaknotitie-antwoord wordt geproduceerd als MP3/WebM/WAV/M4A
of een ander waarschijnlijk audiobestand, zet de kanaalplugin dit met
ffmpegom naar 48 kHz Ogg/Opus voordat het native spraakbericht wordt verzonden. WhatsApp verzendt het resultaat via de Baileys-audio-payload metptt: trueenaudio/ogg; codecs=opus. Als conversie mislukt, ontvangt Feishu het oorspronkelijke bestand als bijlage; verzenden via WhatsApp mislukt in plaats van een incompatibele PTT-payload te plaatsen. - BlueBubbles: houdt providersynthese op het normale audiobestandspad; MP3- en CAF-uitvoer wordt gemarkeerd voor levering als iMessage-spraakmemo.
- Andere kanalen: MP3 (
mp3_44100_128van ElevenLabs,mp3van OpenAI).- 44,1 kHz / 128 kbps is de standaardbalans voor spraakhelderheid.
- MiniMax: MP3 (
speech-2.8-hd-model, 32 kHz samplefrequentie) voor normale audiobijlagen. Voor door kanalen aangekondigde spraaknotitiedoelen zet OpenClaw de MiniMax-MP3 vóór levering om naar 48 kHz Opus metffmpegwanneer het kanaal transcodering aankondigt. - Xiaomi MiMo: standaard MP3, of WAV wanneer geconfigureerd. Voor door kanalen aangekondigde spraaknotitiedoelen zet OpenClaw Xiaomi-uitvoer vóór levering om naar 48 kHz Opus met
ffmpegwanneer het kanaal transcodering aankondigt. - Lokale CLI: gebruikt de geconfigureerde
outputFormat. Spraaknotitiedoelen worden geconverteerd naar Ogg/Opus en telefonie-uitvoer wordt geconverteerd naar ruwe 16 kHz mono PCM metffmpeg. - Google Gemini: Gemini API TTS retourneert ruwe 24 kHz PCM. OpenClaw verpakt dit als WAV voor audiobijlagen, transcodeert het naar 48 kHz Opus voor spraaknotitiedoelen en retourneert PCM rechtstreeks voor Talk/telefonie.
- Gradium: WAV voor audiobijlagen, Opus voor spraaknotitiedoelen en
ulaw_8000op 8 kHz voor telefonie. - Inworld: MP3 voor normale audiobijlagen, native
OGG_OPUSvoor spraaknotitiedoelen en ruwePCMop 22050 Hz voor Talk/telefonie. - xAI: standaard MP3;
responseFormatkanmp3,wav,pcm,mulawofalawzijn. OpenClaw gebruikt xAI’s batch-REST-TTS-eindpunt en retourneert een volledige audiobijlage; xAI’s streaming-TTS-WebSocket wordt niet gebruikt door dit providerpad. Native Opus-spraaknotitieformaat wordt niet ondersteund door dit pad. - Microsoft: gebruikt
microsoft.outputFormat(standaardaudio-24khz-48kbitrate-mono-mp3).- Het meegeleverde transport accepteert een
outputFormat, maar niet alle formaten zijn beschikbaar vanuit de service. - Uitvoerformatwaarden volgen Microsoft Speech-uitvoerformaten (inclusief Ogg/WebM Opus).
- Telegram
sendVoiceaccepteert OGG/MP3/M4A; gebruik OpenAI/ElevenLabs als je gegarandeerde Opus-spraakberichten nodig hebt. - Als het geconfigureerde Microsoft-uitvoerformaat mislukt, probeert OpenClaw het opnieuw met MP3.
- Het meegeleverde transport accepteert een
Auto-TTS-gedrag
Wanneermessages.tts.auto is ingeschakeld, doet OpenClaw het volgende:
- Slaat TTS over als het antwoord al media of een
MEDIA:-directive bevat. - Slaat zeer korte antwoorden over (minder dan 10 tekens).
- Vat lange antwoorden samen wanneer samenvattingen zijn ingeschakeld, met
summaryModel(ofagents.defaults.model.primary). - Voegt de gegenereerde audio toe aan het antwoord.
- In
mode: "final"wordt nog steeds audio-only TTS verzonden voor gestreamde eindantwoorden nadat de tekststream is voltooid; de gegenereerde media doorloopt dezelfde kanaalmedianormalisatie als normale antwoordbijlagen.
maxLength en samenvatting uit staat (of er geen API-sleutel is voor het
samenvattingsmodel), wordt audio overgeslagen en wordt het normale tekstantwoord verzonden.
Uitvoerformaten per kanaal
| Doel | Formaat |
|---|---|
| Feishu / Matrix / Telegram / WhatsApp | Spraaknotitie-antwoorden geven de voorkeur aan Opus (opus_48000_64 van ElevenLabs, opus van OpenAI). 48 kHz / 64 kbps brengt helderheid en grootte in balans. |
| Andere kanalen | MP3 (mp3_44100_128 van ElevenLabs, mp3 van OpenAI). 44,1 kHz / 128 kbps is standaard voor spraak. |
| Talk / telefonie | Provider-native PCM (Inworld 22050 Hz, Google 24 kHz), of ulaw_8000 van Gradium voor telefonie. |
- Feishu / WhatsApp-transcodering: Wanneer een spraaknotitie-antwoord binnenkomt als MP3/WebM/WAV/M4A, zet de kanaalplugin dit met
ffmpegom naar 48 kHz Ogg/Opus. WhatsApp verzendt via Baileys metptt: trueenaudio/ogg; codecs=opus. Als conversie mislukt: Feishu valt terug op het bijvoegen van het oorspronkelijke bestand; WhatsApp-verzending mislukt in plaats van een incompatibele PTT-payload te plaatsen. - MiniMax / Xiaomi MiMo: Standaard MP3 (32 kHz voor MiniMax
speech-2.8-hd); getranscodeerd naar 48 kHz Opus voor spraaknotitiedoelen viaffmpeg. - Lokale CLI: Gebruikt geconfigureerde
outputFormat. Spraaknotitiedoelen worden geconverteerd naar Ogg/Opus en telefonie-uitvoer naar ruwe 16 kHz mono PCM. - Google Gemini: Retourneert ruwe 24 kHz PCM. OpenClaw verpakt dit als WAV voor bijlagen, transcodeert naar 48 kHz Opus voor spraaknotitiedoelen en retourneert PCM rechtstreeks voor Talk/telefonie.
- Inworld: MP3-bijlagen, native
OGG_OPUS-spraaknotitie, ruwePCM22050 Hz voor Talk/telefonie. - xAI: Standaard MP3;
responseFormatkanmp3|wav|pcm|mulaw|alawzijn. Gebruikt xAI’s batch-REST-eindpunt — streaming WebSocket TTS wordt niet gebruikt. Native Opus-spraaknotitieformaat wordt niet ondersteund. - Microsoft: Gebruikt
microsoft.outputFormat(standaardaudio-24khz-48kbitrate-mono-mp3). TelegramsendVoiceaccepteert OGG/MP3/M4A; gebruik OpenAI/ElevenLabs als je gegarandeerde Opus-spraakberichten nodig hebt. Als het geconfigureerde Microsoft-formaat mislukt, probeert OpenClaw het opnieuw met MP3.
Veldreferentie
Top-level messages.tts.*
Top-level messages.tts.*
Auto-TTS-modus.
inbound verzendt alleen audio na een inkomend spraakbericht; tagged verzendt alleen audio wanneer het antwoord [[tts:...]]-directives of een [[tts:text]]-blok bevat.Verouderde schakelaar.
openclaw doctor --fix migreert dit naar auto."all" omvat tool-/blokantwoorden naast eindantwoorden.Spraakprovider-id. Wanneer niet ingesteld, gebruikt OpenClaw de eerste geconfigureerde provider in de automatische selecteerorde van het register. Verouderde
provider: "edge" wordt door openclaw doctor --fix herschreven naar "microsoft".Actieve persona-id uit
personas. Genormaliseerd naar kleine letters.Stabiele gesproken identiteit. Velden:
label, description, provider, fallbackPolicy, prompt, providers.<provider>. Zie Persona’s.Goedkoop model voor automatische samenvatting; standaard
agents.defaults.model.primary. Accepteert provider/model of een geconfigureerde modelalias.Staat toe dat het model TTS-directives uitzendt.
enabled is standaard true; allowProvider is standaard false.Provider-eigen instellingen gesleuteld op spraakprovider-id. Verouderde directe blokken (
messages.tts.openai, .elevenlabs, .microsoft, .edge) worden herschreven door openclaw doctor --fix; commit alleen messages.tts.providers.<id>.Harde limiet voor TTS-invoertekens.
/tts audio mislukt als deze wordt overschreden.Aanvraag-time-out in milliseconden.
Overschrijft het lokale prefs-JSON-pad (provider/limiet/samenvatting). Standaard
~/.openclaw/settings/tts.json.Azure Speech
Azure Speech
Env:
AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY, of SPEECH_KEY.Azure Speech-regio (bijv.
eastus). Env: AZURE_SPEECH_REGION of SPEECH_REGION.Optionele overschrijving van Azure Speech-eindpunt (alias
baseUrl).Azure-stem-ShortName. Standaard
en-US-JennyNeural.SSML-taalcode. Standaard
en-US.Azure
X-Microsoft-OutputFormat voor standaardaudio. Standaard audio-24khz-48kbitrate-mono-mp3.Azure
X-Microsoft-OutputFormat voor spraaknotitie-uitvoer. Standaard ogg-24khz-16bit-mono-opus.ElevenLabs
ElevenLabs
Valt terug op
ELEVENLABS_API_KEY of XI_API_KEY.Model-id (bijv.
eleven_multilingual_v2, eleven_v3).ElevenLabs-stem-id.
stability, similarityBoost, style (elk 0..1), useSpeakerBoost (true|false), speed (0.5..2.0, 1.0 = normaal).Tekstnormalisatiemodus.
2-letterige ISO 639-1 (bijv.
en, de).Geheel getal
0..4294967295 voor best-effort-determinisme.Overschrijf de basis-URL van de ElevenLabs API.
Google Gemini
Google Gemini
Valt terug op
GEMINI_API_KEY / GOOGLE_API_KEY. Indien weggelaten, kan TTS models.providers.google.apiKey hergebruiken vóór env-terugval.Gemini TTS-model. Standaard
gemini-3.1-flash-tts-preview.Gemini-naam van vooraf gebouwde stem. Standaard
Kore. Alias: voice.Prompt in natuurlijke taal voor stijl, toegevoegd vóór gesproken tekst.
Optioneel sprekerlabel, toegevoegd vóór gesproken tekst wanneer je prompt een benoemde spreker gebruikt.
Stel in op
audio-profile-v1 om actieve persona-promptvelden te verpakken in een deterministische Gemini TTS-promptstructuur.Google-specifieke extra persona-prompttekst, toegevoegd aan de Director’s Notes van de template.
Alleen
https://generativelanguage.googleapis.com wordt geaccepteerd.Gradium
Gradium
Inworld
Inworld
Local CLI (tts-local-cli)
Local CLI (tts-local-cli)
Lokaal uitvoerbaar bestand of commandoreeks voor CLI TTS.
Commandoargumenten. Ondersteunt de placeholders
{{Text}}, {{OutputPath}}, {{OutputDir}}, {{OutputBase}}.Verwachte CLI-uitvoerindeling. Standaard
mp3 voor audiobijlagen.Commandotime-out in milliseconden. Standaard
120000.Optionele werkmap voor het commando.
Optionele omgevingsoverschrijvingen voor het commando.
Microsoft (no API key)
Microsoft (no API key)
Sta Microsoft-spraakgebruik toe.
Naam van Microsoft-neurale stem (bijv.
en-US-MichelleNeural).Taalcode (bijv.
en-US).Microsoft-uitvoerindeling. Standaard
audio-24khz-48kbitrate-mono-mp3. Niet alle indelingen worden ondersteund door het meegeleverde Edge-gebaseerde transport.Percentagereeksen (bijv.
+10%, -5%).Schrijf JSON-ondertitels naast het audiobestand.
Proxy-URL voor Microsoft-spraakverzoeken.
Overschrijving van aanvraagtime-out (ms).
Verouderde alias. Voer
openclaw doctor --fix uit om opgeslagen configuratie te herschrijven naar providers.microsoft.MiniMax
MiniMax
Valt terug op
MINIMAX_API_KEY. Token Plan-authenticatie via MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY of MINIMAX_CODING_API_KEY.Standaard
https://api.minimax.io. Omgeving: MINIMAX_API_HOST.Standaard
speech-2.8-hd. Omgeving: MINIMAX_TTS_MODEL.Standaard
English_expressive_narrator. Omgeving: MINIMAX_TTS_VOICE_ID.0.5..2.0. Standaard 1.0.(0, 10]. Standaard 1.0.Geheel getal
-12..12. Standaard 0. Fractionele waarden worden vóór de aanvraag afgekapt.OpenAI
OpenAI
Valt terug op
OPENAI_API_KEY.OpenAI TTS-model-id (bijv.
gpt-4o-mini-tts).Stemnaam (bijv.
alloy, cedar).Expliciet OpenAI-veld
instructions. Wanneer dit is ingesteld, worden persona-promptvelden niet automatisch gemapt.Overschrijf het OpenAI TTS-eindpunt. Resolutievolgorde: configuratie →
OPENAI_TTS_BASE_URL → https://api.openai.com/v1. Niet-standaardwaarden worden behandeld als OpenAI-compatibele TTS-eindpunten, dus aangepaste model- en stemnamen worden geaccepteerd.OpenRouter
OpenRouter
Omgeving:
OPENROUTER_API_KEY. Kan models.providers.openrouter.apiKey hergebruiken.Standaard
https://openrouter.ai/api/v1. Verouderde https://openrouter.ai/v1 wordt genormaliseerd.Standaard
hexgrad/kokoro-82m. Alias: modelId.Standaard
af_alloy. Alias: voiceId.Standaard
mp3.Provider-native snelheidsoverschrijving.
Volcengine (BytePlus Seed Speech)
Volcengine (BytePlus Seed Speech)
Omgeving:
VOLCENGINE_TTS_API_KEY of BYTEPLUS_SEED_SPEECH_API_KEY.Standaard
seed-tts-1.0. Omgeving: VOLCENGINE_TTS_RESOURCE_ID. Gebruik seed-tts-2.0 wanneer je project recht heeft op TTS 2.0.App-sleutelheader. Standaard
aGjiRDfUWi. Omgeving: VOLCENGINE_TTS_APP_KEY.Overschrijf het Seed Speech TTS HTTP-eindpunt. Omgeving:
VOLCENGINE_TTS_BASE_URL.Stemtype. Standaard
en_female_anna_mars_bigtts. Omgeving: VOLCENGINE_TTS_VOICE.Provider-native snelheidsverhouding.
Provider-native emotietag.
Verouderde Volcengine Speech Console-velden. Omgeving:
VOLCENGINE_TTS_APPID, VOLCENGINE_TTS_TOKEN, VOLCENGINE_TTS_CLUSTER (standaard volcano_tts).xAI
xAI
Omgeving:
XAI_API_KEY.Standaard
https://api.x.ai/v1. Omgeving: XAI_BASE_URL.Standaard
eve. Live stemmen: ara, eve, leo, rex, sal, una.BCP-47-taalcode of
auto. Standaard en.Standaard
mp3.Provider-native snelheidsoverschrijving.
Xiaomi MiMo
Xiaomi MiMo
Omgeving:
XIAOMI_API_KEY.Standaard
https://api.xiaomimimo.com/v1. Omgeving: XIAOMI_BASE_URL.Standaard
mimo-v2.5-tts. Omgeving: XIAOMI_TTS_MODEL. Ondersteunt ook mimo-v2-tts.Standaard
mimo_default. Omgeving: XIAOMI_TTS_VOICE.Standaard
mp3. Omgeving: XIAOMI_TTS_FORMAT.Optionele stijlinstructie in natuurlijke taal die als gebruikersbericht wordt verzonden; wordt niet uitgesproken.
Agent-tool
De tooltts zet tekst om naar spraak en retourneert een audiobijlage voor
antwoordlevering. Op Feishu, Matrix, Telegram en WhatsApp wordt de audio
geleverd als spraakbericht in plaats van als bestandsbijlage. Feishu en
WhatsApp kunnen niet-Opus TTS-uitvoer op dit pad transcoderen wanneer ffmpeg
beschikbaar is.
WhatsApp verzendt audio via Baileys als een PTT-spraaknotitie (audio met
ptt: true) en verzendt zichtbare tekst apart van PTT-audio, omdat
clients bijschriften op spraaknotities niet consistent weergeven.
De tool accepteert optionele velden channel en timeoutMs; timeoutMs is een
provider-aanvraagtime-out per aanroep in milliseconden.
Gateway-RPC
| Methode | Doel |
|---|---|
tts.status | Lees huidige TTS-status en laatste poging. |
tts.enable | Stel lokale automatische voorkeur in op always. |
tts.disable | Stel lokale automatische voorkeur in op off. |
tts.convert | Eenmalige tekst → audio. |
tts.setProvider | Stel lokale providervoorkeur in. |
tts.setPersona | Stel lokale personavoorkeur in. |
tts.providers | Toon geconfigureerde providers en status. |
Servicelinks
- OpenAI-gids voor tekst-naar-spraak
- OpenAI Audio API-referentie
- Azure Speech REST tekst-naar-spraak
- Azure Speech-provider
- ElevenLabs Tekst naar spraak
- ElevenLabs-authenticatie
- Gradium
- Inworld TTS API
- MiniMax T2A v2 API
- Volcengine TTS HTTP API
- Xiaomi MiMo-spraaksynthese
- node-edge-tts
- Microsoft Speech-uitvoerindelingen
- xAI tekst naar spraak