Providers

Azure Speech

Azure Speech ist ein gebündelter Text-to-Speech-Provider von Azure AI Speech. OpenClaw ruft die Azure Speech REST-API direkt mit SSML auf und synthetisiert MP3 für Standardantworten, natives Ogg/Opus für Sprachnachrichten und 8-kHz-mulaw für Telefoniekanäle wie Voice Call. Die Anfrage sendet das vom Provider vorgegebene Ausgabeformat über den Header X-Microsoft-OutputFormat.

Detail	Wert
Provider-ID	`azure-speech` (Alias: `azure`)
Website	Azure AI Speech
Dokumentation	Speech REST Text-to-Speech
Authentifizierung	`AZURE_SPEECH_KEY` plus `AZURE_SPEECH_REGION`
Standardstimme	`en-US-JennyNeural`
Standard-Dateiausgabe	`audio-24khz-48kbitrate-mono-mp3`
Standard-Sprachnachrichtendatei	`ogg-24khz-16bit-mono-opus`

Erste Schritte

Azure-Speech-Ressource erstellen

Erstellen Sie im Azure-Portal eine Speech-Ressource. Kopieren Sie KEY 1 aus Resource Management > Keys and Endpoint und kopieren Sie den Ressourcenstandort, beispielsweise eastus.

Code

AZURE_SPEECH_KEY=<speech-resource-key>AZURE_SPEECH_REGION=eastus

Azure Speech in tts auswählen

json5

{  tts: {    auto: "always",    provider: "azure-speech",    providers: {      "azure-speech": {        voice: "en-US-JennyNeural",        lang: "en-US",      },    },  },}

Nachricht senden

Senden Sie eine Antwort über einen beliebigen verbundenen Kanal. OpenClaw synthetisiert das Audio mit Azure Speech und liefert MP3 für Standardaudio oder Ogg/Opus, wenn der Kanal eine Sprachnachricht erwartet.

Konfigurationsoptionen

Alle Optionen befinden sich unter tts.providers["azure-speech"].

Option	Beschreibung
`apiKey`	Azure-Speech-Ressourcenschlüssel. Greift ersatzweise auf `AZURE_SPEECH_KEY`, `AZURE_SPEECH_API_KEY` oder `SPEECH_KEY` zurück.
`region`	Region der Azure-Speech-Ressource. Greift ersatzweise auf `AZURE_SPEECH_REGION` oder `SPEECH_REGION` zurück.
`endpoint`	Optionale Überschreibung des Azure-Speech-Endpunkts. Greift ersatzweise auf das vertrauenswürdige `AZURE_SPEECH_ENDPOINT` zurück.
`baseUrl`	Optionale Überschreibung der Azure-Speech-Basis-URL.
`voice`	Azure-Stimmen-ShortName (Standard: `en-US-JennyNeural`). Veralteter Alias: `voiceId`.
`lang`	SSML-Sprachcode (Standard: `en-US`).
`outputFormat`	Ausgabeformat für Audiodateien (Standard: `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	Ausgabeformat für Sprachnachrichten (Standard: `ogg-24khz-16bit-mono-opus`).
`timeoutMs`	Überschreibung des Anfrage-Timeouts in Millisekunden. Greift ersatzweise auf das globale `tts.timeoutMs` zurück.

Der Provider gilt als konfiguriert, sobald apiKey sowie eine der Optionen region, endpoint oder baseUrl festgelegt sind. Umgebungsvariablen werden nur ersatzweise für nicht gesetzte Konfigurationsschlüssel geprüft. .env-Dateien im Workspace können AZURE_SPEECH_ENDPOINT nicht festlegen. Verwenden Sie für das Endpunkt-Routing die Prozessumgebung, die globale Laufzeit-dotenv-Datei oder eine explizite Konfiguration.

Hinweise

Authentifizierung

Azure Speech verwendet einen Speech-Ressourcenschlüssel, keinen Azure-OpenAI-Schlüssel. Der Schlüssel wird als Ocp-Apim-Subscription-Key gesendet. OpenClaw leitet https://<region>.tts.speech.microsoft.com aus region ab, sofern Sie nicht endpoint oder baseUrl angeben.

Stimmennamen

Verwenden Sie den ShortName-Wert der Azure-Speech-Stimme, beispielsweise en-US-JennyNeural. Der gebündelte Provider kann Stimmen über dieselbe Speech-Ressource auflisten und filtert Stimmen heraus, die als veraltet, eingestellt oder deaktiviert gekennzeichnet sind.

Audioausgaben

Azure akzeptiert Ausgabeformate wie audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus und riff-24khz-16bit-mono-pcm. OpenClaw fordert Ogg/Opus für voice-note-Ziele an, damit Kanäle native Sprachnachrichten ohne zusätzliche MP3-Konvertierung senden können, und erzwingt raw-8khz-8bit-mono-mulaw für Telefonieziele.

Alias

azure wird für bestehende Konfigurationen als Provider-Alias akzeptiert, neue Konfigurationen sollten jedoch azure-speech verwenden, um Verwechslungen mit Azure-OpenAI-Modell-Providern zu vermeiden.