Vai al contenuto principale
Azure Speech è un provider di sintesi vocale Azure AI Speech. In OpenClaw sintetizza l’audio delle risposte in uscita come MP3 per impostazione predefinita, Ogg/Opus nativo per le note vocali e audio mulaw a 8 kHz per i canali di telefonia come Voice Call. OpenClaw usa direttamente l’API REST di Azure Speech con SSML e invia il formato di output gestito dal provider tramite X-Microsoft-OutputFormat.
DettaglioValore
Sito webAzure AI Speech
DocumentazioneSpeech REST text-to-speech
AutenticazioneAZURE_SPEECH_KEY più AZURE_SPEECH_REGION
Voce predefinitaen-US-JennyNeural
Output file predefinitoaudio-24khz-48kbitrate-mono-mp3
File nota vocale predefinitoogg-24khz-16bit-mono-opus

Introduzione

1

Crea una risorsa Azure Speech

Nel portale Azure, crea una risorsa Speech. Copia KEY 1 da Resource Management > Keys and Endpoint e copia la posizione della risorsa, ad esempio eastus.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
2

Seleziona Azure Speech in messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}
3

Invia un messaggio

Invia una risposta tramite qualsiasi canale connesso. OpenClaw sintetizza l’audio con Azure Speech e consegna MP3 per l’audio standard, oppure Ogg/Opus quando il canale si aspetta una nota vocale.

Opzioni di configurazione

OpzionePercorsoDescrizione
apiKeymessages.tts.providers.azure-speech.apiKeyChiave della risorsa Azure Speech. Usa come fallback AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY o SPEECH_KEY.
regionmessages.tts.providers.azure-speech.regionRegione della risorsa Azure Speech. Usa come fallback AZURE_SPEECH_REGION o SPEECH_REGION.
endpointmessages.tts.providers.azure-speech.endpointOverride facoltativo dell’endpoint/base URL di Azure Speech.
baseUrlmessages.tts.providers.azure-speech.baseUrlOverride facoltativo della base URL di Azure Speech.
voicemessages.tts.providers.azure-speech.voiceShortName della voce Azure (predefinito en-US-JennyNeural).
langmessages.tts.providers.azure-speech.langCodice lingua SSML (predefinito en-US).
outputFormatmessages.tts.providers.azure-speech.outputFormatFormato di output del file audio (predefinito audio-24khz-48kbitrate-mono-mp3).
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormatFormato di output della nota vocale (predefinito ogg-24khz-16bit-mono-opus).

Note

Azure Speech usa una chiave della risorsa Speech, non una chiave Azure OpenAI. La chiave viene inviata come Ocp-Apim-Subscription-Key; OpenClaw deriva https://<region>.tts.speech.microsoft.com da region a meno che tu non fornisca endpoint o baseUrl.
Usa il valore ShortName della voce Azure Speech, ad esempio en-US-JennyNeural. Il provider incluso può elencare le voci tramite la stessa risorsa Speech e filtra le voci contrassegnate come deprecated o retired.
Azure accetta formati di output come audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus e riff-24khz-16bit-mono-pcm. OpenClaw richiede Ogg/Opus per i target voice-note così i canali possono inviare bubble vocali native senza una conversione MP3 aggiuntiva.
azure è accettato come alias del provider per PR esistenti e configurazioni utente, ma la nuova configurazione dovrebbe usare azure-speech per evitare confusione con i provider di modelli Azure OpenAI.

Correlati

Sintesi vocale

Panoramica di TTS, provider e configurazione messages.tts.

Configurazione

Riferimento completo della configurazione, incluse le impostazioni messages.tts.

Provider

Tutti i provider OpenClaw inclusi.

Risoluzione dei problemi

Problemi comuni e passaggi di debug.