Passer au contenu principal
Azure Speech est un fournisseur de synthèse vocale Azure AI Speech. Dans OpenClaw, il synthétise par défaut l’audio des réponses sortantes en MP3, utilise le format Ogg/Opus natif pour les notes vocales, et un audio mulaw à 8 kHz pour les canaux de téléphonie tels que Voice Call. OpenClaw utilise directement l’API REST Azure Speech avec SSML et envoie le format de sortie propriétaire du fournisseur via X-Microsoft-OutputFormat.
DétailValeur
Site webAzure AI Speech
DocumentationSynthèse vocale REST Speech
AuthentificationAZURE_SPEECH_KEY plus AZURE_SPEECH_REGION
Voix par défauten-US-JennyNeural
Sortie de fichier par défautaudio-24khz-48kbitrate-mono-mp3
Fichier de note vocale par défautogg-24khz-16bit-mono-opus

Prise en main

1

Créer une ressource Azure Speech

Dans le portail Azure, créez une ressource Speech. Copiez KEY 1 depuis Resource Management > Keys and Endpoint, puis copiez l’emplacement de la ressource tel que eastus.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
2

Sélectionner Azure Speech dans messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}
3

Envoyer un message

Envoyez une réponse via n’importe quel canal connecté. OpenClaw synthétise l’audio avec Azure Speech et livre du MP3 pour l’audio standard, ou du Ogg/Opus lorsque le canal attend une note vocale.

Options de configuration

OptionCheminDescription
apiKeymessages.tts.providers.azure-speech.apiKeyClé de ressource Azure Speech. Utilise en repli AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY ou SPEECH_KEY.
regionmessages.tts.providers.azure-speech.regionRégion de la ressource Azure Speech. Utilise en repli AZURE_SPEECH_REGION ou SPEECH_REGION.
endpointmessages.tts.providers.azure-speech.endpointRemplacement facultatif de l’endpoint/de l’URL de base Azure Speech.
baseUrlmessages.tts.providers.azure-speech.baseUrlRemplacement facultatif de l’URL de base Azure Speech.
voicemessages.tts.providers.azure-speech.voiceShortName de la voix Azure (par défaut en-US-JennyNeural).
langmessages.tts.providers.azure-speech.langCode de langue SSML (par défaut en-US).
outputFormatmessages.tts.providers.azure-speech.outputFormatFormat de sortie du fichier audio (par défaut audio-24khz-48kbitrate-mono-mp3).
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormatFormat de sortie des notes vocales (par défaut ogg-24khz-16bit-mono-opus).

Remarques

Azure Speech utilise une clé de ressource Speech, et non une clé Azure OpenAI. La clé est envoyée comme Ocp-Apim-Subscription-Key ; OpenClaw dérive https://<region>.tts.speech.microsoft.com à partir de region, sauf si vous fournissez endpoint ou baseUrl.
Utilisez la valeur ShortName de la voix Azure Speech, par exemple en-US-JennyNeural. Le fournisseur intégré peut lister les voix via la même ressource Speech et filtre les voix marquées comme obsolètes ou retirées.
Azure accepte des formats de sortie tels que audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus et riff-24khz-16bit-mono-pcm. OpenClaw demande Ogg/Opus pour les cibles voice-note afin que les canaux puissent envoyer des bulles vocales natives sans conversion supplémentaire en MP3.
azure est accepté comme alias de fournisseur pour les PR existantes et la configuration utilisateur, mais les nouvelles configurations doivent utiliser azure-speech pour éviter toute confusion avec les fournisseurs de modèles Azure OpenAI.

Liens associés

Synthèse vocale

Vue d’ensemble de la TTS, fournisseurs et configuration messages.tts.

Configuration

Référence complète de configuration, y compris les paramètres messages.tts.

Fournisseurs

Tous les fournisseurs OpenClaw intégrés.

Dépannage

Problèmes courants et étapes de débogage.