Pular para o conteúdo principal
Azure Speech é um provedor de conversão de texto em fala do Azure AI Speech. No OpenClaw, ele sintetiza áudio de respostas de saída como MP3 por padrão, Ogg/Opus nativo para notas de voz e áudio mulaw de 8 kHz para canais de telefonia, como Voice Call. O OpenClaw usa diretamente a API REST do Azure Speech com SSML e envia o formato de saída pertencente ao provedor por meio de X-Microsoft-OutputFormat.
DetalheValor
SiteAzure AI Speech
DocumentaçãoSpeech REST text-to-speech
AutenticaçãoAZURE_SPEECH_KEY mais AZURE_SPEECH_REGION
Voz padrãoen-US-JennyNeural
Saída de arquivo padrãoaudio-24khz-48kbitrate-mono-mp3
Arquivo padrão de nota de vozogg-24khz-16bit-mono-opus

Primeiros passos

1

Criar um recurso do Azure Speech

No portal do Azure, crie um recurso Speech. Copie a KEY 1 em Resource Management > Keys and Endpoint e copie a localização do recurso, como eastus.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
2

Selecionar Azure Speech em messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}
3

Enviar uma mensagem

Envie uma resposta por qualquer canal conectado. O OpenClaw sintetiza o áudio com o Azure Speech e entrega MP3 para áudio padrão, ou Ogg/Opus quando o canal espera uma nota de voz.

Opções de configuração

OpçãoCaminhoDescrição
apiKeymessages.tts.providers.azure-speech.apiKeyChave do recurso Azure Speech. Usa AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY ou SPEECH_KEY como fallback.
regionmessages.tts.providers.azure-speech.regionRegião do recurso Azure Speech. Usa AZURE_SPEECH_REGION ou SPEECH_REGION como fallback.
endpointmessages.tts.providers.azure-speech.endpointSobrescrita opcional do endpoint/base URL do Azure Speech.
baseUrlmessages.tts.providers.azure-speech.baseUrlSobrescrita opcional da base URL do Azure Speech.
voicemessages.tts.providers.azure-speech.voiceShortName da voz do Azure (padrão en-US-JennyNeural).
langmessages.tts.providers.azure-speech.langCódigo de idioma SSML (padrão en-US).
outputFormatmessages.tts.providers.azure-speech.outputFormatFormato de saída do arquivo de áudio (padrão audio-24khz-48kbitrate-mono-mp3).
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormatFormato de saída da nota de voz (padrão ogg-24khz-16bit-mono-opus).

Observações

O Azure Speech usa uma chave de recurso Speech, não uma chave do Azure OpenAI. A chave é enviada como Ocp-Apim-Subscription-Key; o OpenClaw deriva https://<region>.tts.speech.microsoft.com de region, a menos que você forneça endpoint ou baseUrl.
Use o valor ShortName da voz do Azure Speech, por exemplo en-US-JennyNeural. O provedor empacotado pode listar vozes por meio do mesmo recurso Speech e filtra vozes marcadas como obsoletas ou descontinuadas.
O Azure aceita formatos de saída como audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus e riff-24khz-16bit-mono-pcm. O OpenClaw solicita Ogg/Opus para destinos voice-note, para que os canais possam enviar bolhas de voz nativas sem uma conversão adicional para MP3.
azure é aceito como alias de provedor para PRs existentes e configuração de usuário, mas novas configurações devem usar azure-speech para evitar confusão com provedores de modelo do Azure OpenAI.

Relacionado

Conversão de texto em fala

Visão geral de TTS, provedores e configuração de messages.tts.

Configuração

Referência completa de configuração, incluindo definições de messages.tts.

Provedores

Todos os provedores empacotados do OpenClaw.

Solução de problemas

Problemas comuns e etapas de depuração.