Providers

Fala do Azure

O Azure Speech é um provedor de conversão de texto em fala do Azure AI Speech incluído no pacote. O OpenClaw chama diretamente a API REST do Azure Speech com SSML, sintetizando MP3 para respostas padrão, Ogg/Opus nativo para mensagens de voz e mulaw de 8 kHz para canais de telefonia, como o Voice Call. A solicitação envia o formato de saída gerenciado pelo provedor por meio do cabeçalho X-Microsoft-OutputFormat.

Detalhe	Valor
ID do provedor	`azure-speech` (alias: `azure`)
Site	Azure AI Speech
Documentação	Conversão de texto em fala pela API REST do Speech
Autenticação	`AZURE_SPEECH_KEY` mais `AZURE_SPEECH_REGION`
Voz padrão	`en-US-JennyNeural`
Saída de arquivo padrão	`audio-24khz-48kbitrate-mono-mp3`
Arquivo padrão de mensagem de voz	`ogg-24khz-16bit-mono-opus`

Introdução

Criar um recurso do Azure Speech

No portal do Azure, crie um recurso do Speech. Copie KEY 1 em Resource Management > Keys and Endpoint e copie a localização do recurso, como eastus.

Code

AZURE_SPEECH_KEY=<speech-resource-key>AZURE_SPEECH_REGION=eastus

Selecionar o Azure Speech em messages.tts

json5

{  messages: {    tts: {      auto: "always",      provider: "azure-speech",      providers: {        "azure-speech": {          voice: "en-US-JennyNeural",          lang: "en-US",        },      },    },  },}

Enviar uma mensagem

Envie uma resposta por qualquer canal conectado. O OpenClaw sintetiza o áudio com o Azure Speech e entrega MP3 para áudio padrão ou Ogg/Opus quando o canal espera uma mensagem de voz.

Opções de configuração

Todas as opções ficam em messages.tts.providers["azure-speech"].

Opção	Descrição
`apiKey`	Chave do recurso do Azure Speech. Usa como alternativa `AZURE_SPEECH_KEY`, `AZURE_SPEECH_API_KEY` ou `SPEECH_KEY`.
`region`	Região do recurso do Azure Speech. Usa como alternativa `AZURE_SPEECH_REGION` ou `SPEECH_REGION`.
`endpoint`	Substituição opcional do endpoint do Azure Speech. Usa como alternativa o `AZURE_SPEECH_ENDPOINT` confiável.
`baseUrl`	Substituição opcional da URL base do Azure Speech.
`voice`	ShortName da voz do Azure (padrão: `en-US-JennyNeural`). Alias legado: `voiceId`.
`lang`	Código de idioma do SSML (padrão: `en-US`).
`outputFormat`	Formato de saída do arquivo de áudio (padrão: `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	Formato de saída da mensagem de voz (padrão: `ogg-24khz-16bit-mono-opus`).
`timeoutMs`	Substituição do tempo limite da solicitação em milissegundos. Usa como alternativa o `messages.tts.timeoutMs` global.

O provedor é considerado configurado quando apiKey está definido junto com um dos seguintes: region, endpoint ou baseUrl. As variáveis de ambiente são verificadas apenas como alternativa para chaves de configuração não definidas. Os arquivos .env do espaço de trabalho não podem definir AZURE_SPEECH_ENDPOINT; use o ambiente do processo, o dotenv global do ambiente de execução ou uma configuração explícita para o roteamento do endpoint.

Observações

Autenticação

O Azure Speech usa uma chave de recurso do Speech, não uma chave do Azure OpenAI. A chave é enviada como Ocp-Apim-Subscription-Key; o OpenClaw deriva https://<region>.tts.speech.microsoft.com de region, a menos que seja fornecido endpoint ou baseUrl.

Nomes de vozes

Use o valor ShortName da voz do Azure Speech, por exemplo, en-US-JennyNeural. O provedor incluído no pacote pode listar vozes por meio do mesmo recurso do Speech e exclui da lista as vozes marcadas como obsoletas, descontinuadas ou desabilitadas.

Saídas de áudio

O Azure aceita formatos de saída como audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus e riff-24khz-16bit-mono-pcm. O OpenClaw solicita Ogg/Opus para destinos voice-note, permitindo que os canais enviem balões de voz nativos sem uma conversão adicional para MP3, e força raw-8khz-8bit-mono-mulaw para destinos de telefonia.

Alias

azure é aceito como alias do provedor para configurações existentes, mas novas configurações devem usar azure-speech para evitar confusão com provedores de modelos do Azure OpenAI.