X-Microsoft-OutputFormat.
| Detalhe | Valor |
|---|---|
| Site | Azure AI Speech |
| Documentação | Speech REST text-to-speech |
| Autenticação | AZURE_SPEECH_KEY mais AZURE_SPEECH_REGION |
| Voz padrão | en-US-JennyNeural |
| Saída de arquivo padrão | audio-24khz-48kbitrate-mono-mp3 |
| Arquivo padrão de nota de voz | ogg-24khz-16bit-mono-opus |
Primeiros passos
Criar um recurso do Azure Speech
No portal do Azure, crie um recurso Speech. Copie a KEY 1 em
Resource Management > Keys and Endpoint e copie a localização do recurso,
como
eastus.Opções de configuração
| Opção | Caminho | Descrição |
|---|---|---|
apiKey | messages.tts.providers.azure-speech.apiKey | Chave do recurso Azure Speech. Usa AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY ou SPEECH_KEY como fallback. |
region | messages.tts.providers.azure-speech.region | Região do recurso Azure Speech. Usa AZURE_SPEECH_REGION ou SPEECH_REGION como fallback. |
endpoint | messages.tts.providers.azure-speech.endpoint | Sobrescrita opcional do endpoint/base URL do Azure Speech. |
baseUrl | messages.tts.providers.azure-speech.baseUrl | Sobrescrita opcional da base URL do Azure Speech. |
voice | messages.tts.providers.azure-speech.voice | ShortName da voz do Azure (padrão en-US-JennyNeural). |
lang | messages.tts.providers.azure-speech.lang | Código de idioma SSML (padrão en-US). |
outputFormat | messages.tts.providers.azure-speech.outputFormat | Formato de saída do arquivo de áudio (padrão audio-24khz-48kbitrate-mono-mp3). |
voiceNoteOutputFormat | messages.tts.providers.azure-speech.voiceNoteOutputFormat | Formato de saída da nota de voz (padrão ogg-24khz-16bit-mono-opus). |
Observações
Autenticação
Autenticação
O Azure Speech usa uma chave de recurso Speech, não uma chave do Azure OpenAI. A chave
é enviada como
Ocp-Apim-Subscription-Key; o OpenClaw deriva
https://<region>.tts.speech.microsoft.com de region, a menos que você
forneça endpoint ou baseUrl.Nomes de voz
Nomes de voz
Use o valor
ShortName da voz do Azure Speech, por exemplo
en-US-JennyNeural. O provedor empacotado pode listar vozes por meio do
mesmo recurso Speech e filtra vozes marcadas como obsoletas ou descontinuadas.Saídas de áudio
Saídas de áudio
O Azure aceita formatos de saída como
audio-24khz-48kbitrate-mono-mp3,
ogg-24khz-16bit-mono-opus e riff-24khz-16bit-mono-pcm. O OpenClaw
solicita Ogg/Opus para destinos voice-note, para que os canais possam enviar
bolhas de voz nativas sem uma conversão adicional para MP3.Alias
Alias
azure é aceito como alias de provedor para PRs existentes e configuração de usuário,
mas novas configurações devem usar azure-speech para evitar confusão com provedores
de modelo do Azure OpenAI.Relacionado
Conversão de texto em fala
Visão geral de TTS, provedores e configuração de
messages.tts.Configuração
Referência completa de configuração, incluindo definições de
messages.tts.Provedores
Todos os provedores empacotados do OpenClaw.
Solução de problemas
Problemas comuns e etapas de depuração.