메인 콘텐츠로 건너뛰기
Azure Speech는 Azure AI Speech 텍스트 음성 변환 provider입니다. OpenClaw에서는 기본적으로 아웃바운드 응답 오디오를 MP3로 합성하고, 음성 노트에는 네이티브 Ogg/Opus를, Voice Call과 같은 전화 채널에는 8 kHz mulaw 오디오를 사용합니다. OpenClaw는 SSML과 함께 Azure Speech REST API를 직접 사용하며, provider 소유의 출력 형식을 X-Microsoft-OutputFormat을 통해 전송합니다.
세부 정보
웹사이트Azure AI Speech
문서Speech REST text-to-speech
인증AZURE_SPEECH_KEYAZURE_SPEECH_REGION
기본 음성en-US-JennyNeural
기본 파일 출력audio-24khz-48kbitrate-mono-mp3
기본 음성 노트 파일ogg-24khz-16bit-mono-opus

시작하기

1

Azure Speech 리소스 만들기

Azure 포털에서 Speech 리소스를 만듭니다. Resource Management > Keys and Endpoint에서 KEY 1을 복사하고, eastus와 같은 리소스 위치도 복사합니다.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
2

messages.tts에서 Azure Speech 선택

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}
3

메시지 보내기

연결된 아무 채널에서나 응답을 보냅니다. OpenClaw가 Azure Speech로 오디오를 합성하고 일반 오디오에는 MP3를, 채널이 음성 노트를 기대하는 경우에는 Ogg/Opus를 전달합니다.

구성 옵션

옵션경로설명
apiKeymessages.tts.providers.azure-speech.apiKeyAzure Speech 리소스 키입니다. AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY, 또는 SPEECH_KEY로 대체됩니다.
regionmessages.tts.providers.azure-speech.regionAzure Speech 리소스 리전입니다. AZURE_SPEECH_REGION 또는 SPEECH_REGION으로 대체됩니다.
endpointmessages.tts.providers.azure-speech.endpoint선택 사항인 Azure Speech 엔드포인트/기본 URL 재정의입니다.
baseUrlmessages.tts.providers.azure-speech.baseUrl선택 사항인 Azure Speech 기본 URL 재정의입니다.
voicemessages.tts.providers.azure-speech.voiceAzure 음성 ShortName 값입니다(기본값 en-US-JennyNeural).
langmessages.tts.providers.azure-speech.langSSML 언어 코드입니다(기본값 en-US).
outputFormatmessages.tts.providers.azure-speech.outputFormat오디오 파일 출력 형식입니다(기본값 audio-24khz-48kbitrate-mono-mp3).
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormat음성 노트 출력 형식입니다(기본값 ogg-24khz-16bit-mono-opus).

참고 사항

Azure Speech는 Azure OpenAI 키가 아니라 Speech 리소스 키를 사용합니다. 이 키는 Ocp-Apim-Subscription-Key로 전송되며, OpenClaw는 endpoint 또는 baseUrl을 제공하지 않으면 region에서 https://<region>.tts.speech.microsoft.com를 도출합니다.
예를 들어 en-US-JennyNeural과 같은 Azure Speech 음성의 ShortName 값을 사용하세요. 번들된 provider는 동일한 Speech 리소스를 통해 음성 목록을 가져올 수 있으며, deprecated 또는 retired로 표시된 음성은 필터링합니다.
Azure는 audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus, riff-24khz-16bit-mono-pcm과 같은 출력 형식을 지원합니다. OpenClaw는 voice-note 대상에 대해 Ogg/Opus를 요청하므로 채널이 추가 MP3 변환 없이 네이티브 음성 버블을 보낼 수 있습니다.
기존 PR과 사용자 구성에서는 provider 별칭으로 azure도 허용되지만, Azure OpenAI 모델 provider와의 혼동을 피하려면 새 구성에서는 azure-speech를 사용해야 합니다.

관련 항목

텍스트 음성 변환

TTS 개요, provider, 그리고 messages.tts 구성.

구성

messages.tts 설정을 포함한 전체 구성 참조.

Providers

번들된 모든 OpenClaw provider.

문제 해결

일반적인 문제와 디버깅 단계.