メインコンテンツへスキップ
Azure Speech は Azure AI Speech の text-to-speech プロバイダです。OpenClaw では、アウトバウンド返信音声をデフォルトで MP3、ボイスノート向けにはネイティブな Ogg/Opus、Voice Call などの電話チャネル向けには 8 kHz mulaw 音声として合成します。 OpenClaw は Azure Speech REST API を SSML とともに直接使用し、プロバイダ所有の出力形式を X-Microsoft-OutputFormat で送信します。
詳細
Web サイトAzure AI Speech
ドキュメントSpeech REST text-to-speech
認証AZURE_SPEECH_KEYAZURE_SPEECH_REGION
デフォルト音声en-US-JennyNeural
デフォルトのファイル出力audio-24khz-48kbitrate-mono-mp3
デフォルトのボイスノートファイル出力ogg-24khz-16bit-mono-opus

はじめに

1

Azure Speech リソースを作成する

Azure ポータルで Speech リソースを作成します。Resource Management > Keys and Endpoint から KEY 1 をコピーし、eastus などのリソースのロケーションもコピーします。
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
2

messages.tts で Azure Speech を選択する

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}
3

メッセージを送信する

接続済みの任意のチャネルを通じて返信を送信します。OpenClaw は Azure Speech で音声を合成し、標準音声には MP3 を、チャネルがボイスノートを想定している場合は Ogg/Opus を配信します。

設定オプション

オプションパス説明
apiKeymessages.tts.providers.azure-speech.apiKeyAzure Speech リソースキー。AZURE_SPEECH_KEYAZURE_SPEECH_API_KEY、または SPEECH_KEY にフォールバックします。
regionmessages.tts.providers.azure-speech.regionAzure Speech リソースリージョン。AZURE_SPEECH_REGION または SPEECH_REGION にフォールバックします。
endpointmessages.tts.providers.azure-speech.endpoint任意の Azure Speech endpoint/base URL 上書き。
baseUrlmessages.tts.providers.azure-speech.baseUrl任意の Azure Speech base URL 上書き。
voicemessages.tts.providers.azure-speech.voiceAzure 音声の ShortName(デフォルトは en-US-JennyNeural)。
langmessages.tts.providers.azure-speech.langSSML 言語コード(デフォルトは en-US)。
outputFormatmessages.tts.providers.azure-speech.outputFormat音声ファイルの出力形式(デフォルトは audio-24khz-48kbitrate-mono-mp3)。
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormatボイスノートの出力形式(デフォルトは ogg-24khz-16bit-mono-opus)。

注記

Azure Speech は Azure OpenAI キーではなく、Speech リソースキーを使用します。キーは Ocp-Apim-Subscription-Key として送信されます。OpenClaw は、endpoint または baseUrl を指定しない限り、region から https://<region>.tts.speech.microsoft.com を導出します。
たとえば en-US-JennyNeural のように、Azure Speech 音声の ShortName 値を使用します。同梱プロバイダは同じ Speech リソースを通じて音声一覧を取得でき、deprecated または retired とマークされた音声を除外します。
Azure は audio-24khz-48kbitrate-mono-mp3ogg-24khz-16bit-mono-opusriff-24khz-16bit-mono-pcm などの出力形式を受け付けます。OpenClaw は voice-note ターゲットに対して Ogg/Opus を要求するため、チャネルは追加の MP3 変換なしでネイティブなボイスバブルを送信できます。
azure は既存の PR とユーザー設定のためのプロバイダ別名として受け付けられますが、Azure OpenAI モデルプロバイダとの混同を避けるため、新しい設定では azure-speech を使用してください。

関連

Text-to-speech

TTS の概要、プロバイダ、messages.tts 設定。

Configuration

messages.tts 設定を含む完全な設定リファレンス。

Providers

同梱されているすべての OpenClaw プロバイダ。

Troubleshooting

一般的な問題とデバッグ手順。