Providers

Azure Speech

Azure Speech は、バンドルされた Azure AI Speech のテキスト読み上げプロバイダーです。OpenClaw は SSML を使用して Azure Speech REST API を直接呼び出し、標準の返信には MP3、ボイスメモにはネイティブ Ogg/Opus、Voice Call などのテレフォニーチャネルには 8 kHz mulaw を合成します。リクエストは、プロバイダーが管理する出力形式を X-Microsoft-OutputFormat ヘッダーで送信します。

詳細	値
プロバイダー ID	`azure-speech`（エイリアス: `azure`）
ウェブサイト	Azure AI Speech
ドキュメント	Speech REST テキスト読み上げ
認証	`AZURE_SPEECH_KEY` と `AZURE_SPEECH_REGION`
デフォルト音声	`en-US-JennyNeural`
デフォルトのファイル出力	`audio-24khz-48kbitrate-mono-mp3`
デフォルトのボイスメモファイル	`ogg-24khz-16bit-mono-opus`

はじめに

Azure Speech リソースを作成する

Azure ポータルで Speech リソースを作成します。Resource Management > Keys and Endpoint から KEY 1 をコピーし、eastus などのリソースの場所をコピーします。

Code

AZURE_SPEECH_KEY=<speech-resource-key>AZURE_SPEECH_REGION=eastus

messages.tts で Azure Speech を選択する

json5

{  messages: {    tts: {      auto: "always",      provider: "azure-speech",      providers: {        "azure-speech": {          voice: "en-US-JennyNeural",          lang: "en-US",        },      },    },  },}

メッセージを送信する

接続済みの任意のチャネルから返信を送信します。OpenClaw は Azure Speech で音声を合成し、標準オーディオには MP3、チャネルがボイスメモを必要とする場合は Ogg/Opus を配信します。

設定オプション

すべてのオプションは messages.tts.providers["azure-speech"] の下にあります。

オプション	説明
`apiKey`	Azure Speech リソースキー。`AZURE_SPEECH_KEY`、`AZURE_SPEECH_API_KEY`、または `SPEECH_KEY` にフォールバックします。
`region`	Azure Speech リソースのリージョン。`AZURE_SPEECH_REGION` または `SPEECH_REGION` にフォールバックします。
`endpoint`	任意の Azure Speech エンドポイントオーバーライド。信頼済みの `AZURE_SPEECH_ENDPOINT` にフォールバックします。
`baseUrl`	任意の Azure Speech ベース URL オーバーライド。
`voice`	Azure 音声の ShortName（デフォルトは `en-US-JennyNeural`）。レガシーエイリアス: `voiceId`。
`lang`	SSML 言語コード（デフォルトは `en-US`）。
`outputFormat`	オーディオファイルの出力形式（デフォルトは `audio-24khz-48kbitrate-mono-mp3`）。
`voiceNoteOutputFormat`	ボイスメモの出力形式（デフォルトは `ogg-24khz-16bit-mono-opus`）。
`timeoutMs`	リクエストタイムアウトのオーバーライド（ミリ秒）。グローバルの `messages.tts.timeoutMs` にフォールバックします。

apiKey に加えて、region、endpoint、または baseUrl のいずれかが設定されると、プロバイダーは設定済みとみなされます。環境変数は、未設定のままの設定キーに対するフォールバックとしてのみ確認されます。ワークスペースの .env ファイルでは AZURE_SPEECH_ENDPOINT を設定できません。エンドポイントのルーティングには、プロセス環境、グローバルランタイムの dotenv、または明示的な設定を使用してください。

注記

認証

Azure Speech は Azure OpenAI キーではなく、Speech リソースキーを使用します。キーは Ocp-Apim-Subscription-Key として送信されます。endpoint または baseUrl を指定しない限り、OpenClaw は region から https://<region>.tts.speech.microsoft.com を導出します。

音声名

Azure Speech 音声の ShortName 値を使用します。たとえば en-US-JennyNeural です。バンドルされたプロバイダーは、同じ Speech リソースを通じて音声を一覧表示でき、非推奨、廃止済み、または無効と記された音声を除外します。

オーディオ出力

Azure は audio-24khz-48kbitrate-mono-mp3、ogg-24khz-16bit-mono-opus、 riff-24khz-16bit-mono-pcm などの出力形式を受け入れます。OpenClaw は voice-note ターゲットに Ogg/Opus をリクエストするため、チャネルは MP3 への追加変換なしでネイティブの音声バブルを送信できます。また、テレフォニーターゲットには raw-8khz-8bit-mono-mulaw を強制します。

エイリアス

azure は既存の設定に対するプロバイダーエイリアスとして使用できますが、 Azure OpenAI モデルプロバイダーとの混同を避けるため、新しい設定では azure-speech を使用してください。

Azure Speech

はじめに

Azure Speech リソースを作成する

messages.tts で Azure Speech を選択する

メッセージを送信する

設定オプション

注記

関連項目

On this page

Molty