Перейти до основного вмісту
Azure Speech — це провайдер перетворення тексту на мовлення Azure AI Speech. В OpenClaw він синтезує аудіо вихідних відповідей як MP3 за замовчуванням, нативний Ogg/Opus для голосових повідомлень і аудіо mulaw 8 кГц для телефонних каналів, таких як Voice Call. OpenClaw використовує REST API Azure Speech безпосередньо з SSML і надсилає формат виводу, що належить провайдеру, через X-Microsoft-OutputFormat.
ДетальЗначення
ВебсайтAzure AI Speech
ДокументаціяSpeech REST text-to-speech
АвтентифікаціяAZURE_SPEECH_KEY плюс AZURE_SPEECH_REGION
Голос за замовчуваннямen-US-JennyNeural
Вивід файлу за замовчуваннямaudio-24khz-48kbitrate-mono-mp3
Файл голосового повідомлення за замовчуваннямogg-24khz-16bit-mono-opus

Початок роботи

1

Створіть ресурс Azure Speech

У порталі Azure створіть ресурс Speech. Скопіюйте KEY 1 з Resource Management > Keys and Endpoint, а також скопіюйте розташування ресурсу, наприклад eastus.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
2

Виберіть Azure Speech у messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}
3

Надішліть повідомлення

Надішліть відповідь через будь-який підключений канал. OpenClaw синтезує аудіо за допомогою Azure Speech і доставляє MP3 для стандартного аудіо або Ogg/Opus, коли канал очікує голосове повідомлення.

Параметри конфігурації

ПараметрШляхОпис
apiKeymessages.tts.providers.azure-speech.apiKeyКлюч ресурсу Azure Speech. Використовує AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY або SPEECH_KEY як запасний варіант.
regionmessages.tts.providers.azure-speech.regionРегіон ресурсу Azure Speech. Використовує AZURE_SPEECH_REGION або SPEECH_REGION як запасний варіант.
endpointmessages.tts.providers.azure-speech.endpointНеобов’язкове перевизначення endpoint/base URL Azure Speech.
baseUrlmessages.tts.providers.azure-speech.baseUrlНеобов’язкове перевизначення base URL Azure Speech.
voicemessages.tts.providers.azure-speech.voiceShortName голосу Azure (за замовчуванням en-US-JennyNeural).
langmessages.tts.providers.azure-speech.langКод мови SSML (за замовчуванням en-US).
outputFormatmessages.tts.providers.azure-speech.outputFormatФормат виводу аудіофайлу (за замовчуванням audio-24khz-48kbitrate-mono-mp3).
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormatФормат виводу голосового повідомлення (за замовчуванням ogg-24khz-16bit-mono-opus).

Примітки

Azure Speech використовує ключ ресурсу Speech, а не ключ Azure OpenAI. Ключ надсилається як Ocp-Apim-Subscription-Key; OpenClaw виводить https://<region>.tts.speech.microsoft.com з region, якщо ви не вкажете endpoint або baseUrl.
Використовуйте значення ShortName голосу Azure Speech, наприклад en-US-JennyNeural. Вбудований провайдер може перелічувати голоси через той самий ресурс Speech і відфільтровує голоси, позначені як deprecated або retired.
Azure приймає такі формати виводу, як audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus і riff-24khz-16bit-mono-pcm. OpenClaw запитує Ogg/Opus для цілей voice-note, щоб канали могли надсилати нативні голосові бульбашки без додаткового перетворення MP3.
azure приймається як псевдонім провайдера для наявних PR і конфігурації користувачів, але в новій конфігурації слід використовувати azure-speech, щоб уникнути плутанини з провайдерами моделей Azure OpenAI.

Пов’язане

Перетворення тексту на мовлення

Огляд TTS, провайдери та конфігурація messages.tts.

Конфігурація

Повний довідник із конфігурації, включно з параметрами messages.tts.

Провайдери

Усі вбудовані провайдери OpenClaw.

Усунення несправностей

Поширені проблеми та кроки налагодження.