Providers

Речь Azure

Azure Speech — это провайдер преобразования текста в речь Azure AI Speech. В OpenClaw он по умолчанию синтезирует аудио исходящих ответов в MP3, нативный Ogg/Opus для голосовых сообщений и 8 kHz mulaw-аудио для телефонных каналов, таких как голосовой вызов.

OpenClaw использует Azure Speech REST API напрямую с SSML и передает формат вывода, определяемый провайдером, через X-Microsoft-OutputFormat.

Сведения Значение
Сайт Azure AI Speech
Документация Speech REST text-to-speech
Аутентификация AZURE_SPEECH_KEY плюс AZURE_SPEECH_REGION
Голос по умолчанию en-US-JennyNeural
Файловый вывод по умолчанию audio-24khz-48kbitrate-mono-mp3
Файл голосового сообщения по умолчанию ogg-24khz-16bit-mono-opus

Начало работы

  • Create an Azure Speech resource

    В портале Azure создайте ресурс Speech. Скопируйте KEY 1 из «Управление ресурсами > Ключи и конечная точка», а также скопируйте расположение ресурса, например eastus.

    Code
    AZURE_SPEECH_KEY=<speech-resource-key>AZURE_SPEECH_REGION=eastus
  • Select Azure Speech in messages.tts

    json5
    {  messages: {    tts: {      auto: "always",      provider: "azure-speech",      providers: {        "azure-speech": {          speakerVoice: "en-US-JennyNeural",          lang: "en-US",        },      },    },  },}
  • Send a message

    Отправьте ответ через любой подключенный канал. OpenClaw синтезирует аудио с помощью Azure Speech и доставляет MP3 для стандартного аудио либо Ogg/Opus, когда канал ожидает голосовое сообщение.

  • Параметры конфигурации

    Параметр Путь Описание
    apiKey messages.tts.providers.azure-speech.apiKey Ключ ресурса Azure Speech. Использует AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY или SPEECH_KEY как запасной вариант.
    region messages.tts.providers.azure-speech.region Регион ресурса Azure Speech. Использует AZURE_SPEECH_REGION или SPEECH_REGION как запасной вариант.
    endpoint messages.tts.providers.azure-speech.endpoint Необязательное переопределение конечной точки/базового URL Azure Speech.
    baseUrl messages.tts.providers.azure-speech.baseUrl Необязательное переопределение базового URL Azure Speech.
    speakerVoice messages.tts.providers.azure-speech.speakerVoice ShortName голоса Azure (по умолчанию en-US-JennyNeural). Устаревший псевдоним: voice.
    lang messages.tts.providers.azure-speech.lang Код языка SSML (по умолчанию en-US).
    outputFormat messages.tts.providers.azure-speech.outputFormat Формат вывода аудиофайла (по умолчанию audio-24khz-48kbitrate-mono-mp3).
    voiceNoteOutputFormat messages.tts.providers.azure-speech.voiceNoteOutputFormat Формат вывода голосового сообщения (по умолчанию ogg-24khz-16bit-mono-opus).

    Примечания

    Authentication

    Azure Speech использует ключ ресурса Speech, а не ключ Azure OpenAI. Ключ отправляется как Ocp-Apim-Subscription-Key; OpenClaw выводит https://<region>.tts.speech.microsoft.com из region, если вы не укажете endpoint или baseUrl.

    Voice names

    Используйте значение ShortName голоса Azure Speech, например en-US-JennyNeural. Встроенный провайдер может перечислять голоса через тот же ресурс Speech и отфильтровывает голоса, помеченные как устаревшие или выведенные из эксплуатации.

    Audio outputs

    Azure принимает форматы вывода, такие как audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus и riff-24khz-16bit-mono-pcm. OpenClaw запрашивает Ogg/Opus для целей voice-note, чтобы каналы могли отправлять нативные голосовые сообщения без дополнительного преобразования MP3.

    Alias

    azure принимается как псевдоним провайдера для существующих PR и пользовательской конфигурации, но новая конфигурация должна использовать azure-speech, чтобы избежать путаницы с провайдерами моделей Azure OpenAI.

    Связанные материалы

    Was this useful?
    On this page

    On this page