Providers

Azure Speech

Azure Speech یک ارائه‌دهنده تبدیل متن به گفتار Azure AI Speech است. در OpenClaw، صدای پاسخ خروجی را به‌طور پیش‌فرض به‌صورت MP3، برای یادداشت‌های صوتی به‌صورت Ogg/Opus بومی، و برای کانال‌های تلفنی مانند تماس صوتی به‌صورت صدای mulaw با نرخ 8 kHz تولید می‌کند.

OpenClaw مستقیماً از Azure Speech REST API همراه با SSML استفاده می‌کند و قالب خروجی متعلق به ارائه‌دهنده را از طریق X-Microsoft-OutputFormat می‌فرستد.

جزئیات	مقدار
وب‌سایت	Azure AI Speech
مستندات	تبدیل متن به گفتار REST در Speech
احراز هویت	`AZURE_SPEECH_KEY` به‌همراه `AZURE_SPEECH_REGION`
صدای پیش‌فرض	`en-US-JennyNeural`
خروجی فایل پیش‌فرض	`audio-24khz-48kbitrate-mono-mp3`
فایل یادداشت صوتی پیش‌فرض	`ogg-24khz-16bit-mono-opus`

شروع به کار

Create an Azure Speech resource

در پورتال Azure، یک منبع Speech ایجاد کنید. KEY 1 را از Resource Management > Keys and Endpoint کپی کنید و مکان منبع مانند eastus را نیز کپی کنید.

Code

AZURE_SPEECH_KEY=<speech-resource-key>AZURE_SPEECH_REGION=eastus

Select Azure Speech in messages.tts

json5

{  messages: {    tts: {      auto: "always",      provider: "azure-speech",      providers: {        "azure-speech": {          speakerVoice: "en-US-JennyNeural",          lang: "en-US",        },      },    },  },}

Send a message

از طریق هر کانال متصل، یک پاسخ بفرستید. OpenClaw صدا را با Azure Speech تولید می‌کند و برای صدای استاندارد MP3، یا زمانی که کانال انتظار یادداشت صوتی دارد Ogg/Opus تحویل می‌دهد.

گزینه‌های پیکربندی

گزینه	مسیر	توضیح
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	کلید منبع Azure Speech. در صورت نبود، به `AZURE_SPEECH_KEY`، `AZURE_SPEECH_API_KEY`، یا `SPEECH_KEY` برمی‌گردد.
`region`	`messages.tts.providers.azure-speech.region`	منطقه منبع Azure Speech. در صورت نبود، به `AZURE_SPEECH_REGION` یا `SPEECH_REGION` برمی‌گردد.
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	بازنویسی اختیاری endpoint/نشانی پایه Azure Speech.
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	بازنویسی اختیاری نشانی پایه Azure Speech.
`speakerVoice`	`messages.tts.providers.azure-speech.speakerVoice`	ShortName صدای Azure (پیش‌فرض `en-US-JennyNeural`). نام مستعار قدیمی: `voice`.
`lang`	`messages.tts.providers.azure-speech.lang`	کد زبان SSML (پیش‌فرض `en-US`).
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	قالب خروجی فایل صوتی (پیش‌فرض `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	قالب خروجی یادداشت صوتی (پیش‌فرض `ogg-24khz-16bit-mono-opus`).

یادداشت‌ها

Authentication

Azure Speech از کلید منبع Speech استفاده می‌کند، نه کلید Azure OpenAI. کلید با عنوان Ocp-Apim-Subscription-Key فرستاده می‌شود؛ OpenClaw https://<region>.tts.speech.microsoft.com را از region می‌سازد، مگر اینکه endpoint یا baseUrl را ارائه کنید.

Voice names

از مقدار ShortName صدای Azure Speech استفاده کنید، برای نمونه en-US-JennyNeural. ارائه‌دهنده همراه می‌تواند صداها را از طریق همان منبع Speech فهرست کند و صداهایی را که منسوخ یا بازنشسته علامت‌گذاری شده‌اند فیلتر می‌کند.

Audio outputs

Azure قالب‌های خروجی مانند audio-24khz-48kbitrate-mono-mp3، ogg-24khz-16bit-mono-opus، و riff-24khz-16bit-mono-pcm را می‌پذیرد. OpenClaw برای هدف‌های voice-note، Ogg/Opus درخواست می‌کند تا کانال‌ها بتوانند حباب‌های صوتی بومی را بدون تبدیل اضافی به MP3 بفرستند.

Alias

azure به‌عنوان نام مستعار ارائه‌دهنده برای PRهای موجود و پیکربندی کاربر پذیرفته می‌شود، اما پیکربندی جدید باید از azure-speech استفاده کند تا با ارائه‌دهندگان مدل Azure OpenAI اشتباه نشود.