Providers

Azure Speech

Edit source

Azure Speech یک ارائه‌دهندهٔ تبدیل متن به گفتار Azure AI Speech است. در OpenClaw، به‌طور پیش‌فرض صدای پاسخ خروجی را به‌صورت MP3، برای یادداشت‌های صوتی به‌صورت Ogg/Opus بومی، و برای کانال‌های تلفنی مانند Voice Call به‌صورت صدای mulaw با 8 kHz تولید می‌کند.

OpenClaw مستقیماً از Azure Speech REST API همراه با SSML استفاده می‌کند و قالب خروجی متعلق به ارائه‌دهنده را از طریق X-Microsoft-OutputFormat می‌فرستد.

جزئیات مقدار
وب‌سایت Azure AI Speech
مستندات Speech REST text-to-speech
احراز هویت AZURE_SPEECH_KEY به‌همراه AZURE_SPEECH_REGION
صدای پیش‌فرض en-US-JennyNeural
خروجی فایل پیش‌فرض audio-24khz-48kbitrate-mono-mp3
فایل یادداشت صوتی پیش‌فرض ogg-24khz-16bit-mono-opus

شروع به کار

  • ایجاد یک منبع Azure Speech

    در پورتال Azure، یک منبع Speech ایجاد کنید. KEY 1 را از Resource Management > Keys and Endpoint کپی کنید، و موقعیت منبع مانند eastus را کپی کنید.

    Code
    AZURE_SPEECH_KEY=<speech-resource-key>AZURE_SPEECH_REGION=eastus
  • انتخاب Azure Speech در messages.tts

    json5
    {  messages: {    tts: {      auto: "always",      provider: "azure-speech",      providers: {        "azure-speech": {          voice: "en-US-JennyNeural",          lang: "en-US",        },      },    },  },}
  • ارسال یک پیام

    یک پاسخ را از طریق هر کانال متصل ارسال کنید. OpenClaw صدا را با Azure Speech تولید می‌کند و برای صدای استاندارد MP3، یا زمانی که کانال انتظار یادداشت صوتی دارد Ogg/Opus تحویل می‌دهد.

  • گزینه‌های پیکربندی

    گزینه مسیر توضیح
    apiKey messages.tts.providers.azure-speech.apiKey کلید منبع Azure Speech. به AZURE_SPEECH_KEY، AZURE_SPEECH_API_KEY، یا SPEECH_KEY برمی‌گردد.
    region messages.tts.providers.azure-speech.region منطقهٔ منبع Azure Speech. به AZURE_SPEECH_REGION یا SPEECH_REGION برمی‌گردد.
    endpoint messages.tts.providers.azure-speech.endpoint بازنویسی اختیاری endpoint/نشانی پایهٔ Azure Speech.
    baseUrl messages.tts.providers.azure-speech.baseUrl بازنویسی اختیاری نشانی پایهٔ Azure Speech.
    voice messages.tts.providers.azure-speech.voice مقدار ShortName صدای Azure (پیش‌فرض en-US-JennyNeural).
    lang messages.tts.providers.azure-speech.lang کد زبان SSML (پیش‌فرض en-US).
    outputFormat messages.tts.providers.azure-speech.outputFormat قالب خروجی فایل صوتی (پیش‌فرض audio-24khz-48kbitrate-mono-mp3).
    voiceNoteOutputFormat messages.tts.providers.azure-speech.voiceNoteOutputFormat قالب خروجی یادداشت صوتی (پیش‌فرض ogg-24khz-16bit-mono-opus).

    یادداشت‌ها

    احراز هویت

    Azure Speech از کلید منبع Speech استفاده می‌کند، نه کلید Azure OpenAI. کلید به‌صورت Ocp-Apim-Subscription-Key ارسال می‌شود؛ OpenClaw https://<region>.tts.speech.microsoft.com را از region استخراج می‌کند مگر اینکه endpoint یا baseUrl را ارائه کنید.

    نام‌های صدا

    از مقدار ShortName صدای Azure Speech استفاده کنید، برای مثال en-US-JennyNeural. ارائه‌دهندهٔ همراه می‌تواند صداها را از طریق همان منبع Speech فهرست کند و صداهایی را که به‌عنوان منسوخ یا بازنشسته علامت‌گذاری شده‌اند فیلتر می‌کند.

    خروجی‌های صوتی

    Azure قالب‌های خروجی مانند audio-24khz-48kbitrate-mono-mp3، ogg-24khz-16bit-mono-opus و riff-24khz-16bit-mono-pcm را می‌پذیرد. OpenClaw برای مقصدهای voice-note، Ogg/Opus درخواست می‌کند تا کانال‌ها بتوانند حباب‌های صوتی بومی را بدون تبدیل اضافی MP3 ارسال کنند.

    نام مستعار

    azure به‌عنوان نام مستعار ارائه‌دهنده برای PRهای موجود و پیکربندی کاربر پذیرفته می‌شود، اما پیکربندی جدید باید از azure-speech استفاده کند تا با ارائه‌دهندگان مدل Azure OpenAI اشتباه نشود.

    مرتبط

    Was this useful?