الانتقال إلى المحتوى الرئيسي
Azure Speech هو مزوّد تحويل النص إلى كلام ضمن Azure AI Speech. وفي OpenClaw يقوم بتوليف الصوت الصادر للردود بصيغة MP3 افتراضيًا، وبصيغة Ogg/Opus أصلية للملاحظات الصوتية، وبصوت mulaw بتردد 8 kHz لقنوات الاتصالات الهاتفية مثل Voice Call. يستخدم OpenClaw واجهة Azure Speech REST API مباشرةً مع SSML ويرسل تنسيق الإخراج المملوك للمزوّد عبر X-Microsoft-OutputFormat.
التفصيلالقيمة
الموقع الإلكترونيAzure AI Speech
الوثائقSpeech REST text-to-speech
المصادقةAZURE_SPEECH_KEY بالإضافة إلى AZURE_SPEECH_REGION
الصوت الافتراضيen-US-JennyNeural
إخراج الملف الافتراضيaudio-24khz-48kbitrate-mono-mp3
ملف الملاحظة الصوتية الافتراضيogg-24khz-16bit-mono-opus

البدء

1

أنشئ مورد Azure Speech

في بوابة Azure، أنشئ مورد Speech. انسخ KEY 1 من Resource Management > Keys and Endpoint، وانسخ موقع المورد مثل eastus.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
2

حدد Azure Speech في messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}
3

أرسل رسالة

أرسل ردًا عبر أي قناة متصلة. سيقوم OpenClaw بتوليف الصوت باستخدام Azure Speech وتسليم MP3 للصوت القياسي، أو Ogg/Opus عندما تتوقع القناة ملاحظة صوتية.

خيارات التكوين

الخيارالمسارالوصف
apiKeymessages.tts.providers.azure-speech.apiKeyمفتاح مورد Azure Speech. ويعود إلى AZURE_SPEECH_KEY أو AZURE_SPEECH_API_KEY أو SPEECH_KEY.
regionmessages.tts.providers.azure-speech.regionمنطقة مورد Azure Speech. ويعود إلى AZURE_SPEECH_REGION أو SPEECH_REGION.
endpointmessages.tts.providers.azure-speech.endpointتجاوز اختياري لنقطة نهاية/عنوان URL الأساسي لـ Azure Speech.
baseUrlmessages.tts.providers.azure-speech.baseUrlتجاوز اختياري لعنوان URL الأساسي لـ Azure Speech.
voicemessages.tts.providers.azure-speech.voiceقيمة ShortName للصوت في Azure (الافتراضي en-US-JennyNeural).
langmessages.tts.providers.azure-speech.langرمز لغة SSML ‏(الافتراضي en-US).
outputFormatmessages.tts.providers.azure-speech.outputFormatتنسيق إخراج ملف الصوت (الافتراضي audio-24khz-48kbitrate-mono-mp3).
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormatتنسيق إخراج الملاحظة الصوتية (الافتراضي ogg-24khz-16bit-mono-opus).

ملاحظات

يستخدم Azure Speech مفتاح مورد Speech، وليس مفتاح Azure OpenAI. يتم إرسال المفتاح على هيئة Ocp-Apim-Subscription-Key؛ ويشتق OpenClaw العنوان https://<region>.tts.speech.microsoft.com من region ما لم توفر endpoint أو baseUrl.
استخدم قيمة ShortName الخاصة بالصوت في Azure Speech، مثل en-US-JennyNeural. ويمكن للمزوّد المضمن عرض الأصوات عبر مورد Speech نفسه ويصفّي الأصوات المعلّمة على أنها deprecated أو retired.
يقبل Azure تنسيقات إخراج مثل audio-24khz-48kbitrate-mono-mp3، وogg-24khz-16bit-mono-opus، وriff-24khz-16bit-mono-pcm. ويطلب OpenClaw Ogg/Opus لأهداف voice-note حتى تتمكن القنوات من إرسال فقاعات صوتية أصلية من دون تحويل إضافي من MP3.
تُقبل azure كاسم بديل للمزوّد من أجل PRs الحالية وتكوينات المستخدمين، لكن يجب أن تستخدم التكوينات الجديدة azure-speech لتجنب الالتباس مع مزوّدي نماذج Azure OpenAI.

ذو صلة

تحويل النص إلى كلام

نظرة عامة على TTS، والمزوّدين، وتكوين messages.tts.

التكوين

المرجع الكامل للتكوين بما في ذلك إعدادات messages.tts.

المزوّدون

جميع مزوّدي OpenClaw المضمنين.

استكشاف الأخطاء وإصلاحها

المشكلات الشائعة وخطوات تصحيح الأخطاء.