Providers

Azure Speech

Azure Speech एक Azure AI Speech टेक्स्ट-टू-स्पीच प्रदाता है। OpenClaw में यह आउटबाउंड उत्तर ऑडियो को डिफ़ॉल्ट रूप से MP3, वॉइस नोट्स के लिए मूल Ogg/Opus, और Voice Call जैसे टेलीफोनी चैनलों के लिए 8 kHz mulaw ऑडियो के रूप में संश्लेषित करता है।

OpenClaw SSML के साथ सीधे Azure Speech REST API का उपयोग करता है और प्रदाता-स्वामित्व वाला आउटपुट फ़ॉर्मैट X-Microsoft-OutputFormat के माध्यम से भेजता है।

विवरण मान
वेबसाइट Azure AI Speech
दस्तावेज़ Speech REST टेक्स्ट-टू-स्पीच
प्रमाणीकरण AZURE_SPEECH_KEY और AZURE_SPEECH_REGION
डिफ़ॉल्ट वॉइस en-US-JennyNeural
डिफ़ॉल्ट फ़ाइल आउटपुट audio-24khz-48kbitrate-mono-mp3
डिफ़ॉल्ट वॉइस-नोट फ़ाइल ogg-24khz-16bit-mono-opus

शुरू करना

  • Azure Speech संसाधन बनाएँ

    Azure पोर्टल में, Speech संसाधन बनाएँ। Resource Management > Keys and Endpoint से KEY 1 कॉपी करें, और संसाधन स्थान कॉपी करें जैसे eastus

    Code
    AZURE_SPEECH_KEY=<speech-resource-key>AZURE_SPEECH_REGION=eastus
  • messages.tts में Azure Speech चुनें

    json5
    {  messages: {    tts: {      auto: "always",      provider: "azure-speech",      providers: {        "azure-speech": {          speakerVoice: "en-US-JennyNeural",          lang: "en-US",        },      },    },  },}
  • संदेश भेजें

    किसी भी जुड़े हुए चैनल के माध्यम से उत्तर भेजें। OpenClaw Azure Speech के साथ ऑडियो संश्लेषित करता है और मानक ऑडियो के लिए MP3 डिलीवर करता है, या जब चैनल वॉइस नोट की अपेक्षा करता है तो Ogg/Opus।

  • कॉन्फ़िगरेशन विकल्प

    विकल्प पथ विवरण
    apiKey messages.tts.providers.azure-speech.apiKey Azure Speech संसाधन कुंजी। AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY, या SPEECH_KEY पर फ़ॉलबैक करता है।
    region messages.tts.providers.azure-speech.region Azure Speech संसाधन क्षेत्र। AZURE_SPEECH_REGION या SPEECH_REGION पर फ़ॉलबैक करता है।
    endpoint messages.tts.providers.azure-speech.endpoint वैकल्पिक Azure Speech एंडपॉइंट/बेस URL ओवरराइड।
    baseUrl messages.tts.providers.azure-speech.baseUrl वैकल्पिक Azure Speech बेस URL ओवरराइड।
    speakerVoice messages.tts.providers.azure-speech.speakerVoice Azure वॉइस ShortName (डिफ़ॉल्ट en-US-JennyNeural)। लेगेसी उपनाम: voice
    lang messages.tts.providers.azure-speech.lang SSML भाषा कोड (डिफ़ॉल्ट en-US)।
    outputFormat messages.tts.providers.azure-speech.outputFormat ऑडियो-फ़ाइल आउटपुट फ़ॉर्मैट (डिफ़ॉल्ट audio-24khz-48kbitrate-mono-mp3)।
    voiceNoteOutputFormat messages.tts.providers.azure-speech.voiceNoteOutputFormat वॉइस-नोट आउटपुट फ़ॉर्मैट (डिफ़ॉल्ट ogg-24khz-16bit-mono-opus)।

    नोट्स

    प्रमाणीकरण

    Azure Speech, Azure OpenAI कुंजी नहीं, बल्कि Speech संसाधन कुंजी का उपयोग करता है। कुंजी Ocp-Apim-Subscription-Key के रूप में भेजी जाती है; OpenClaw region से https://<region>.tts.speech.microsoft.com निकालता है, जब तक कि आप endpoint या baseUrl प्रदान नहीं करते।

    वॉइस नाम

    Azure Speech वॉइस ShortName मान का उपयोग करें, उदाहरण के लिए en-US-JennyNeural। बंडल किया गया प्रदाता उसी Speech संसाधन के माध्यम से वॉइसों की सूची दे सकता है और deprecated या retired चिह्नित वॉइसों को फ़िल्टर करता है।

    ऑडियो आउटपुट

    Azure audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus, और riff-24khz-16bit-mono-pcm जैसे आउटपुट फ़ॉर्मैट स्वीकार करता है। OpenClaw voice-note लक्ष्यों के लिए Ogg/Opus का अनुरोध करता है, ताकि चैनल अतिरिक्त MP3 रूपांतरण के बिना मूल वॉइस बबल भेज सकें।

    उपनाम

    मौजूदा PRs और उपयोगकर्ता कॉन्फ़िग के लिए azure को प्रदाता उपनाम के रूप में स्वीकार किया जाता है, लेकिन नए कॉन्फ़िग में Azure OpenAI मॉडल प्रदाताओं के साथ भ्रम से बचने के लिए azure-speech का उपयोग करना चाहिए।

    संबंधित

    Was this useful?
    On this page

    On this page