OpenClaw يمكنه تحويل الردود الصادرة إلى صوت عبر 14 مزود كلام وتسليم رسائل صوتية أصلية على Feishu وMatrix وTelegram وWhatsApp، ومرفقات صوتية في كل مكان آخر، وتدفقات PCM/Ulaw للاتصالات الهاتفية وTalk. TTS هو نصف إخراج الكلام في وضعDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
stt-tts الخاص بـ Talk. جلسات Talk
من نوع realtime الأصلية لدى المزود تُنشئ الكلام داخل مزود الوقت الحقيقي بدلاً
من استدعاء مسار TTS هذا، بينما جلسات transcription لا تُنشئ استجابة صوتية
للمساعد.
البدء السريع
اختر مزودًا
OpenAI وElevenLabs هما الخياران المستضافان الأكثر موثوقية. Microsoft و
Local CLI يعملان من دون مفتاح API. راجع مصفوفة المزودين
للاطلاع على القائمة الكاملة.
اضبط مفتاح API
صدّر متغير البيئة الخاص بمزودك (على سبيل المثال
OPENAI_API_KEY,
ELEVENLABS_API_KEY). لا يحتاج Microsoft وLocal CLI إلى مفتاح.Auto-TTS متوقف افتراضيًا. عندما لا يكون
messages.tts.provider مضبوطًا،
يختار OpenClaw أول مزود مُعدّ في ترتيب الاختيار التلقائي للسجل.
أداة الوكيل المدمجة tts مخصصة للنية الصريحة فقط: تبقى الدردشة العادية
نصية ما لم يطلب المستخدم صوتًا، أو يستخدم /tts، أو يفعّل Auto-TTS/تعليمة
الكلام.المزودون المدعومون
| المزود | المصادقة | ملاحظات |
|---|---|---|
| Azure Speech | AZURE_SPEECH_KEY + AZURE_SPEECH_REGION (أيضًا AZURE_SPEECH_API_KEY, SPEECH_KEY, SPEECH_REGION) | إخراج ملاحظات صوتية Ogg/Opus أصلي والاتصالات الهاتفية. |
| DeepInfra | DEEPINFRA_API_KEY | TTS متوافق مع OpenAI. القيمة الافتراضية hexgrad/Kokoro-82M. |
| ElevenLabs | ELEVENLABS_API_KEY أو XI_API_KEY | استنساخ الصوت، متعدد اللغات، حتمي عبر seed؛ يُبث لتشغيل صوت Discord. |
| Google Gemini | GEMINI_API_KEY أو GOOGLE_API_KEY | TTS دفعي عبر Gemini API؛ مدرك للشخصية عبر promptTemplate: "audio-profile-v1". |
| Gradium | GRADIUM_API_KEY | إخراج ملاحظات صوتية واتصالات هاتفية. |
| Inworld | INWORLD_API_KEY | واجهة API لبث TTS. ملاحظات صوتية Opus أصلية واتصالات هاتفية PCM. |
| Local CLI | لا شيء | يشغّل أمر TTS محليًا مُعدًا. |
| Microsoft | لا شيء | TTS عصبي عام من Edge عبر node-edge-tts. بأفضل جهد، بلا SLA. |
| MiniMax | MINIMAX_API_KEY (أو خطة Token: MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY, MINIMAX_CODING_API_KEY) | واجهة API من T2A v2. القيمة الافتراضية speech-2.8-hd. |
| OpenAI | OPENAI_API_KEY | يُستخدم أيضًا للتلخيص التلقائي؛ يدعم instructions للشخصية. |
| OpenRouter | OPENROUTER_API_KEY (يمكن إعادة استخدام models.providers.openrouter.apiKey) | النموذج الافتراضي hexgrad/kokoro-82m. |
| Volcengine | VOLCENGINE_TTS_API_KEY أو BYTEPLUS_SEED_SPEECH_API_KEY (AppID/رمز قديمان: VOLCENGINE_TTS_APPID/_TOKEN) | واجهة BytePlus Seed Speech HTTP API. |
| Vydra | VYDRA_API_KEY | مزود مشترك للصور والفيديو والكلام. |
| xAI | XAI_API_KEY | TTS دفعي من xAI. ملاحظات Opus الصوتية الأصلية غير مدعومة. |
| Xiaomi MiMo | XIAOMI_API_KEY | MiMo TTS عبر إكمالات دردشة Xiaomi. |
summaryModel (أو
agents.defaults.model.primary)، لذلك يجب أيضًا أن يكون ذلك المزود مصادقًا
إذا أبقيت الملخصات مفعلة.
الإعداد
توجد إعدادات TTS تحتmessages.tts في ~/.openclaw/openclaw.json. اختر
إعدادًا مسبقًا وعدّل كتلة المزود:
- Azure Speech
- ElevenLabs
- Google Gemini
- Gradium
- Inworld
- Local CLI
- Microsoft (بلا مفتاح)
- MiniMax
- OpenAI + ElevenLabs
- OpenRouter
- Volcengine
- xAI
- Xiaomi MiMo
تجاوزات الصوت لكل وكيل
استخدمagents.list[].tts عندما ينبغي لوكيل واحد أن يتحدث بمزود أو
صوت أو نموذج أو شخصية أو وضع Auto-TTS مختلف. تدمج كتلة الوكيل بعمق فوق
messages.tts، لذلك يمكن أن تبقى بيانات اعتماد المزود في إعدادات المزود العامة:
agents.list[].tts.persona إلى جانب إعدادات
المزوّد، فهي تتجاوز messages.tts.persona العامة لذلك الوكيل فقط.
ترتيب الأولوية للردود التلقائية، و/tts audio، و/tts status، وأداة الوكيل
tts:
messages.ttsagents.list[].ttsالنشط- تجاوز القناة، عندما تدعم القناة
channels.<channel>.tts - تجاوز الحساب، عندما تمرّر القناة
channels.<channel>.accounts.<id>.tts - تفضيلات
/ttsالمحلية لهذا المضيف - توجيهات
[[tts:...]]المضمّنة عند تفعيل تجاوزات النموذج
messages.tts وتُدمج
بعمق فوق الطبقات السابقة، لذلك يمكن أن تبقى بيانات اعتماد المزوّد المشتركة في
messages.tts بينما تغيّر قناة أو حساب بوت الصوت أو النموذج أو الشخصية
أو الوضع التلقائي فقط:
الشخصيات
الشخصية هي هوية نطق ثابتة يمكن تطبيقها بشكل حتمي عبر المزوّدين. يمكنها تفضيل مزوّد واحد، وتعريف قصد موجّه محايد للمزوّد، وحمل ارتباطات خاصة بالمزوّدين للأصوات والنماذج وقوالب الموجّهات والبذور وإعدادات الصوت.شخصية بسيطة
شخصية كاملة (موجّه محايد للمزوّد)
حلّ الشخصية
تُحدَّد الشخصية النشطة بشكل حتمي:- تفضيل
/tts persona <id>المحلي، إذا كان معيّنًا. messages.tts.persona، إذا كان معيّنًا.- لا توجد شخصية.
- التجاوزات المباشرة (CLI، Gateway، Talk، توجيهات TTS المسموح بها).
- تفضيل
/tts provider <id>المحلي. providerالخاص بالشخصية النشطة.messages.tts.provider.- الاختيار التلقائي من السجل.
messages.tts.providers.<id>messages.tts.personas.<persona>.providers.<id>- تجاوزات الطلب الموثوقة
- تجاوزات توجيهات TTS المسموح بها والصادرة من النموذج
كيف تستخدم المزوّدات موجّهات الشخصية
حقول موجّه الشخصية (profile، scene، sampleContext، style، accent،
pacing، constraints) محايدة للمزوّد. يقرر كل مزوّد كيفية استخدامها:
Google Gemini
Google Gemini
يغلّف حقول موجّه الشخصية في بنية موجّه Gemini TTS فقط عندما
يعيّن إعداد مزوّد Google الفعّال
promptTemplate: "audio-profile-v1"
أو personaPrompt. ما زالت حقول audioProfile وspeakerName الأقدم
تُضاف في البداية كنص موجّه خاص بـ Google. تُحفظ وسوم الصوت المضمّنة مثل
[whispers] أو [laughs] داخل كتلة [[tts:text]]
داخل نص Gemini؛ لا ينشئ OpenClaw هذه الوسوم.OpenAI
OpenAI
يربط حقول موجّه الشخصية بحقل الطلب
instructions فقط عندما
لا تكون هناك instructions صريحة مهيأة لـ OpenAI. تفوز instructions
الصريحة دائمًا.المزوّدون الآخرون
المزوّدون الآخرون
استخدم فقط ارتباطات الشخصية الخاصة بالمزوّد تحت
personas.<id>.providers.<provider>. تُتجاهل حقول موجّه الشخصية
ما لم ينفّذ المزوّد ربطًا خاصًا به لموجّه الشخصية.سياسة الرجوع
يتحكمfallbackPolicy في السلوك عندما لا يكون للشخصية أي ارتباط مع
المزوّد الذي تتم محاولته:
| السياسة | السلوك |
|---|---|
preserve-persona | الافتراضي. تبقى حقول الموجّه المحايدة للمزوّد متاحة؛ قد يستخدمها المزوّد أو يتجاهلها. |
provider-defaults | تُحذف الشخصية من تحضير الموجّه لتلك المحاولة؛ يستخدم المزوّد افتراضاته المحايدة بينما يستمر الرجوع إلى مزوّدين آخرين. |
fail | تخطَّ محاولة ذلك المزوّد مع reasonCode: "not_configured" وpersonaBinding: "missing". ما زالت مزوّدات الرجوع الأخرى تُجرَّب. |
talk.catalog
وتمريرها عبر جلسة Talk أو طلب التسليم. يجب ألا يؤدي فتح جلسة صوتية إلى
تعديل messages.tts أو افتراضات مزوّد Talk العامة.
التوجيهات المدفوعة بالنموذج
افتراضيًا، يمكن للمساعد إصدار توجيهات[[tts:...]] لتجاوز
الصوت أو النموذج أو السرعة لرد واحد، إضافة إلى كتلة اختيارية
[[tts:text]]...[[/tts:text]] للإشارات التعبيرية التي يجب أن تظهر في
الصوت فقط:
messages.tts.auto هي "tagged"، تكون التوجيهات مطلوبة
لتشغيل الصوت. تزيل عملية تسليم كتل البث التوجيهات من النص المرئي قبل أن
تراها القناة، حتى عند تقسيمها عبر كتل متجاورة.
يُتجاهل provider=... ما لم يكن modelOverrides.allowProvider: true. عندما
يعلن رد عن provider=...، تُحلَّل المفاتيح الأخرى في ذلك التوجيه
بواسطة ذلك المزوّد فقط؛ تُزال المفاتيح غير المدعومة وتُبلَّغ كتحذيرات
لتوجيهات TTS.
مفاتيح التوجيه المتاحة:
provider(معرّف مزوّد مسجّل؛ يتطلبallowProvider: true)voice/voiceName/voice_name/google_voice/voiceIdmodel/google_modelstability,similarityBoost,style,speed,useSpeakerBoostvol/volume(مستوى صوت MiniMax، 0–10)pitch(حدة MiniMax كعدد صحيح، −12 إلى 12؛ تُقتطع القيم الكسرية)emotion(وسم العاطفة في Volcengine)applyTextNormalization(auto|on|off)languageCode(ISO 639-1)seed
أوامر الشرطة المائلة
أمر واحد/tts. على Discord، يسجل OpenClaw أيضًا /voice لأن
/tts أمر مضمّن في Discord، وما زال نص /tts ... يعمل.
تتطلب الأوامر مرسِلًا مخولًا (تنطبق قواعد قائمة السماح/المالك) ويجب تفعيل
commands.text أو تسجيل الأوامر الأصلي.- يكتب
/tts onتفضيل TTS المحلي إلىalways؛ ويكتبه/tts offإلىoff. - يكتب
/tts chat on|off|defaultتجاوز TTS تلقائيًا محدودًا بنطاق الجلسة للمحادثة الحالية. - يكتب
/tts persona <id>تفضيل الشخصية المحلي؛ ويمسحه/tts persona off. - يقرأ
/tts latestأحدث رد للمساعد من نص جلسة المحادثة الحالية ويرسله كصوت مرة واحدة. لا يخزّن إلا تجزئة لذلك الرد على إدخال الجلسة لمنع إرسال صوت مكرر. - ينشئ
/tts audioردًا صوتيًا لمرة واحدة (لا يفعّل TTS). - يُخزَّن
limitوsummaryفي التفضيلات المحلية، وليس في الإعداد الرئيسي. - يتضمن
/tts statusتشخيصات الرجوع لأحدث محاولة:Fallback: <primary> -> <used>، وAttempts: ...، وتفاصيل كل محاولة (provider:outcome(reasonCode) latency). - يعرض
/statusوضع TTS النشط، إضافة إلى المزوّد والنموذج والصوت وبيانات تعريف نقطة النهاية المخصصة بعد تنقيتها عندما يكون TTS مفعّلًا.
تفضيلات كل مستخدم
تكتب أوامر الشرطة المائلة التجاوزات المحلية إلىprefsPath. الافتراضي هو
~/.openclaw/settings/tts.json؛ ويمكن تجاوزه بمتغير البيئة OPENCLAW_TTS_PREFS
أو messages.tts.prefsPath.
| الحقل المخزّن | التأثير |
|---|---|
auto | تجاوز TTS التلقائي المحلي (always, off, …) |
provider | تجاوز المزوّد الأساسي المحلي |
persona | تجاوز الشخصية المحلي |
maxLength | عتبة الملخّص (افتراضيًا 1500 حرفًا) |
summarize | مفتاح تشغيل الملخّص (افتراضيًا true) |
messages.tts إضافة إلى كتلة
agents.list[].tts النشطة لذلك المضيف.
صيغ الإخراج (ثابتة)
تسليم صوت TTS محكوم بإمكانات القناة. تعلن إضافات القنوات ما إذا كان على TTS بنمط الرسائل الصوتية أن يطلب من المزوّدين هدفvoice-note
أصليًا أو أن يحافظ على تركيب audio-file العادي ويكتفي بتمييز الإخراج
المتوافق لتسليم الصوت.
- القنوات القادرة على الرسائل الصوتية: تفضّل ردود الرسائل الصوتية Opus (
opus_48000_64من ElevenLabs، وopusمن OpenAI).- 48kHz / 64kbps تمثل موازنة جيدة للرسائل الصوتية.
- Feishu / WhatsApp: عندما يُنتَج رد الرسالة الصوتية بصيغة MP3/WebM/WAV/M4A
أو كملف صوتي آخر محتمل، يحوّله Plugin القناة إلى Ogg/Opus بتردد 48kHz
باستخدام
ffmpegقبل إرسال الرسالة الصوتية الأصلية. يرسل WhatsApp النتيجة عبر حمولة Baileysaudioمعptt: trueوaudio/ogg; codecs=opus. إذا فشل التحويل، يستلم Feishu الملف الأصلي كمرفق؛ أما إرسال WhatsApp فيفشل بدلاً من نشر حمولة PTT غير متوافقة. - قنوات أخرى: MP3 (
mp3_44100_128من ElevenLabs، وmp3من OpenAI).- 44.1kHz / 128kbps هي الموازنة الافتراضية لوضوح الكلام.
- MiniMax: MP3 (نموذج
speech-2.8-hd، ومعدل عينة 32kHz) لمرفقات الصوت العادية. بالنسبة إلى أهداف الرسائل الصوتية التي تعلنها القناة، يحوّل OpenClaw ملف MiniMax MP3 إلى Opus بتردد 48kHz باستخدامffmpegقبل التسليم عندما تعلن القناة دعم التحويل. - Xiaomi MiMo: MP3 افتراضياً، أو WAV عند ضبطه. بالنسبة إلى أهداف الرسائل الصوتية التي تعلنها القناة، يحوّل OpenClaw خرج Xiaomi إلى Opus بتردد 48kHz باستخدام
ffmpegقبل التسليم عندما تعلن القناة دعم التحويل. - CLI المحلي: يستخدم
outputFormatالمضبوط. تُحوّل أهداف الرسائل الصوتية إلى Ogg/Opus، ويُحوّل خرج الاتصالات الهاتفية إلى PCM أحادي خام بتردد 16 kHz باستخدامffmpeg. - Google Gemini: تعيد TTS في Gemini API ملف PCM خاماً بتردد 24kHz. يغلّفه OpenClaw كملف WAV لمرفقات الصوت، ويحوّله إلى Opus بتردد 48kHz لأهداف الرسائل الصوتية، ويعيد PCM مباشرةً لـ Talk/الاتصالات الهاتفية.
- Gradium: WAV لمرفقات الصوت، وOpus لأهداف الرسائل الصوتية، و
ulaw_8000بتردد 8 kHz للاتصالات الهاتفية. - Inworld: MP3 لمرفقات الصوت العادية، و
OGG_OPUSأصلي لأهداف الرسائل الصوتية، وPCMخام بتردد 22050 Hz لـ Talk/الاتصالات الهاتفية. - xAI: MP3 افتراضياً؛ يمكن أن تكون
responseFormatإحدى القيمmp3أوwavأوpcmأوmulawأوalaw. يستخدم OpenClaw نقطة نهاية TTS الدفعية عبر REST في xAI ويعيد مرفقاً صوتياً كاملاً؛ لا يُستخدم WebSocket الخاص ببث TTS في xAI ضمن مسار هذا المزوّد. لا يدعم هذا المسار صيغة Opus الأصلية للرسائل الصوتية. - Microsoft: يستخدم
microsoft.outputFormat(الافتراضيaudio-24khz-48kbitrate-mono-mp3).- يقبل النقل المضمّن
outputFormat، لكن ليست كل الصيغ متاحة من الخدمة. - تتبع قيم صيغة الخرج صيغ خرج Microsoft Speech (بما في ذلك Ogg/WebM Opus).
- يقبل
sendVoiceفي Telegram صيغ OGG/MP3/M4A؛ استخدم OpenAI/ElevenLabs إذا كنت تحتاج إلى رسائل صوتية مضمونة بصيغة Opus. - إذا فشلت صيغة خرج Microsoft المضبوطة، يعيد OpenClaw المحاولة باستخدام MP3.
- يقبل النقل المضمّن
سلوك TTS التلقائي
عند تفعيلmessages.tts.auto، يقوم OpenClaw بما يلي:
- يتخطى TTS إذا كان الرد يحتوي بالفعل على وسائط أو توجيه
MEDIA:. - يتخطى الردود القصيرة جداً (أقل من 10 أحرف).
- يلخّص الردود الطويلة عند تفعيل الملخصات، باستخدام
summaryModel(أوagents.defaults.model.primary). - يرفق الصوت المُنشأ بالرد.
- في
mode: "final"، يظل يرسل TTS صوتياً فقط للردود النهائية المتدفقة بعد اكتمال تدفق النص؛ تمر الوسائط المُنشأة عبر تطبيع وسائط القناة نفسه مثل مرفقات الرد العادية.
maxLength وكان التلخيص متوقفاً (أو لا يوجد مفتاح API لنموذج
التلخيص)، يتم تخطي الصوت ويُرسل الرد النصي العادي.
صيغ الخرج حسب القناة
| الهدف | التنسيق |
|---|---|
| Feishu / Matrix / Telegram / WhatsApp | تفضّل ردود الملاحظات الصوتية Opus (opus_48000_64 من ElevenLabs، وopus من OpenAI). يوازن 48 kHz / 64 kbps بين الوضوح والحجم. |
| قنوات أخرى | MP3 (mp3_44100_128 من ElevenLabs، وmp3 من OpenAI). الإعداد الافتراضي للكلام هو 44.1 kHz / 128 kbps. |
| Talk / الهاتف | PCM أصلي لدى المزوّد (Inworld 22050 Hz، وGoogle 24 kHz)، أو ulaw_8000 من Gradium للهاتف. |
- تحويل Feishu / WhatsApp: عندما يصل رد ملاحظة صوتية بصيغة MP3/WebM/WAV/M4A، يحوّل Plugin القناة ترميزه إلى Ogg/Opus بتردد 48 kHz باستخدام
ffmpeg. يرسل WhatsApp عبر Baileys معptt: trueوaudio/ogg; codecs=opus. إذا فشل التحويل: يعود Feishu إلى إرفاق الملف الأصلي؛ ويفشل إرسال WhatsApp بدلاً من نشر حمولة PTT غير متوافقة. - MiniMax / Xiaomi MiMo: MP3 افتراضياً (32 kHz لـ MiniMax
speech-2.8-hd)؛ ويُحوَّل إلى Opus بتردد 48 kHz لأهداف الملاحظات الصوتية عبرffmpeg. - CLI المحلي: يستخدم
outputFormatالمكوَّن. تُحوَّل أهداف الملاحظات الصوتية إلى Ogg/Opus ومخرجات الهاتف إلى PCM خام أحادي القناة بتردد 16 kHz. - Google Gemini: يعيد PCM خاماً بتردد 24 kHz. يغلّفه OpenClaw كملف WAV للمرفقات، ويحوّله إلى Opus بتردد 48 kHz لأهداف الملاحظات الصوتية، ويعيد PCM مباشرة لـ Talk/الهاتف.
- Inworld: مرفقات MP3، وملاحظة صوتية أصلية
OGG_OPUS، وPCMخام بتردد 22050 Hz لـ Talk/الهاتف. - xAI: MP3 افتراضياً؛ يمكن أن تكون
responseFormatهيmp3|wav|pcm|mulaw|alaw. يستخدم نقطة نهاية REST الدفعية من xAI — ولا يُستخدم TTS عبر WebSocket المتدفق. صيغة Opus الأصلية للملاحظات الصوتية غير مدعومة. - Microsoft: يستخدم
microsoft.outputFormat(الافتراضيaudio-24khz-48kbitrate-mono-mp3). يقبلsendVoiceفي Telegram صيغ OGG/MP3/M4A؛ استخدم OpenAI/ElevenLabs إذا كنت تحتاج إلى رسائل صوتية مضمونة بصيغة Opus. إذا فشلت صيغة Microsoft المكوَّنة، يعيد OpenClaw المحاولة باستخدام MP3.
مرجع الحقول
رسائل المستوى الأعلى messages.tts.*
رسائل المستوى الأعلى messages.tts.*
وضع Auto-TTS. يرسل
inbound الصوت فقط بعد رسالة صوتية واردة؛ ويرسل tagged الصوت فقط عندما يتضمن الرد توجيهات [[tts:...]] أو كتلة [[tts:text]].مفتاح تبديل قديم. يرحّل
openclaw doctor --fix هذا إلى auto.يتضمن
"all" ردود الأدوات/الكتل إضافةً إلى الردود النهائية.معرّف مزوّد الكلام. عند عدم تعيينه، يستخدم OpenClaw أول مزوّد مكوَّن في ترتيب الاختيار التلقائي للسجل. يعيد
openclaw doctor --fix كتابة provider: "edge" القديم إلى "microsoft".معرّف الشخصية النشطة من
personas. يُطبَّع إلى أحرف صغيرة.هوية منطوقة ثابتة. الحقول:
label، description، provider، fallbackPolicy، prompt، providers.<provider>. راجع الشخصيات.نموذج منخفض التكلفة للملخص التلقائي؛ الافتراضي هو
agents.defaults.model.primary. يقبل provider/model أو اسماً مستعاراً لنموذج مكوَّن.اسمح للنموذج بإصدار توجيهات TTS. القيمة الافتراضية لـ
enabled هي true؛ والقيمة الافتراضية لـ allowProvider هي false.إعدادات مملوكة للمزوّد ومفهرسة حسب معرّف مزوّد الكلام. يعيد
openclaw doctor --fix كتابة الكتل المباشرة القديمة (messages.tts.openai، .elevenlabs، .microsoft، .edge)؛ اعتمد فقط messages.tts.providers.<id>.حد صارم لعدد أحرف إدخال TTS. يفشل
/tts audio إذا تم تجاوزه.مهلة الطلب بالمللي ثانية.
تجاوز مسار JSON المحلي للتفضيلات (المزوّد/الحد/الملخص). الافتراضي
~/.openclaw/settings/tts.json.Azure Speech
Azure Speech
Env:
AZURE_SPEECH_KEY، أو AZURE_SPEECH_API_KEY، أو SPEECH_KEY.منطقة Azure Speech (مثلاً
eastus). Env: AZURE_SPEECH_REGION أو SPEECH_REGION.تجاوز اختياري لنقطة نهاية Azure Speech (الاسم المستعار
baseUrl).ShortName لصوت Azure. الافتراضي
en-US-JennyNeural.رمز لغة SSML. الافتراضي
en-US.Azure
X-Microsoft-OutputFormat للصوت القياسي. الافتراضي audio-24khz-48kbitrate-mono-mp3.Azure
X-Microsoft-OutputFormat لمخرجات الملاحظات الصوتية. الافتراضي ogg-24khz-16bit-mono-opus.ElevenLabs
ElevenLabs
يعود إلى
ELEVENLABS_API_KEY أو XI_API_KEY.معرّف النموذج (مثلاً
eleven_multilingual_v2، eleven_v3).معرّف صوت ElevenLabs.
stability، وsimilarityBoost، وstyle (كل منها 0..1)، وuseSpeakerBoost (true|false)، وspeed (0.5..2.0، 1.0 = عادي).وضع تطبيع النص.
رمز ISO 639-1 من حرفين (مثلاً
en، de).عدد صحيح
0..4294967295 للحتمية قدر الإمكان.تجاوز عنوان URL الأساسي لـ API الخاص بـ ElevenLabs.
Google Gemini
Google Gemini
يعود إلى
GEMINI_API_KEY / GOOGLE_API_KEY. إذا حُذف، يمكن لـ TTS إعادة استخدام models.providers.google.apiKey قبل الرجوع إلى Env.نموذج Gemini TTS. الافتراضي
gemini-3.1-flash-tts-preview.اسم صوت Gemini الجاهز. الافتراضي
Kore. الاسم المستعار: voice.موجّه أسلوب بلغة طبيعية يُسبق النص المنطوق.
تسمية اختيارية للمتحدث تُسبق النص المنطوق عندما يستخدم موجّهك متحدثاً مسمى.
اضبط على
audio-profile-v1 لتغليف حقول موجّه الشخصية النشطة في بنية موجّه Gemini TTS حتمية.نص موجّه شخصية إضافي خاص بـ Google يُلحق بملاحظات المخرج في القالب.
لا يُقبل إلا
https://generativelanguage.googleapis.com.Gradium
Gradium
Inworld
Inworld
Inworld الأساسي
متغير البيئة:
INWORLD_API_KEY.القيمة الافتراضية
https://api.inworld.ai.القيمة الافتراضية
inworld-tts-1.5-max. أيضًا: inworld-tts-1.5-mini، inworld-tts-1-max، inworld-tts-1.القيمة الافتراضية
Sarah.درجة حرارة أخذ العينات
0..2.Local CLI (tts-local-cli)
Local CLI (tts-local-cli)
ملف تنفيذي محلي أو سلسلة أمر لأداة CLI TTS.
وسيطات الأمر. تدعم العناصر النائبة
{{Text}} و{{OutputPath}} و{{OutputDir}} و{{OutputBase}}.تنسيق خرج CLI المتوقع. القيمة الافتراضية
mp3 لمرفقات الصوت.مهلة الأمر بالمللي ثانية. القيمة الافتراضية
120000.دليل العمل الاختياري للأمر.
تجاوزات البيئة الاختيارية للأمر.
Microsoft (no API key)
Microsoft (no API key)
السماح باستخدام كلام Microsoft.
اسم صوت Microsoft العصبي (مثل
en-US-MichelleNeural).رمز اللغة (مثل
en-US).تنسيق خرج Microsoft. القيمة الافتراضية
audio-24khz-48kbitrate-mono-mp3. ليست كل التنسيقات مدعومة بواسطة النقل المرفق المدعوم من Edge.سلاسل النسب المئوية (مثل
+10% و-5%).كتابة ترجمات JSON بجانب ملف الصوت.
عنوان URL للوكيل لطلبات كلام Microsoft.
تجاوز مهلة الطلب (مللي ثانية).
اسم مستعار قديم. شغّل
openclaw doctor --fix لإعادة كتابة الإعدادات المحفوظة إلى providers.microsoft.MiniMax
MiniMax
يرجع احتياطيًا إلى
MINIMAX_API_KEY. مصادقة Token Plan عبر MINIMAX_OAUTH_TOKEN أو MINIMAX_CODE_PLAN_KEY أو MINIMAX_CODING_API_KEY.القيمة الافتراضية
https://api.minimax.io. متغير البيئة: MINIMAX_API_HOST.القيمة الافتراضية
speech-2.8-hd. متغير البيئة: MINIMAX_TTS_MODEL.القيمة الافتراضية
English_expressive_narrator. متغير البيئة: MINIMAX_TTS_VOICE_ID.0.5..2.0. القيمة الافتراضية 1.0.(0, 10]. القيمة الافتراضية 1.0.عدد صحيح
-12..12. القيمة الافتراضية 0. يتم اقتطاع القيم الكسرية قبل الطلب.OpenAI
OpenAI
يرجع احتياطيًا إلى
OPENAI_API_KEY.معرّف نموذج OpenAI TTS (مثل
gpt-4o-mini-tts).اسم الصوت (مثل
alloy وcedar).حقل OpenAI
instructions الصريح. عند ضبطه، لا يتم ربط حقول موجّه الشخصية تلقائيًا.حقول JSON إضافية يتم دمجها في أجسام طلبات
/audio/speech بعد حقول OpenAI TTS المولّدة. استخدم هذا لنقاط النهاية المتوافقة مع OpenAI مثل Kokoro التي تتطلب مفاتيح خاصة بالمزوّد مثل lang؛ ويتم تجاهل مفاتيح النموذج الأولي غير الآمنة.تجاوز نقطة نهاية OpenAI TTS. ترتيب الحل: الإعدادات →
OPENAI_TTS_BASE_URL → https://api.openai.com/v1. تُعامل القيم غير الافتراضية كنقاط نهاية TTS متوافقة مع OpenAI، لذلك تُقبل أسماء النماذج والأصوات المخصصة.OpenRouter
OpenRouter
متغير البيئة:
OPENROUTER_API_KEY. يمكن إعادة استخدام models.providers.openrouter.apiKey.القيمة الافتراضية
https://openrouter.ai/api/v1. يتم تطبيع القيمة القديمة https://openrouter.ai/v1.القيمة الافتراضية
hexgrad/kokoro-82m. الاسم المستعار: modelId.القيمة الافتراضية
af_alloy. الاسم المستعار: voiceId.القيمة الافتراضية
mp3.تجاوز السرعة الأصلي للمزوّد.
Volcengine (BytePlus Seed Speech)
Volcengine (BytePlus Seed Speech)
متغير البيئة:
VOLCENGINE_TTS_API_KEY أو BYTEPLUS_SEED_SPEECH_API_KEY.القيمة الافتراضية
seed-tts-1.0. متغير البيئة: VOLCENGINE_TTS_RESOURCE_ID. استخدم seed-tts-2.0 عندما يكون لمشروعك استحقاق TTS 2.0.ترويسة مفتاح التطبيق. القيمة الافتراضية
aGjiRDfUWi. متغير البيئة: VOLCENGINE_TTS_APP_KEY.تجاوز نقطة نهاية HTTP لـ Seed Speech TTS. متغير البيئة:
VOLCENGINE_TTS_BASE_URL.نوع الصوت. القيمة الافتراضية
en_female_anna_mars_bigtts. متغير البيئة: VOLCENGINE_TTS_VOICE.نسبة السرعة الأصلية للمزوّد.
وسم العاطفة الأصلي للمزوّد.
حقول Volcengine Speech Console القديمة. متغيرات البيئة:
VOLCENGINE_TTS_APPID، VOLCENGINE_TTS_TOKEN، VOLCENGINE_TTS_CLUSTER (القيمة الافتراضية volcano_tts).xAI
xAI
متغير البيئة:
XAI_API_KEY.القيمة الافتراضية
https://api.x.ai/v1. متغير البيئة: XAI_BASE_URL.القيمة الافتراضية
eve. الأصوات الحية: ara، eve، leo، rex، sal، una.رمز لغة BCP-47 أو
auto. القيمة الافتراضية en.القيمة الافتراضية
mp3.تجاوز السرعة الأصلي للمزوّد.
Xiaomi MiMo
Xiaomi MiMo
متغير البيئة:
XIAOMI_API_KEY.القيمة الافتراضية
https://api.xiaomimimo.com/v1. متغير البيئة: XIAOMI_BASE_URL.القيمة الافتراضية
mimo-v2.5-tts. متغير البيئة: XIAOMI_TTS_MODEL. يدعم أيضًا mimo-v2-tts.القيمة الافتراضية
mimo_default. متغير البيئة: XIAOMI_TTS_VOICE.القيمة الافتراضية
mp3. متغير البيئة: XIAOMI_TTS_FORMAT.تعليمة أسلوب اختيارية بلغة طبيعية تُرسل كرسالة المستخدم؛ لا تُنطق.
أداة الوكيل
تحوّل أداةtts النص إلى كلام وتعيد مرفقًا صوتيًا لتسليم الرد.
على Feishu وMatrix وTelegram وWhatsApp، يتم تسليم الصوت
كرسالة صوتية بدلًا من مرفق ملف. يمكن لـ Feishu وWhatsApp
تحويل ترميز خرج TTS غير Opus في هذا المسار عند توفر ffmpeg.
يرسل WhatsApp الصوت عبر Baileys كملاحظة صوتية PTT (audio مع
ptt: true) ويرسل النص المرئي بشكل منفصل عن صوت PTT لأن
العملاء لا يعرضون التسميات التوضيحية على الملاحظات الصوتية باستمرار.
تقبل الأداة حقلي channel وtimeoutMs الاختياريين؛ timeoutMs هو
مهلة طلب المزوّد لكل استدعاء بالمللي ثانية.
Gateway RPC
| الطريقة | الغرض |
|---|---|
tts.status | قراءة حالة TTS الحالية وآخر محاولة. |
tts.enable | ضبط التفضيل التلقائي المحلي إلى always. |
tts.disable | ضبط التفضيل التلقائي المحلي إلى off. |
tts.convert | تحويل نص لمرة واحدة → صوت. |
tts.setProvider | ضبط تفضيل المزوّد المحلي. |
tts.setPersona | ضبط تفضيل الشخصية المحلي. |
tts.providers | سرد المزوّدين المهيئين وحالتهم. |
روابط الخدمة
- دليل OpenAI لتحويل النص إلى كلام
- مرجع OpenAI Audio API
- تحويل النص إلى كلام عبر Azure Speech REST
- مزوّد Azure Speech
- ElevenLabs Text to Speech
- مصادقة ElevenLabs
- Gradium
- Inworld TTS API
- MiniMax T2A v2 API
- Volcengine TTS HTTP API
- تخليق الكلام في Xiaomi MiMo
- node-edge-tts
- تنسيقات خرج Microsoft Speech
- تحويل النص إلى كلام في xAI