ElevenLabs
يستخدم OpenClaw خدمة ElevenLabs لتحويل النص إلى كلام، وتحويل الكلام إلى نص دفعيًا باستخدام Scribe
v2، وتحويل الكلام إلى نص بشكل متدفق في Voice Call باستخدام Scribe v2 Realtime.
| الإمكانية | سطح OpenClaw | الافتراضي |
|---|
| تحويل النص إلى كلام | messages.tts / talk | eleven_multilingual_v2 |
| تحويل الكلام إلى نص دفعيًا | tools.media.audio | scribe_v2 |
| تحويل الكلام إلى نص بشكل متدفق | Voice Call streaming.provider: "elevenlabs" | scribe_v2_realtime |
المصادقة
اضبط ELEVENLABS_API_KEY في البيئة. كما يُقبل XI_API_KEY أيضًا
للتوافق مع أدوات ElevenLabs الموجودة.
export ELEVENLABS_API_KEY="..."
تحويل النص إلى كلام
{
messages: {
tts: {
providers: {
elevenlabs: {
apiKey: "${ELEVENLABS_API_KEY}",
voiceId: "pMsXgVXv3BLzUgSXRplE",
modelId: "eleven_multilingual_v2",
},
},
},
},
}
تحويل الكلام إلى نص
استخدم Scribe v2 للمرفقات الصوتية الواردة ومقاطع الصوت القصيرة المسجلة:
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "elevenlabs", model: "scribe_v2" }],
},
},
},
}
يرسل OpenClaw الصوت متعدد الأجزاء إلى نقطة النهاية /v1/speech-to-text في ElevenLabs مع
model_id: "scribe_v2". ويتم ربط تلميحات اللغة إلى language_code عند وجودها.
تحويل الكلام إلى نص بشكل متدفق في Voice Call
يسجل Plugin المضمّن elevenlabs خدمة Scribe v2 Realtime لتحويل
الكلام المتدفق إلى نص في Voice Call.
| الإعداد | مسار الإعدادات | الافتراضي |
|---|
| مفتاح API | plugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKey | يعود إلى ELEVENLABS_API_KEY / XI_API_KEY |
| النموذج | ...elevenlabs.modelId | scribe_v2_realtime |
| تنسيق الصوت | ...elevenlabs.audioFormat | ulaw_8000 |
| معدل العينة | ...elevenlabs.sampleRate | 8000 |
| استراتيجية الالتزام | ...elevenlabs.commitStrategy | vad |
| اللغة | ...elevenlabs.languageCode | (غير مضبوط) |
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "elevenlabs",
providers: {
elevenlabs: {
apiKey: "${ELEVENLABS_API_KEY}",
audioFormat: "ulaw_8000",
commitStrategy: "vad",
languageCode: "en",
},
},
},
},
},
},
},
}
يتلقى Voice Call وسائط Twilio بصيغة 8 kHz G.711 u-law. ويكون مزوّد ElevenLabs realtime
مضبوطًا افتراضيًا على ulaw_8000، لذلك يمكن تمرير إطارات الهاتف من دون
إعادة ترميز.