الانتقال إلى المحتوى الرئيسي

ElevenLabs

يستخدم OpenClaw خدمة ElevenLabs لتحويل النص إلى كلام، وتحويل الكلام إلى نص دفعيًا باستخدام Scribe v2، وتحويل الكلام إلى نص بشكل متدفق في Voice Call باستخدام Scribe v2 Realtime.
الإمكانيةسطح OpenClawالافتراضي
تحويل النص إلى كلامmessages.tts / talkeleven_multilingual_v2
تحويل الكلام إلى نص دفعيًاtools.media.audioscribe_v2
تحويل الكلام إلى نص بشكل متدفقVoice Call streaming.provider: "elevenlabs"scribe_v2_realtime

المصادقة

اضبط ELEVENLABS_API_KEY في البيئة. كما يُقبل XI_API_KEY أيضًا للتوافق مع أدوات ElevenLabs الموجودة.
export ELEVENLABS_API_KEY="..."

تحويل النص إلى كلام

{
  messages: {
    tts: {
      providers: {
        elevenlabs: {
          apiKey: "${ELEVENLABS_API_KEY}",
          voiceId: "pMsXgVXv3BLzUgSXRplE",
          modelId: "eleven_multilingual_v2",
        },
      },
    },
  },
}

تحويل الكلام إلى نص

استخدم Scribe v2 للمرفقات الصوتية الواردة ومقاطع الصوت القصيرة المسجلة:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "elevenlabs", model: "scribe_v2" }],
      },
    },
  },
}
يرسل OpenClaw الصوت متعدد الأجزاء إلى نقطة النهاية /v1/speech-to-text في ElevenLabs مع model_id: "scribe_v2". ويتم ربط تلميحات اللغة إلى language_code عند وجودها.

تحويل الكلام إلى نص بشكل متدفق في Voice Call

يسجل Plugin المضمّن elevenlabs خدمة Scribe v2 Realtime لتحويل الكلام المتدفق إلى نص في Voice Call.
الإعدادمسار الإعداداتالافتراضي
مفتاح APIplugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKeyيعود إلى ELEVENLABS_API_KEY / XI_API_KEY
النموذج...elevenlabs.modelIdscribe_v2_realtime
تنسيق الصوت...elevenlabs.audioFormatulaw_8000
معدل العينة...elevenlabs.sampleRate8000
استراتيجية الالتزام...elevenlabs.commitStrategyvad
اللغة...elevenlabs.languageCode(غير مضبوط)
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "elevenlabs",
            providers: {
              elevenlabs: {
                apiKey: "${ELEVENLABS_API_KEY}",
                audioFormat: "ulaw_8000",
                commitStrategy: "vad",
                languageCode: "en",
              },
            },
          },
        },
      },
    },
  },
}
يتلقى Voice Call وسائط Twilio بصيغة 8 kHz G.711 u-law. ويكون مزوّد ElevenLabs realtime مضبوطًا افتراضيًا على ulaw_8000، لذلك يمكن تمرير إطارات الهاتف من دون إعادة ترميز.