Перейти до основного вмісту

ElevenLabs

OpenClaw використовує ElevenLabs для перетворення тексту на мовлення, пакетного перетворення мовлення на текст за допомогою Scribe v2 та потокового STT для голосових дзвінків за допомогою Scribe v2 Realtime.
МожливістьПоверхня OpenClawТипове значення
Перетворення тексту на мовленняmessages.tts / talkeleven_multilingual_v2
Пакетне перетворення мовлення на текстtools.media.audioscribe_v2
Потокове перетворення мовлення на текстГолосовий дзвінок streaming.provider: "elevenlabs"scribe_v2_realtime

Автентифікація

Установіть ELEVENLABS_API_KEY у середовищі. XI_API_KEY також підтримується для сумісності з наявними інструментами ElevenLabs.
export ELEVENLABS_API_KEY="..."

Перетворення тексту на мовлення

{
  messages: {
    tts: {
      providers: {
        elevenlabs: {
          apiKey: "${ELEVENLABS_API_KEY}",
          voiceId: "pMsXgVXv3BLzUgSXRplE",
          modelId: "eleven_multilingual_v2",
        },
      },
    },
  },
}

Перетворення мовлення на текст

Використовуйте Scribe v2 для вхідних аудіовкладень і коротких записаних голосових сегментів:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "elevenlabs", model: "scribe_v2" }],
      },
    },
  },
}
OpenClaw надсилає multipart-аудіо до ElevenLabs /v1/speech-to-text з model_id: "scribe_v2". Підказки мови зіставляються з language_code, якщо вони задані.

Потокове STT для голосових дзвінків

Вбудований plugin elevenlabs реєструє Scribe v2 Realtime для потокової транскрипції голосових дзвінків.
НалаштуванняШлях конфігураціїТипове значення
API-ключplugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKeyПовертається до ELEVENLABS_API_KEY / XI_API_KEY
Модель...elevenlabs.modelIdscribe_v2_realtime
Формат аудіо...elevenlabs.audioFormatulaw_8000
Частота дискретизації...elevenlabs.sampleRate8000
Стратегія commit...elevenlabs.commitStrategyvad
Мова...elevenlabs.languageCode(не задано)
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "elevenlabs",
            providers: {
              elevenlabs: {
                apiKey: "${ELEVENLABS_API_KEY}",
                audioFormat: "ulaw_8000",
                commitStrategy: "vad",
                languageCode: "en",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call отримує медіа Twilio у форматі 8 кГц G.711 u-law. Провайдер ElevenLabs realtime типово використовує ulaw_8000, тому кадри телефонії можна пересилати без транскодування.