ElevenLabs
OpenClaw використовує ElevenLabs для перетворення тексту на мовлення, пакетного перетворення мовлення на текст за допомогою Scribe
v2 та потокового STT для голосових дзвінків за допомогою Scribe v2 Realtime.
| Можливість | Поверхня OpenClaw | Типове значення |
|---|
| Перетворення тексту на мовлення | messages.tts / talk | eleven_multilingual_v2 |
| Пакетне перетворення мовлення на текст | tools.media.audio | scribe_v2 |
| Потокове перетворення мовлення на текст | Голосовий дзвінок streaming.provider: "elevenlabs" | scribe_v2_realtime |
Автентифікація
Установіть ELEVENLABS_API_KEY у середовищі. XI_API_KEY також підтримується для
сумісності з наявними інструментами ElevenLabs.
export ELEVENLABS_API_KEY="..."
Перетворення тексту на мовлення
{
messages: {
tts: {
providers: {
elevenlabs: {
apiKey: "${ELEVENLABS_API_KEY}",
voiceId: "pMsXgVXv3BLzUgSXRplE",
modelId: "eleven_multilingual_v2",
},
},
},
},
}
Перетворення мовлення на текст
Використовуйте Scribe v2 для вхідних аудіовкладень і коротких записаних голосових сегментів:
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "elevenlabs", model: "scribe_v2" }],
},
},
},
}
OpenClaw надсилає multipart-аудіо до ElevenLabs /v1/speech-to-text з
model_id: "scribe_v2". Підказки мови зіставляються з language_code, якщо вони задані.
Потокове STT для голосових дзвінків
Вбудований plugin elevenlabs реєструє Scribe v2 Realtime для потокової транскрипції
голосових дзвінків.
| Налаштування | Шлях конфігурації | Типове значення |
|---|
| API-ключ | plugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKey | Повертається до ELEVENLABS_API_KEY / XI_API_KEY |
| Модель | ...elevenlabs.modelId | scribe_v2_realtime |
| Формат аудіо | ...elevenlabs.audioFormat | ulaw_8000 |
| Частота дискретизації | ...elevenlabs.sampleRate | 8000 |
| Стратегія commit | ...elevenlabs.commitStrategy | vad |
| Мова | ...elevenlabs.languageCode | (не задано) |
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "elevenlabs",
providers: {
elevenlabs: {
apiKey: "${ELEVENLABS_API_KEY}",
audioFormat: "ulaw_8000",
commitStrategy: "vad",
languageCode: "en",
},
},
},
},
},
},
},
}
Voice Call отримує медіа Twilio у форматі 8 кГц G.711 u-law. Провайдер ElevenLabs realtime
типово використовує ulaw_8000, тому кадри телефонії можна пересилати без
транскодування.