OpenClaw 使用 ElevenLabs 進行文字轉語音、透過 Scribe v2 進行批次語音轉文字,以及透過 Scribe v2 Realtime 進行語音通話串流 STT。Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
| 能力 | OpenClaw 介面 | 預設值 |
|---|---|---|
| 文字轉語音 | messages.tts / talk | eleven_multilingual_v2 |
| 批次語音轉文字 | tools.media.audio | scribe_v2 |
| 串流語音轉文字 | 語音通話 streaming.provider: "elevenlabs" | scribe_v2_realtime |
驗證
在環境中設定ELEVENLABS_API_KEY。也接受 XI_API_KEY,以便與現有的 ElevenLabs 工具相容。
文字轉語音
modelId 設為 eleven_v3 即可使用 ElevenLabs v3 TTS。OpenClaw 會保留
eleven_multilingual_v2 作為現有安裝的預設值。
語音轉文字
針對傳入的音訊附件和短錄音語音片段使用 Scribe v2:/v1/speech-to-text,並使用
model_id: "scribe_v2"。若存在語言提示,會對應到 language_code。
語音通話串流 STT
隨附的elevenlabs Plugin 會為語音通話串流轉錄註冊 Scribe v2 Realtime。
| 設定 | 設定路徑 | 預設值 |
|---|---|---|
| API 金鑰 | plugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKey | 後援為 ELEVENLABS_API_KEY / XI_API_KEY |
| 模型 | ...elevenlabs.modelId | scribe_v2_realtime |
| 音訊格式 | ...elevenlabs.audioFormat | ulaw_8000 |
| 取樣率 | ...elevenlabs.sampleRate | 8000 |
| 提交策略 | ...elevenlabs.commitStrategy | vad |
| 語言 | ...elevenlabs.languageCode | (未設定) |
語音通話會以 8 kHz G.711 u-law 接收 Twilio 媒體。ElevenLabs 即時提供者預設為
ulaw_8000,因此電話語音框架可以不經轉碼直接轉送。