Passer au contenu principal

ElevenLabs

OpenClaw utilise ElevenLabs pour la synthèse vocale, la reconnaissance vocale par lot avec Scribe v2, et la STT en streaming de Voice Call avec Scribe v2 Realtime.
CapabilitySurface OpenClawPar défaut
Synthèse vocalemessages.tts / talkeleven_multilingual_v2
Reconnaissance vocale par lottools.media.audioscribe_v2
Reconnaissance vocale en streamingVoice Call streaming.provider: "elevenlabs"scribe_v2_realtime

Authentification

Définissez ELEVENLABS_API_KEY dans l’environnement. XI_API_KEY est également accepté pour assurer la compatibilité avec l’outillage ElevenLabs existant.
export ELEVENLABS_API_KEY="..."

Synthèse vocale

{
  messages: {
    tts: {
      providers: {
        elevenlabs: {
          apiKey: "${ELEVENLABS_API_KEY}",
          voiceId: "pMsXgVXv3BLzUgSXRplE",
          modelId: "eleven_multilingual_v2",
        },
      },
    },
  },
}

Reconnaissance vocale

Utilisez Scribe v2 pour les pièces jointes audio entrantes et les courts segments vocaux enregistrés :
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "elevenlabs", model: "scribe_v2" }],
      },
    },
  },
}
OpenClaw envoie l’audio multipart à ElevenLabs /v1/speech-to-text avec model_id: "scribe_v2". Les indications de langue sont mappées vers language_code lorsqu’elles sont présentes.

STT en streaming pour Voice Call

Le Plugin elevenlabs intégré enregistre Scribe v2 Realtime pour la transcription en streaming de Voice Call.
ParamètreChemin de configurationPar défaut
Clé APIplugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKeyRevient à ELEVENLABS_API_KEY / XI_API_KEY
Modèle...elevenlabs.modelIdscribe_v2_realtime
Format audio...elevenlabs.audioFormatulaw_8000
Fréquence d’échantillonnage...elevenlabs.sampleRate8000
Stratégie de validation...elevenlabs.commitStrategyvad
Langue...elevenlabs.languageCode(non défini)
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "elevenlabs",
            providers: {
              elevenlabs: {
                apiKey: "${ELEVENLABS_API_KEY}",
                audioFormat: "ulaw_8000",
                commitStrategy: "vad",
                languageCode: "en",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call reçoit les médias Twilio en G.711 u-law 8 kHz. Le fournisseur realtime ElevenLabs utilise par défaut ulaw_8000, donc les trames de téléphonie peuvent être transmises sans transcodage.