Deepgram

Deepgram est une API de reconnaissance vocale. Dans OpenClaw, elle est utilisée pour la transcription des fichiers audio/notes vocales entrants via tools.media.audio et pour la reconnaissance vocale en streaming de Voice Call via plugins.entries.voice-call.config.streaming. Pour la transcription par lot, OpenClaw téléverse le fichier audio complet vers Deepgram et injecte la transcription dans le pipeline de réponse ({{Transcript}} + bloc [Audio]). Pour la transcription en streaming Voice Call, OpenClaw transfère des trames G.711 u-law live via le point de terminaison WebSocket listen de Deepgram et émet des transcriptions partielles ou finales à mesure que Deepgram les renvoie.

Détail	Valeur
Site web	deepgram.com
Documentation	developers.deepgram.com
Authentification	`DEEPGRAM_API_KEY`
Modèle par défaut	`nova-3`

Démarrage

Définir votre clé API

Ajoutez votre clé API Deepgram à l’environnement :

DEEPGRAM_API_KEY=dg_...

Activer le fournisseur audio

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Envoyer une note vocale

Envoyez un message audio via n’importe quel canal connecté. OpenClaw le transcrit via Deepgram et injecte la transcription dans le pipeline de réponse.

Options de configuration

Option	Chemin	Description
`model`	`tools.media.audio.models[].model`	Identifiant du modèle Deepgram (par défaut : `nova-3`)
`language`	`tools.media.audio.models[].language`	Indice de langue (facultatif)
`detect_language`	`tools.media.audio.providerOptions.deepgram.detect_language`	Activer la détection de langue (facultatif)
`punctuate`	`tools.media.audio.providerOptions.deepgram.punctuate`	Activer la ponctuation (facultatif)
`smart_format`	`tools.media.audio.providerOptions.deepgram.smart_format`	Activer le formatage intelligent (facultatif)

Avec un indice de langue
Avec les options Deepgram

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

{
  tools: {
    media: {
      audio: {
        enabled: true,
        providerOptions: {
          deepgram: {
            detect_language: true,
            punctuate: true,
            smart_format: true,
          },
        },
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Reconnaissance vocale en streaming Voice Call

Le Plugin intégré deepgram enregistre aussi un fournisseur de transcription temps réel pour le Plugin Voice Call.

Paramètre	Chemin de configuration	Par défaut
Clé API	`plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey`	Se replie sur `DEEPGRAM_API_KEY`
Modèle	`...deepgram.model`	`nova-3`
Langue	`...deepgram.language`	(non défini)
Encodage	`...deepgram.encoding`	`mulaw`
Taux d’échantillonnage	`...deepgram.sampleRate`	`8000`
Endpointing	`...deepgram.endpointingMs`	`800`
Résultats intermédiaires	`...deepgram.interimResults`	`true`

{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}

Voice Call reçoit l’audio téléphonique en G.711 u-law 8 kHz. Le fournisseur de streaming Deepgram utilise par défaut encoding: "mulaw" et sampleRate: 8000, de sorte que les trames média Twilio peuvent être transférées directement.

Remarques

Authentification

L’authentification suit l’ordre standard d’authentification des fournisseurs. DEEPGRAM_API_KEY est le chemin le plus simple.

Proxy et points de terminaison personnalisés

Remplacez les points de terminaison ou les en-têtes avec tools.media.audio.baseUrl et tools.media.audio.headers lors de l’utilisation d’un proxy.

Comportement de sortie

La sortie suit les mêmes règles audio que les autres fournisseurs (plafonds de taille, délais, injection de transcription).

Liens associés

Outils média

Vue d’ensemble du pipeline de traitement audio, image et vidéo.

Configuration

Référence complète de configuration, y compris les paramètres des outils média.

Dépannage

Problèmes courants et étapes de débogage.

FAQ

Questions fréquemment posées sur la configuration d’OpenClaw.

Overview

Concepts and configuration

Providers

Démarrage

Options de configuration

Reconnaissance vocale en streaming Voice Call

Remarques

Liens associés

Outils média

Configuration

Dépannage

FAQ

Overview

Concepts and configuration

Providers

Documentation Index

​Démarrage

​Options de configuration

​Reconnaissance vocale en streaming Voice Call

​Remarques

​Liens associés

Outils média

Configuration

Dépannage

FAQ

Démarrage

Options de configuration

Reconnaissance vocale en streaming Voice Call

Remarques

Liens associés