Vai al contenuto principale

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram è un’API di speech-to-text. In OpenClaw viene usata per la trascrizione in ingresso di audio/note vocali tramite tools.media.audio e per la STT in streaming di Voice Call tramite plugins.entries.voice-call.config.streaming. Per la trascrizione batch, OpenClaw carica il file audio completo su Deepgram e inietta la trascrizione nella pipeline di risposta ({{Transcript}} + blocco [Audio]). Per la trascrizione in streaming di Voice Call, OpenClaw inoltra frame live G.711 u-law tramite l’endpoint WebSocket listen di Deepgram ed emette trascrizioni parziali o finali man mano che Deepgram le restituisce.
DettaglioValore
Sito webdeepgram.com
Documentazionedevelopers.deepgram.com
AutenticazioneDEEPGRAM_API_KEY
Modello predefinitonova-3

Per iniziare

1

Imposta la tua chiave API

Aggiungi la tua chiave API Deepgram all’ambiente:
DEEPGRAM_API_KEY=dg_...
2

Abilita il provider audio

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Invia una nota vocale

Invia un messaggio audio tramite qualsiasi canale collegato. OpenClaw lo trascrive tramite Deepgram e inietta la trascrizione nella pipeline di risposta.

Opzioni di configurazione

OpzionePercorsoDescrizione
modeltools.media.audio.models[].modelId modello Deepgram (predefinito: nova-3)
languagetools.media.audio.models[].languageSuggerimento lingua (facoltativo)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageAbilita il rilevamento della lingua (facoltativo)
punctuatetools.media.audio.providerOptions.deepgram.punctuateAbilita la punteggiatura (facoltativo)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatAbilita la formattazione intelligente (facoltativo)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

STT in streaming di Voice Call

Il Plugin incluso deepgram registra anche un provider di trascrizione realtime per il Plugin Voice Call.
ImpostazionePercorso di configurazionePredefinito
Chiave APIplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyUsa DEEPGRAM_API_KEY come fallback
Modello...deepgram.modelnova-3
Lingua...deepgram.language(non impostata)
Encoding...deepgram.encodingmulaw
Frequenza di campionamento...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Risultati intermedi...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call riceve audio telefonico come G.711 u-law a 8 kHz. Il provider streaming Deepgram usa come predefiniti encoding: "mulaw" e sampleRate: 8000, quindi i frame media di Twilio possono essere inoltrati direttamente.

Note

L’autenticazione segue l’ordine standard di autenticazione del provider. DEEPGRAM_API_KEY è il percorso più semplice.
Sovrascrivi endpoint o header con tools.media.audio.baseUrl e tools.media.audio.headers quando usi un proxy.
L’output segue le stesse regole audio degli altri provider (limiti di dimensione, timeout, iniezione della trascrizione).

Correlati

Strumenti media

Panoramica della pipeline di elaborazione audio, immagini e video.

Configurazione

Riferimento completo della configurazione, incluse le impostazioni degli strumenti media.

Risoluzione dei problemi

Problemi comuni e passaggi di debug.

FAQ

Domande frequenti sulla configurazione di OpenClaw.