Deepgram è un’API di speech-to-text. In OpenClaw viene usata per la trascrizione in ingresso di audio/note vocali tramiteDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media.audio e per la STT in streaming di Voice Call tramite plugins.entries.voice-call.config.streaming.
Per la trascrizione batch, OpenClaw carica il file audio completo su Deepgram
e inietta la trascrizione nella pipeline di risposta ({{Transcript}} +
blocco [Audio]). Per la trascrizione in streaming di Voice Call, OpenClaw inoltra frame live G.711
u-law tramite l’endpoint WebSocket listen di Deepgram ed emette trascrizioni parziali o
finali man mano che Deepgram le restituisce.
| Dettaglio | Valore |
|---|---|
| Sito web | deepgram.com |
| Documentazione | developers.deepgram.com |
| Autenticazione | DEEPGRAM_API_KEY |
| Modello predefinito | nova-3 |
Per iniziare
Opzioni di configurazione
| Opzione | Percorso | Descrizione |
|---|---|---|
model | tools.media.audio.models[].model | Id modello Deepgram (predefinito: nova-3) |
language | tools.media.audio.models[].language | Suggerimento lingua (facoltativo) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | Abilita il rilevamento della lingua (facoltativo) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | Abilita la punteggiatura (facoltativo) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | Abilita la formattazione intelligente (facoltativo) |
- Con suggerimento lingua
- Con opzioni Deepgram
STT in streaming di Voice Call
Il Plugin inclusodeepgram registra anche un provider di trascrizione realtime
per il Plugin Voice Call.
| Impostazione | Percorso di configurazione | Predefinito |
|---|---|---|
| Chiave API | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | Usa DEEPGRAM_API_KEY come fallback |
| Modello | ...deepgram.model | nova-3 |
| Lingua | ...deepgram.language | (non impostata) |
| Encoding | ...deepgram.encoding | mulaw |
| Frequenza di campionamento | ...deepgram.sampleRate | 8000 |
| Endpointing | ...deepgram.endpointingMs | 800 |
| Risultati intermedi | ...deepgram.interimResults | true |
Voice Call riceve audio telefonico come G.711 u-law a 8 kHz. Il provider
streaming Deepgram usa come predefiniti
encoding: "mulaw" e sampleRate: 8000, quindi
i frame media di Twilio possono essere inoltrati direttamente.Note
Autenticazione
Autenticazione
L’autenticazione segue l’ordine standard di autenticazione del provider.
DEEPGRAM_API_KEY è
il percorso più semplice.Proxy ed endpoint personalizzati
Proxy ed endpoint personalizzati
Sovrascrivi endpoint o header con
tools.media.audio.baseUrl e
tools.media.audio.headers quando usi un proxy.Comportamento dell'output
Comportamento dell'output
L’output segue le stesse regole audio degli altri provider (limiti di dimensione, timeout,
iniezione della trascrizione).
Correlati
Strumenti media
Panoramica della pipeline di elaborazione audio, immagini e video.
Configurazione
Riferimento completo della configurazione, incluse le impostazioni degli strumenti media.
Risoluzione dei problemi
Problemi comuni e passaggi di debug.
FAQ
Domande frequenti sulla configurazione di OpenClaw.