Deepgram est une API de reconnaissance vocale. Dans OpenClaw, elle est utilisée pour la transcription des fichiers audio/notes vocales entrants viaDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media.audio et pour la
reconnaissance vocale en streaming de Voice Call via plugins.entries.voice-call.config.streaming.
Pour la transcription par lot, OpenClaw téléverse le fichier audio complet vers Deepgram
et injecte la transcription dans le pipeline de réponse ({{Transcript}} +
bloc [Audio]). Pour la transcription en streaming Voice Call, OpenClaw transfère des trames G.711
u-law live via le point de terminaison WebSocket listen de Deepgram et émet des transcriptions partielles ou
finales à mesure que Deepgram les renvoie.
| Détail | Valeur |
|---|---|
| Site web | deepgram.com |
| Documentation | developers.deepgram.com |
| Authentification | DEEPGRAM_API_KEY |
| Modèle par défaut | nova-3 |
Démarrage
Options de configuration
| Option | Chemin | Description |
|---|---|---|
model | tools.media.audio.models[].model | Identifiant du modèle Deepgram (par défaut : nova-3) |
language | tools.media.audio.models[].language | Indice de langue (facultatif) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | Activer la détection de langue (facultatif) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | Activer la ponctuation (facultatif) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | Activer le formatage intelligent (facultatif) |
- Avec un indice de langue
- Avec les options Deepgram
Reconnaissance vocale en streaming Voice Call
Le Plugin intégrédeepgram enregistre aussi un fournisseur de transcription temps réel
pour le Plugin Voice Call.
| Paramètre | Chemin de configuration | Par défaut |
|---|---|---|
| Clé API | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | Se replie sur DEEPGRAM_API_KEY |
| Modèle | ...deepgram.model | nova-3 |
| Langue | ...deepgram.language | (non défini) |
| Encodage | ...deepgram.encoding | mulaw |
| Taux d’échantillonnage | ...deepgram.sampleRate | 8000 |
| Endpointing | ...deepgram.endpointingMs | 800 |
| Résultats intermédiaires | ...deepgram.interimResults | true |
Voice Call reçoit l’audio téléphonique en G.711 u-law 8 kHz. Le fournisseur
de streaming Deepgram utilise par défaut
encoding: "mulaw" et sampleRate: 8000, de sorte que
les trames média Twilio peuvent être transférées directement.Remarques
Authentification
Authentification
L’authentification suit l’ordre standard d’authentification des fournisseurs.
DEEPGRAM_API_KEY est
le chemin le plus simple.Proxy et points de terminaison personnalisés
Proxy et points de terminaison personnalisés
Remplacez les points de terminaison ou les en-têtes avec
tools.media.audio.baseUrl et
tools.media.audio.headers lors de l’utilisation d’un proxy.Comportement de sortie
Comportement de sortie
La sortie suit les mêmes règles audio que les autres fournisseurs (plafonds de taille, délais,
injection de transcription).
Liens associés
Outils média
Vue d’ensemble du pipeline de traitement audio, image et vidéo.
Configuration
Référence complète de configuration, y compris les paramètres des outils média.
Dépannage
Problèmes courants et étapes de débogage.
FAQ
Questions fréquemment posées sur la configuration d’OpenClaw.