Deepgram ist eine Speech-to-Text-API. In OpenClaw wird sie für die Transkription eingehender Audio-/Sprachnachrichten überDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media.audio und für Streaming-STT in Voice Call
über plugins.entries.voice-call.config.streaming verwendet.
Für Batch-Transkription lädt OpenClaw die vollständige Audiodatei zu Deepgram hoch
und fügt das Transkript in die Antwortpipeline ein ({{Transcript}} +
[Audio]-Block). Für Streaming in Voice Call leitet OpenClaw Live-G.711-
u-law-Frames über Deepgrams WebSocket-Endpunkt listen weiter und gibt partielle oder
finale Transkripte aus, sobald Deepgram sie zurückliefert.
| Detail | Wert |
|---|---|
| Website | deepgram.com |
| Dokumentation | developers.deepgram.com |
| Authentifizierung | DEEPGRAM_API_KEY |
| Standardmodell | nova-3 |
Erste Schritte
Konfigurationsoptionen
| Option | Pfad | Beschreibung |
|---|---|---|
model | tools.media.audio.models[].model | Deepgram-Modell-ID (Standard: nova-3) |
language | tools.media.audio.models[].language | Sprachhinweis (optional) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | Spracherkennung aktivieren (optional) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | Zeichensetzung aktivieren (optional) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | Intelligente Formatierung aktivieren (optional) |
- Mit Sprachhinweis
- Mit Deepgram-Optionen
Streaming-STT für Voice Call
Das gebündeltedeepgram-Plugin registriert auch einen Echtzeit-Transkriptionsprovider
für das Voice Call-Plugin.
| Einstellung | Konfigurationspfad | Standard |
|---|---|---|
| API-Schlüssel | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | Fällt auf DEEPGRAM_API_KEY zurück |
| Modell | ...deepgram.model | nova-3 |
| Sprache | ...deepgram.language | (nicht gesetzt) |
| Kodierung | ...deepgram.encoding | mulaw |
| Abtastrate | ...deepgram.sampleRate | 8000 |
| Endpointing | ...deepgram.endpointingMs | 800 |
| Zwischenergebnisse | ...deepgram.interimResults | true |
Voice Call empfängt Telefonie-Audio als 8-kHz-G.711-u-law. Der Deepgram-
Streaming-Provider verwendet standardmäßig
encoding: "mulaw" und sampleRate: 8000, sodass
Twilio-Medienframes direkt weitergeleitet werden können.Hinweise
Authentifizierung
Authentifizierung
Die Authentifizierung folgt der standardmäßigen Auth-Reihenfolge für Provider.
DEEPGRAM_API_KEY ist
der einfachste Weg.Proxy und benutzerdefinierte Endpunkte
Proxy und benutzerdefinierte Endpunkte
Überschreiben Sie Endpunkte oder Header mit
tools.media.audio.baseUrl und
tools.media.audio.headers, wenn Sie einen Proxy verwenden.Ausgabeverhalten
Ausgabeverhalten
Die Ausgabe folgt denselben Audioregeln wie bei anderen Providern (Größenlimits, Timeouts,
Transkript-Einfügung).
Verwandt
Media-Tools
Überblick über die Audio-, Bild- und Videoverarbeitungspipeline.
Konfiguration
Vollständige Konfigurationsreferenz einschließlich der Einstellungen für Media-Tools.
Fehlerbehebung
Häufige Probleme und Schritte zur Fehlerbehebung.
FAQ
Häufig gestellte Fragen zur Einrichtung von OpenClaw.