Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram ist eine Speech-to-Text-API. In OpenClaw wird sie für die Transkription eingehender Audio-/Sprachnachrichten über tools.media.audio und für Streaming-STT in Voice Call über plugins.entries.voice-call.config.streaming verwendet. Für Batch-Transkription lädt OpenClaw die vollständige Audiodatei zu Deepgram hoch und fügt das Transkript in die Antwortpipeline ein ({{Transcript}} + [Audio]-Block). Für Streaming in Voice Call leitet OpenClaw Live-G.711- u-law-Frames über Deepgrams WebSocket-Endpunkt listen weiter und gibt partielle oder finale Transkripte aus, sobald Deepgram sie zurückliefert.
DetailWert
Websitedeepgram.com
Dokumentationdevelopers.deepgram.com
AuthentifizierungDEEPGRAM_API_KEY
Standardmodellnova-3

Erste Schritte

1

API-Schlüssel festlegen

Fügen Sie Ihren Deepgram-API-Schlüssel zur Umgebung hinzu:
DEEPGRAM_API_KEY=dg_...
2

Audioprovier aktivieren

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Sprachnachricht senden

Senden Sie eine Audionachricht über einen beliebigen verbundenen Kanal. OpenClaw transkribiert sie über Deepgram und fügt das Transkript in die Antwortpipeline ein.

Konfigurationsoptionen

OptionPfadBeschreibung
modeltools.media.audio.models[].modelDeepgram-Modell-ID (Standard: nova-3)
languagetools.media.audio.models[].languageSprachhinweis (optional)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageSpracherkennung aktivieren (optional)
punctuatetools.media.audio.providerOptions.deepgram.punctuateZeichensetzung aktivieren (optional)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatIntelligente Formatierung aktivieren (optional)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Streaming-STT für Voice Call

Das gebündelte deepgram-Plugin registriert auch einen Echtzeit-Transkriptionsprovider für das Voice Call-Plugin.
EinstellungKonfigurationspfadStandard
API-Schlüsselplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyFällt auf DEEPGRAM_API_KEY zurück
Modell...deepgram.modelnova-3
Sprache...deepgram.language(nicht gesetzt)
Kodierung...deepgram.encodingmulaw
Abtastrate...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Zwischenergebnisse...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call empfängt Telefonie-Audio als 8-kHz-G.711-u-law. Der Deepgram- Streaming-Provider verwendet standardmäßig encoding: "mulaw" und sampleRate: 8000, sodass Twilio-Medienframes direkt weitergeleitet werden können.

Hinweise

Die Authentifizierung folgt der standardmäßigen Auth-Reihenfolge für Provider. DEEPGRAM_API_KEY ist der einfachste Weg.
Überschreiben Sie Endpunkte oder Header mit tools.media.audio.baseUrl und tools.media.audio.headers, wenn Sie einen Proxy verwenden.
Die Ausgabe folgt denselben Audioregeln wie bei anderen Providern (Größenlimits, Timeouts, Transkript-Einfügung).

Verwandt

Media-Tools

Überblick über die Audio-, Bild- und Videoverarbeitungspipeline.

Konfiguration

Vollständige Konfigurationsreferenz einschließlich der Einstellungen für Media-Tools.

Fehlerbehebung

Häufige Probleme und Schritte zur Fehlerbehebung.

FAQ

Häufig gestellte Fragen zur Einrichtung von OpenClaw.