Przejdź do głównej treści

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram to API speech-to-text. W OpenClaw jest używane do transkrypcji przychodzącego audio/notatek głosowych przez tools.media.audio oraz do strumieniowego STT Voice Call przez plugins.entries.voice-call.config.streaming. W przypadku transkrypcji wsadowej OpenClaw przesyła cały plik audio do Deepgram i wstrzykuje transkrypt do potoku odpowiedzi ({{Transcript}} + blok [Audio]). W przypadku strumieniowego Voice Call OpenClaw przekazuje na żywo ramki G.711 u-law przez endpoint WebSocket listen Deepgram i emituje transkrypty częściowe albo końcowe, gdy Deepgram je zwraca.
SzczegółWartość
Strona WWWdeepgram.com
Dokumentacjadevelopers.deepgram.com
UwierzytelnianieDEEPGRAM_API_KEY
Model domyślnynova-3

Pierwsze kroki

1

Ustaw klucz API

Dodaj klucz API Deepgram do środowiska:
DEEPGRAM_API_KEY=dg_...
2

Włącz providera audio

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Wyślij notatkę głosową

Wyślij wiadomość audio przez dowolny połączony kanał. OpenClaw transkrybuje ją przez Deepgram i wstrzykuje transkrypt do potoku odpowiedzi.

Opcje konfiguracji

OpcjaŚcieżkaOpis
modeltools.media.audio.models[].modelIdentyfikator modelu Deepgram (domyślnie: nova-3)
languagetools.media.audio.models[].languageWskazówka języka (opcjonalnie)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageWłącz wykrywanie języka (opcjonalnie)
punctuatetools.media.audio.providerOptions.deepgram.punctuateWłącz interpunkcję (opcjonalnie)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatWłącz inteligentne formatowanie (opcjonalnie)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Strumieniowe STT Voice Call

Dołączony Plugin deepgram rejestruje również providera transkrypcji w czasie rzeczywistym dla Plugin Voice Call.
UstawienieŚcieżka konfiguracjiDomyślnie
Klucz APIplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyFallback do DEEPGRAM_API_KEY
Model...deepgram.modelnova-3
Język...deepgram.language(nieustawione)
Kodowanie...deepgram.encodingmulaw
Częstotliwość próbkowania...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Wyniki pośrednie...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call odbiera dźwięk telefoniczny jako 8 kHz G.711 u-law. Provider strumieniowy Deepgram domyślnie używa encoding: "mulaw" i sampleRate: 8000, więc ramki multimedialne Twilio mogą być przekazywane bezpośrednio.

Uwagi

Uwierzytelnianie przebiega według standardowej kolejności uwierzytelniania providera. DEEPGRAM_API_KEY to najprostsza ścieżka.
Nadpisz endpointy lub nagłówki przez tools.media.audio.baseUrl i tools.media.audio.headers, gdy używasz proxy.
Wyjście podlega tym samym zasadom audio co u innych providerów (limity rozmiaru, timeouty, wstrzykiwanie transkryptu).

Powiązane

Narzędzia multimedialne

Przegląd potoku przetwarzania audio, obrazów i wideo.

Konfiguracja

Pełna dokumentacja konfiguracji, w tym ustawienia narzędzi multimedialnych.

Rozwiązywanie problemów

Typowe problemy i kroki debugowania.

FAQ

Najczęściej zadawane pytania dotyczące konfiguracji OpenClaw.