Deepgram

Deepgram to API speech-to-text. W OpenClaw jest używane do transkrypcji przychodzącego audio/notatek głosowych przez tools.media.audio oraz do strumieniowego STT Voice Call przez plugins.entries.voice-call.config.streaming. W przypadku transkrypcji wsadowej OpenClaw przesyła cały plik audio do Deepgram i wstrzykuje transkrypt do potoku odpowiedzi ({{Transcript}} + blok [Audio]). W przypadku strumieniowego Voice Call OpenClaw przekazuje na żywo ramki G.711 u-law przez endpoint WebSocket listen Deepgram i emituje transkrypty częściowe albo końcowe, gdy Deepgram je zwraca.

Szczegół	Wartość
Strona WWW	deepgram.com
Dokumentacja	developers.deepgram.com
Uwierzytelnianie	`DEEPGRAM_API_KEY`
Model domyślny	`nova-3`

Pierwsze kroki

Ustaw klucz API

Dodaj klucz API Deepgram do środowiska:

DEEPGRAM_API_KEY=dg_...

Włącz providera audio

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Wyślij notatkę głosową

Wyślij wiadomość audio przez dowolny połączony kanał. OpenClaw transkrybuje ją przez Deepgram i wstrzykuje transkrypt do potoku odpowiedzi.

Opcje konfiguracji

Opcja	Ścieżka	Opis
`model`	`tools.media.audio.models[].model`	Identyfikator modelu Deepgram (domyślnie: `nova-3`)
`language`	`tools.media.audio.models[].language`	Wskazówka języka (opcjonalnie)
`detect_language`	`tools.media.audio.providerOptions.deepgram.detect_language`	Włącz wykrywanie języka (opcjonalnie)
`punctuate`	`tools.media.audio.providerOptions.deepgram.punctuate`	Włącz interpunkcję (opcjonalnie)
`smart_format`	`tools.media.audio.providerOptions.deepgram.smart_format`	Włącz inteligentne formatowanie (opcjonalnie)

Ze wskazówką języka
Z opcjami Deepgram

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

{
  tools: {
    media: {
      audio: {
        enabled: true,
        providerOptions: {
          deepgram: {
            detect_language: true,
            punctuate: true,
            smart_format: true,
          },
        },
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Strumieniowe STT Voice Call

Dołączony Plugin deepgram rejestruje również providera transkrypcji w czasie rzeczywistym dla Plugin Voice Call.

Ustawienie	Ścieżka konfiguracji	Domyślnie
Klucz API	`plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey`	Fallback do `DEEPGRAM_API_KEY`
Model	`...deepgram.model`	`nova-3`
Język	`...deepgram.language`	(nieustawione)
Kodowanie	`...deepgram.encoding`	`mulaw`
Częstotliwość próbkowania	`...deepgram.sampleRate`	`8000`
Endpointing	`...deepgram.endpointingMs`	`800`
Wyniki pośrednie	`...deepgram.interimResults`	`true`

{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}

Voice Call odbiera dźwięk telefoniczny jako 8 kHz G.711 u-law. Provider strumieniowy Deepgram domyślnie używa encoding: "mulaw" i sampleRate: 8000, więc ramki multimedialne Twilio mogą być przekazywane bezpośrednio.

Uwagi

Uwierzytelnianie

Uwierzytelnianie przebiega według standardowej kolejności uwierzytelniania providera. DEEPGRAM_API_KEY to najprostsza ścieżka.

Proxy i własne endpointy

Nadpisz endpointy lub nagłówki przez tools.media.audio.baseUrl i tools.media.audio.headers, gdy używasz proxy.

Zachowanie wyjścia

Wyjście podlega tym samym zasadom audio co u innych providerów (limity rozmiaru, timeouty, wstrzykiwanie transkryptu).

Powiązane

Narzędzia multimedialne

Przegląd potoku przetwarzania audio, obrazów i wideo.

Konfiguracja

Pełna dokumentacja konfiguracji, w tym ustawienia narzędzi multimedialnych.

Rozwiązywanie problemów

Typowe problemy i kroki debugowania.

FAQ

Najczęściej zadawane pytania dotyczące konfiguracji OpenClaw.

Overview

Concepts and configuration

Providers

Pierwsze kroki

Opcje konfiguracji

Strumieniowe STT Voice Call

Uwagi

Powiązane

Narzędzia multimedialne

Konfiguracja

Rozwiązywanie problemów

FAQ

Overview

Concepts and configuration

Providers

Documentation Index

​Pierwsze kroki

​Opcje konfiguracji

​Strumieniowe STT Voice Call

​Uwagi

​Powiązane

Narzędzia multimedialne

Konfiguracja

Rozwiązywanie problemów

FAQ

Pierwsze kroki

Opcje konfiguracji

Strumieniowe STT Voice Call

Uwagi

Powiązane