Przejdź do głównej treści

Deepgram (Transkrypcja audio)

Deepgram to API speech-to-text. W OpenClaw jest używane do transkrypcji przychodzącego audio/notatek głosowych przez tools.media.audio. Po włączeniu OpenClaw przesyła plik audio do Deepgram i wstrzykuje transkrypcję do pipeline odpowiedzi ({{Transcript}} + blok [Audio]). To nie jest streaming; używany jest endpoint transkrypcji nagrań wstępnie zarejestrowanych.
SzczegółWartość
Stronadeepgram.com
Dokumentacjadevelopers.deepgram.com
UwierzytelnianieDEEPGRAM_API_KEY
Model domyślnynova-3

Pierwsze kroki

1

Ustaw klucz API

Dodaj klucz API Deepgram do środowiska:
DEEPGRAM_API_KEY=dg_...
2

Włącz dostawcę audio

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Wyślij notatkę głosową

Wyślij wiadomość audio przez dowolny podłączony kanał. OpenClaw transkrybuje ją przez Deepgram i wstrzykuje transkrypcję do pipeline odpowiedzi.

Opcje konfiguracji

OpcjaŚcieżkaOpis
modeltools.media.audio.models[].modelID modelu Deepgram (domyślnie: nova-3)
languagetools.media.audio.models[].languageWskazówka języka (opcjonalnie)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageWłącza wykrywanie języka (opcjonalnie)
punctuatetools.media.audio.providerOptions.deepgram.punctuateWłącza interpunkcję (opcjonalnie)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatWłącza inteligentne formatowanie (opcjonalnie)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Uwagi

Uwierzytelnianie przebiega według standardowej kolejności dostawców. DEEPGRAM_API_KEY to najprostsza ścieżka.
Nadpisz endpointy lub nagłówki za pomocą tools.media.audio.baseUrl i tools.media.audio.headers, gdy używasz proxy.
Wyjście podlega tym samym zasadom audio co u innych dostawców (limity rozmiaru, timeouty, wstrzykiwanie transkrypcji).
Transkrypcja Deepgram działa tylko dla nagrań wstępnie zarejestrowanych (nie dla streamingu w czasie rzeczywistym). OpenClaw przesyła cały plik audio i czeka na pełną transkrypcję, zanim wstrzyknie ją do rozmowy.

Powiązane

Narzędzia mediów

Przegląd pipeline przetwarzania audio, obrazów i wideo.

Konfiguracja

Pełna referencja konfiguracji, w tym ustawienia narzędzi mediów.

Rozwiązywanie problemów

Typowe problemy i kroki debugowania.

FAQ

Najczęściej zadawane pytania dotyczące konfiguracji OpenClaw.