Przejdź do głównej treści

Deepgram (transkrypcja audio)

Deepgram to API speech-to-text. W OpenClaw jest używane do transkrypcji przychodzącego audio/notatek głosowych przez tools.media.audio. Po włączeniu OpenClaw przesyła plik audio do Deepgram i wstrzykuje transkrypcję do pipeline’u odpowiedzi ({{Transcript}} + blok [Audio]). To nie jest streaming; używany jest endpoint transkrypcji nagrań wstępnie zarejestrowanych. Strona: https://deepgram.com
Dokumentacja: https://developers.deepgram.com

Szybki start

  1. Ustaw klucz API:
DEEPGRAM_API_KEY=dg_...
  1. Włącz providera:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Opcje

  • model: identyfikator modelu Deepgram (domyślnie: nova-3)
  • language: wskazówka językowa (opcjonalnie)
  • tools.media.audio.providerOptions.deepgram.detect_language: włącz wykrywanie języka (opcjonalnie)
  • tools.media.audio.providerOptions.deepgram.punctuate: włącz interpunkcję (opcjonalnie)
  • tools.media.audio.providerOptions.deepgram.smart_format: włącz inteligentne formatowanie (opcjonalnie)
Przykład z językiem:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}
Przykład z opcjami Deepgram:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        providerOptions: {
          deepgram: {
            detect_language: true,
            punctuate: true,
            smart_format: true,
          },
        },
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Uwagi

  • Uwierzytelnianie podąża za standardową kolejnością auth providerów; DEEPGRAM_API_KEY to najprostsza ścieżka.
  • Nadpisuj endpointy lub nagłówki przez tools.media.audio.baseUrl i tools.media.audio.headers, gdy używasz proxy.
  • Wynik podlega tym samym regułom audio co u innych providerów (limity rozmiaru, timeouty, wstrzykiwanie transkryptu).