Deepgram to API speech-to-text. W OpenClaw jest używane do transkrypcji przychodzącego audio/notatek głosowych przezDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media.audio oraz do
strumieniowego STT Voice Call przez plugins.entries.voice-call.config.streaming.
W przypadku transkrypcji wsadowej OpenClaw przesyła cały plik audio do Deepgram
i wstrzykuje transkrypt do potoku odpowiedzi ({{Transcript}} +
blok [Audio]). W przypadku strumieniowego Voice Call OpenClaw przekazuje na żywo ramki G.711
u-law przez endpoint WebSocket listen Deepgram i emituje transkrypty częściowe albo
końcowe, gdy Deepgram je zwraca.
| Szczegół | Wartość |
|---|---|
| Strona WWW | deepgram.com |
| Dokumentacja | developers.deepgram.com |
| Uwierzytelnianie | DEEPGRAM_API_KEY |
| Model domyślny | nova-3 |
Pierwsze kroki
Opcje konfiguracji
| Opcja | Ścieżka | Opis |
|---|---|---|
model | tools.media.audio.models[].model | Identyfikator modelu Deepgram (domyślnie: nova-3) |
language | tools.media.audio.models[].language | Wskazówka języka (opcjonalnie) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | Włącz wykrywanie języka (opcjonalnie) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | Włącz interpunkcję (opcjonalnie) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | Włącz inteligentne formatowanie (opcjonalnie) |
- Ze wskazówką języka
- Z opcjami Deepgram
Strumieniowe STT Voice Call
Dołączony Plugindeepgram rejestruje również providera transkrypcji w czasie rzeczywistym
dla Plugin Voice Call.
| Ustawienie | Ścieżka konfiguracji | Domyślnie |
|---|---|---|
| Klucz API | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | Fallback do DEEPGRAM_API_KEY |
| Model | ...deepgram.model | nova-3 |
| Język | ...deepgram.language | (nieustawione) |
| Kodowanie | ...deepgram.encoding | mulaw |
| Częstotliwość próbkowania | ...deepgram.sampleRate | 8000 |
| Endpointing | ...deepgram.endpointingMs | 800 |
| Wyniki pośrednie | ...deepgram.interimResults | true |
Voice Call odbiera dźwięk telefoniczny jako 8 kHz G.711 u-law. Provider
strumieniowy Deepgram domyślnie używa
encoding: "mulaw" i sampleRate: 8000, więc
ramki multimedialne Twilio mogą być przekazywane bezpośrednio.Uwagi
Uwierzytelnianie
Uwierzytelnianie
Uwierzytelnianie przebiega według standardowej kolejności uwierzytelniania providera.
DEEPGRAM_API_KEY to
najprostsza ścieżka.Proxy i własne endpointy
Proxy i własne endpointy
Nadpisz endpointy lub nagłówki przez
tools.media.audio.baseUrl i
tools.media.audio.headers, gdy używasz proxy.Zachowanie wyjścia
Zachowanie wyjścia
Wyjście podlega tym samym zasadom audio co u innych providerów (limity rozmiaru, timeouty,
wstrzykiwanie transkryptu).
Powiązane
Narzędzia multimedialne
Przegląd potoku przetwarzania audio, obrazów i wideo.
Konfiguracja
Pełna dokumentacja konfiguracji, w tym ustawienia narzędzi multimedialnych.
Rozwiązywanie problemów
Typowe problemy i kroki debugowania.
FAQ
Najczęściej zadawane pytania dotyczące konfiguracji OpenClaw.