메인 콘텐츠로 건너뛰기

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram은 speech-to-text API입니다. OpenClaw에서는 tools.media.audio를 통한 인바운드 오디오/음성 노트 transcription과 plugins.entries.voice-call.config.streaming을 통한 Voice Call 스트리밍 STT에 사용됩니다. 배치 transcription의 경우, OpenClaw는 전체 오디오 파일을 Deepgram에 업로드하고 transcript를 응답 파이프라인에 주입합니다({{Transcript}} + [Audio] 블록). Voice Call 스트리밍의 경우, OpenClaw는 실시간 G.711 u-law 프레임을 Deepgram의 WebSocket listen 엔드포인트로 전달하고, Deepgram이 반환하는 partial 또는 final transcript를 내보냅니다.
상세
웹사이트deepgram.com
문서developers.deepgram.com
인증DEEPGRAM_API_KEY
기본 모델nova-3

시작하기

1

API 키 설정

Deepgram API 키를 환경 변수에 추가하세요:
DEEPGRAM_API_KEY=dg_...
2

오디오 provider 활성화

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

음성 노트 보내기

연결된 아무 채널에서나 오디오 메시지를 보내세요. OpenClaw가 이를 Deepgram으로 transcription한 뒤 transcript를 응답 파이프라인에 주입합니다.

구성 옵션

옵션경로설명
modeltools.media.audio.models[].modelDeepgram 모델 id (기본값: nova-3)
languagetools.media.audio.models[].language언어 힌트 (선택 사항)
detect_languagetools.media.audio.providerOptions.deepgram.detect_language언어 감지 활성화 (선택 사항)
punctuatetools.media.audio.providerOptions.deepgram.punctuate문장 부호 활성화 (선택 사항)
smart_formattools.media.audio.providerOptions.deepgram.smart_format스마트 서식 활성화 (선택 사항)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Voice Call 스트리밍 STT

번들 deepgram Plugin은 Voice Call Plugin용 실시간 transcription provider도 등록합니다.
설정config 경로기본값
API 키plugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyDEEPGRAM_API_KEY로 폴백
모델...deepgram.modelnova-3
언어...deepgram.language(unset)
인코딩...deepgram.encodingmulaw
샘플 레이트...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Interim 결과...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call은 전화 음성을 8 kHz G.711 u-law로 받습니다. Deepgram 스트리밍 provider는 기본적으로 encoding: "mulaw"sampleRate: 8000을 사용하므로, Twilio 미디어 프레임을 직접 전달할 수 있습니다.

참고

인증은 표준 provider auth 순서를 따릅니다. 가장 간단한 경로는 DEEPGRAM_API_KEY입니다.
proxy를 사용하는 경우 tools.media.audio.baseUrltools.media.audio.headers로 엔드포인트나 헤더를 override하세요.
출력은 다른 provider와 동일한 오디오 규칙(크기 제한, 타임아웃, transcript 주입)을 따릅니다.

관련 항목

미디어 도구

오디오, 이미지, 비디오 처리 파이프라인 개요.

구성

미디어 도구 설정을 포함한 전체 config 참조.

문제 해결

일반적인 문제와 디버깅 단계.

FAQ

OpenClaw 설정에 관한 자주 묻는 질문.