跳轉到主要內容

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram 是語音轉文字 API。在 OpenClaw 中,它透過 tools.media.audio 用於傳入音訊/語音訊息轉錄,並透過 plugins.entries.voice-call.config.streaming 用於 Voice Call 串流 STT。 對於批次轉錄,OpenClaw 會將完整音訊檔案上傳到 Deepgram,並將轉錄稿注入回覆管線({{Transcript}} + [Audio] 區塊)。對於 Voice Call 串流,OpenClaw 會透過 Deepgram 的 WebSocket listen 端點轉送即時 G.711 u-law 影格,並在 Deepgram 傳回時發出部分或最終轉錄稿。
詳細資訊
網站deepgram.com
文件developers.deepgram.com
驗證DEEPGRAM_API_KEY
預設模型nova-3

開始使用

1

設定你的 API 金鑰

將你的 Deepgram API 金鑰加入環境:
DEEPGRAM_API_KEY=dg_...
2

啟用音訊供應商

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

傳送語音訊息

透過任何已連線的通道傳送音訊訊息。OpenClaw 會透過 Deepgram 轉錄它,並將轉錄稿注入回覆管線。

設定選項

選項路徑說明
modeltools.media.audio.models[].modelDeepgram 模型 ID(預設:nova-3
languagetools.media.audio.models[].language語言提示(選用)
detect_languagetools.media.audio.providerOptions.deepgram.detect_language啟用語言偵測(選用)
punctuatetools.media.audio.providerOptions.deepgram.punctuate啟用標點符號(選用)
smart_formattools.media.audio.providerOptions.deepgram.smart_format啟用智慧格式化(選用)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Voice Call 串流 STT

隨附的 deepgram Plugin 也會為 Voice Call Plugin 註冊即時轉錄供應商。
設定設定路徑預設值
API 金鑰plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey回退至 DEEPGRAM_API_KEY
模型...deepgram.modelnova-3
語言...deepgram.language(未設定)
編碼...deepgram.encodingmulaw
取樣率...deepgram.sampleRate8000
端點偵測...deepgram.endpointingMs800
暫時結果...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call 會以 8 kHz G.711 u-law 接收電話音訊。Deepgram 串流供應商預設為 encoding: "mulaw"sampleRate: 8000,因此可以直接轉送 Twilio 媒體影格。

備註

驗證會遵循標準供應商驗證順序。DEEPGRAM_API_KEY 是最簡單的路徑。
使用 Proxy 時,可透過 tools.media.audio.baseUrltools.media.audio.headers 覆寫端點或標頭。
輸出會遵循與其他供應商相同的音訊規則(大小上限、逾時、轉錄稿注入)。

相關

媒體工具

音訊、影像和影片處理管線概觀。

設定

包含媒體工具設定的完整設定參考。

疑難排解

常見問題和偵錯步驟。

FAQ

關於 OpenClaw 設定的常見問題。