メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram は speech-to-text API です。OpenClaw では、 tools.media.audio を通じた受信音声/ボイスノートの文字起こし、および plugins.entries.voice-call.config.streaming を通じた Voice Call のストリーミング STT に使用されます。 バッチ文字起こしでは、OpenClaw は完全な音声ファイルを Deepgram にアップロードし、 文字起こし結果を返信パイプラインに注入します({{Transcript}} + [Audio] block)。Voice Call のストリーミングでは、OpenClaw は live な G.711 u-law frame を Deepgram の WebSocket listen endpoint へ転送し、Deepgram が返す partial または final transcript を発行します。
DetailValue
Websitedeepgram.com
Docsdevelopers.deepgram.com
AuthDEEPGRAM_API_KEY
Default modelnova-3

はじめに

1

API key を設定する

Deepgram API key を環境変数に追加します。
DEEPGRAM_API_KEY=dg_...
2

音声 provider を有効化する

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

ボイスノートを送る

接続済みの任意の channel から音声メッセージを送ってください。OpenClaw は Deepgram 経由でそれを文字起こしし、その transcript を返信パイプラインに注入します。

設定オプション

OptionPathDescription
modeltools.media.audio.models[].modelDeepgram model id(デフォルト: nova-3
languagetools.media.audio.models[].language言語ヒント(任意)
detect_languagetools.media.audio.providerOptions.deepgram.detect_language言語検出を有効化(任意)
punctuatetools.media.audio.providerOptions.deepgram.punctuate句読点付与を有効化(任意)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatスマート整形を有効化(任意)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Voice Call ストリーミング STT

バンドル済みの deepgram Plugin は、Voice Call Plugin 向けの realtime transcription provider も登録します。
SettingConfig pathDefault
API keyplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyDEEPGRAM_API_KEY にフォールバック
Model...deepgram.modelnova-3
Language...deepgram.language(未設定)
Encoding...deepgram.encodingmulaw
Sample rate...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Interim results...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call は、8 kHz G.711 u-law の電話音声を受信します。Deepgram streaming provider のデフォルトは encoding: "mulaw"sampleRate: 8000 なので、 Twilio の media frame をそのまま直接転送できます。

注意

認証は標準の provider auth 順序に従います。最も簡単なのは DEEPGRAM_API_KEY を使う方法です。
proxy を使用する場合は、tools.media.audio.baseUrltools.media.audio.headers で endpoint または header を上書きします。
出力は他の provider と同じ音声ルールに従います(size cap、timeout、 transcript injection)。

関連

Media tools

音声、画像、および動画処理パイプラインの概要。

Configuration

media tool 設定を含む完全な設定リファレンス。

Troubleshooting

一般的な問題とデバッグ手順。

FAQ

OpenClaw セットアップに関するよくある質問。