Deepgram(音声文字起こし)
Deepgram は speech-to-text API です。OpenClaw では、tools.media.audio を通じた受信 audio/voice note の文字起こしに使用されます。
有効にすると、OpenClaw は音声ファイルを Deepgram にアップロードし、文字起こし結果を reply pipeline({{Transcript}} + [Audio] ブロック)に注入します。これはストリーミングではなく、事前録音文字起こしエンドポイントを使用します。
| Detail | Value |
|---|---|
| Website | deepgram.com |
| Docs | developers.deepgram.com |
| Auth | DEEPGRAM_API_KEY |
| Default model | nova-3 |
はじめに
設定オプション
| Option | Path | Description |
|---|---|---|
model | tools.media.audio.models[].model | Deepgram model ID(デフォルト: nova-3) |
language | tools.media.audio.models[].language | 言語ヒント(任意) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | 言語検出を有効にする(任意) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | 句読点を有効にする(任意) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | スマートフォーマットを有効にする(任意) |
- With language hint
- With Deepgram options
注意事項
Authentication
Authentication
認証は標準の provider 認証順序に従います。最も簡単な方法は
DEEPGRAM_API_KEY です。Proxy and custom endpoints
Proxy and custom endpoints
プロキシを使用する場合は、
tools.media.audio.baseUrl と
tools.media.audio.headers でエンドポイントまたはヘッダーを上書きできます。Output behavior
Output behavior
出力は、他の provider と同じ audio ルール(サイズ上限、タイムアウト、
transcript 注入)に従います。
Deepgram の文字起こしは事前録音のみです(リアルタイムストリーミングではありません)。OpenClaw は完全な音声ファイルをアップロードし、全文の transcript を待ってから会話に注入します。
関連
Media tools
audio、image、video 処理パイプラインの概要。
Configuration
media tool 設定を含む完全な設定リファレンス。
Troubleshooting
よくある問題とデバッグ手順。
FAQ
OpenClaw セットアップに関するよくある質問。