跳转到主要内容

Deepgram(音频转录)

Deepgram 是一个语音转文本 API。在 OpenClaw 中,它用于通过 tools.media.audio 进行入站音频/语音便笺转录 启用后,OpenClaw 会将音频文件上传到 Deepgram,并将转录文本注入回复流水线中({{Transcript}} + [Audio] 区块)。这不是流式传输;它使用预录音转录端点。
详情
网站deepgram.com
文档developers.deepgram.com
认证DEEPGRAM_API_KEY
默认模型nova-3

入门指南

1

设置你的 API 密钥

将你的 Deepgram API 密钥添加到环境变量中:
DEEPGRAM_API_KEY=dg_...
2

启用音频提供商

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

发送语音便笺

通过任意已连接的渠道发送一条音频消息。OpenClaw 会通过 Deepgram 对其进行转录,并将转录文本注入回复流水线中。

配置选项

选项路径说明
modeltools.media.audio.models[].modelDeepgram 模型 ID(默认:nova-3
languagetools.media.audio.models[].language语言提示(可选)
detect_languagetools.media.audio.providerOptions.deepgram.detect_language启用语言检测(可选)
punctuatetools.media.audio.providerOptions.deepgram.punctuate启用标点(可选)
smart_formattools.media.audio.providerOptions.deepgram.smart_format启用智能格式化(可选)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

说明

身份验证遵循标准的提供商认证顺序。DEEPGRAM_API_KEY 是最简单的方式。
使用代理时,可通过 tools.media.audio.baseUrltools.media.audio.headers 覆盖端点或请求头。
输出遵循与其他提供商相同的音频规则(大小上限、超时、转录文本注入)。
Deepgram 转录仅支持预录音(不是实时分块流式传输)。OpenClaw 会上传完整的音频文件,并在将其注入对话之前等待完整的转录结果。

相关内容

媒体工具

音频、图像和视频处理流水线概览。

配置

完整的配置参考,包括媒体工具设置。

故障排除

常见问题和调试步骤。

常见问题

关于 OpenClaw 设置的常见问题。