Pular para o conteúdo principal

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram é uma API de speech-to-text. No OpenClaw, ela é usada para transcrição de áudio/notas de voz de entrada por meio de tools.media.audio e para STT em streaming do Voice Call por meio de plugins.entries.voice-call.config.streaming. Para transcrição em lote, o OpenClaw faz upload do arquivo de áudio completo para a Deepgram e injeta a transcrição no pipeline de resposta ({{Transcript}} + bloco [Audio]). Para STT em streaming do Voice Call, o OpenClaw encaminha frames ao vivo G.711 u-law pelo endpoint WebSocket listen da Deepgram e emite transcrições parciais ou finais conforme a Deepgram as retorna.
DetalheValor
Sitedeepgram.com
Documentaçãodevelopers.deepgram.com
AuthDEEPGRAM_API_KEY
Modelo padrãonova-3

Primeiros passos

1

Defina sua chave de API

Adicione sua chave de API da Deepgram ao ambiente:
DEEPGRAM_API_KEY=dg_...
2

Ative o provedor de áudio

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Envie uma nota de voz

Envie uma mensagem de áudio por qualquer canal conectado. O OpenClaw a transcreve pela Deepgram e injeta a transcrição no pipeline de resposta.

Opções de configuração

OpçãoCaminhoDescrição
modeltools.media.audio.models[].modelID do modelo da Deepgram (padrão: nova-3)
languagetools.media.audio.models[].languageDica de idioma (opcional)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageAtiva detecção de idioma (opcional)
punctuatetools.media.audio.providerOptions.deepgram.punctuateAtiva pontuação (opcional)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatAtiva formatação inteligente (opcional)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

STT em streaming do Voice Call

O Plugin empacotado deepgram também registra um provedor de transcrição em tempo real para o Plugin Voice Call.
ConfiguraçãoCaminho de configuraçãoPadrão
Chave de APIplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyUsa DEEPGRAM_API_KEY como fallback
Modelo...deepgram.modelnova-3
Idioma...deepgram.language(não definido)
Codificação...deepgram.encodingmulaw
Taxa de amostra...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Resultados parciais...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
O Voice Call recebe áudio de telefonia em 8 kHz G.711 u-law. O provedor de streaming da Deepgram usa como padrão encoding: "mulaw" e sampleRate: 8000, então frames de mídia do Twilio podem ser encaminhados diretamente.

Observações

A autenticação segue a ordem padrão de autenticação de provedor. DEEPGRAM_API_KEY é o caminho mais simples.
Substitua endpoints ou cabeçalhos com tools.media.audio.baseUrl e tools.media.audio.headers ao usar um proxy.
A saída segue as mesmas regras de áudio dos outros provedores (limites de tamanho, timeouts, injeção de transcrição).

Relacionado

Media tools

Visão geral do pipeline de processamento de áudio, imagem e vídeo.

Configuration

Referência completa de configuração, incluindo ajustes de ferramentas de mídia.

Troubleshooting

Problemas comuns e etapas de depuração.

FAQ

Perguntas frequentes sobre a configuração do OpenClaw.