Pular para o conteúdo principal

Deepgram (transcrição de áudio)

Deepgram é uma API de speech-to-text. No OpenClaw, ela é usada para transcrição de áudio/notas de voz de entrada via tools.media.audio. Quando habilitado, o OpenClaw envia o arquivo de áudio ao Deepgram e injeta a transcrição no pipeline de resposta (bloco {{Transcript}} + [Audio]). Isso não é streaming; usa o endpoint de transcrição pré-gravada. Site: https://deepgram.com
Documentação: https://developers.deepgram.com

Início rápido

  1. Defina sua chave de API:
DEEPGRAM_API_KEY=dg_...
  1. Habilite o provedor:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Opções

  • model: id do modelo Deepgram (padrão: nova-3)
  • language: dica de idioma (opcional)
  • tools.media.audio.providerOptions.deepgram.detect_language: habilita a detecção de idioma (opcional)
  • tools.media.audio.providerOptions.deepgram.punctuate: habilita pontuação (opcional)
  • tools.media.audio.providerOptions.deepgram.smart_format: habilita formatação inteligente (opcional)
Exemplo com idioma:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}
Exemplo com opções do Deepgram:
{
  tools: {
    media: {
      audio: {
        enabled: true,
        providerOptions: {
          deepgram: {
            detect_language: true,
            punctuate: true,
            smart_format: true,
          },
        },
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

Observações

  • A autenticação segue a ordem padrão de autenticação de provedor; DEEPGRAM_API_KEY é o caminho mais simples.
  • Substitua endpoints ou cabeçalhos com tools.media.audio.baseUrl e tools.media.audio.headers ao usar um proxy.
  • A saída segue as mesmas regras de áudio dos outros provedores (limites de tamanho, timeouts, injeção de transcrição).