Deepgram é uma API de speech-to-text. No OpenClaw, ela é usada para transcrição de áudio/notas de voz de entrada por meio deDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media.audio e para STT em streaming do Voice Call por meio de plugins.entries.voice-call.config.streaming.
Para transcrição em lote, o OpenClaw faz upload do arquivo de áudio completo para a Deepgram
e injeta a transcrição no pipeline de resposta ({{Transcript}} +
bloco [Audio]). Para STT em streaming do Voice Call, o OpenClaw encaminha frames
ao vivo G.711 u-law pelo endpoint WebSocket listen da Deepgram e emite transcrições
parciais ou finais conforme a Deepgram as retorna.
| Detalhe | Valor |
|---|---|
| Site | deepgram.com |
| Documentação | developers.deepgram.com |
| Auth | DEEPGRAM_API_KEY |
| Modelo padrão | nova-3 |
Primeiros passos
Opções de configuração
| Opção | Caminho | Descrição |
|---|---|---|
model | tools.media.audio.models[].model | ID do modelo da Deepgram (padrão: nova-3) |
language | tools.media.audio.models[].language | Dica de idioma (opcional) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | Ativa detecção de idioma (opcional) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | Ativa pontuação (opcional) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | Ativa formatação inteligente (opcional) |
- Com dica de idioma
- Com opções da Deepgram
STT em streaming do Voice Call
O Plugin empacotadodeepgram também registra um provedor de transcrição em tempo real
para o Plugin Voice Call.
| Configuração | Caminho de configuração | Padrão |
|---|---|---|
| Chave de API | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | Usa DEEPGRAM_API_KEY como fallback |
| Modelo | ...deepgram.model | nova-3 |
| Idioma | ...deepgram.language | (não definido) |
| Codificação | ...deepgram.encoding | mulaw |
| Taxa de amostra | ...deepgram.sampleRate | 8000 |
| Endpointing | ...deepgram.endpointingMs | 800 |
| Resultados parciais | ...deepgram.interimResults | true |
O Voice Call recebe áudio de telefonia em 8 kHz G.711 u-law. O provedor de
streaming da Deepgram usa como padrão
encoding: "mulaw" e sampleRate: 8000, então
frames de mídia do Twilio podem ser encaminhados diretamente.Observações
Autenticação
Autenticação
A autenticação segue a ordem padrão de autenticação de provedor.
DEEPGRAM_API_KEY é
o caminho mais simples.Proxy e endpoints personalizados
Proxy e endpoints personalizados
Substitua endpoints ou cabeçalhos com
tools.media.audio.baseUrl e
tools.media.audio.headers ao usar um proxy.Comportamento da saída
Comportamento da saída
A saída segue as mesmas regras de áudio dos outros provedores (limites de tamanho, timeouts,
injeção de transcrição).
Relacionado
Media tools
Visão geral do pipeline de processamento de áudio, imagem e vídeo.
Configuration
Referência completa de configuração, incluindo ajustes de ferramentas de mídia.
Troubleshooting
Problemas comuns e etapas de depuração.
FAQ
Perguntas frequentes sobre a configuração do OpenClaw.