Deepgram es una API de conversión de voz a texto. En OpenClaw se usa para la transcripción de audio/notas de voz entrantes medianteDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media.audio y para la
STT en tiempo real de Voice Call mediante plugins.entries.voice-call.config.streaming.
Para la transcripción por lotes, OpenClaw sube el archivo de audio completo a Deepgram
e inyecta la transcripción en el flujo de respuesta ({{Transcript}} +
bloque [Audio]). Para la STT en tiempo real de Voice Call, OpenClaw reenvía
tramas G.711 u-law en vivo a través del endpoint WebSocket listen de Deepgram y emite
transcripciones parciales o finales a medida que Deepgram las devuelve.
| Detalle | Valor |
|---|---|
| Sitio web | deepgram.com |
| Documentación | developers.deepgram.com |
| Autenticación | DEEPGRAM_API_KEY |
| Modelo predeterminado | nova-3 |
Primeros pasos
Opciones de configuración
| Opción | Ruta | Descripción |
|---|---|---|
model | tools.media.audio.models[].model | ID del modelo de Deepgram (predeterminado: nova-3) |
language | tools.media.audio.models[].language | Indicación de idioma (opcional) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | Habilita la detección de idioma (opcional) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | Habilita la puntuación (opcional) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | Habilita el formateo inteligente (opcional) |
- Con indicación de idioma
- Con opciones de Deepgram
STT en tiempo real de Voice Call
El Plugindeepgram incluido también registra un proveedor de transcripción en tiempo real
para el Plugin Voice Call.
| Configuración | Ruta de configuración | Predeterminado |
|---|---|---|
| Clave de API | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | Usa DEEPGRAM_API_KEY como respaldo |
| Modelo | ...deepgram.model | nova-3 |
| Idioma | ...deepgram.language | (sin configurar) |
| Codificación | ...deepgram.encoding | mulaw |
| Frecuencia de muestreo | ...deepgram.sampleRate | 8000 |
| Detección de fin de enunciado | ...deepgram.endpointingMs | 800 |
| Resultados provisionales | ...deepgram.interimResults | true |
Voice Call recibe audio de telefonía como G.711 u-law a 8 kHz. El proveedor de Deepgram
para tiempo real usa por defecto
encoding: "mulaw" y sampleRate: 8000, por lo que
las tramas multimedia de Twilio pueden reenviarse directamente.Notas
Autenticación
Autenticación
La autenticación sigue el orden estándar de autenticación de proveedores.
DEEPGRAM_API_KEY es
la ruta más sencilla.Proxy y endpoints personalizados
Proxy y endpoints personalizados
Sustituye los endpoints o encabezados con
tools.media.audio.baseUrl y
tools.media.audio.headers cuando uses un proxy.Comportamiento de la salida
Comportamiento de la salida
La salida sigue las mismas reglas de audio que otros proveedores (límites de tamaño, tiempos de espera,
inyección de transcripción).
Relacionado
Herramientas multimedia
Descripción general del flujo de procesamiento de audio, imágenes y video.
Configuración
Referencia completa de configuración, incluida la de las herramientas multimedia.
Resolución de problemas
Problemas comunes y pasos de depuración.
Preguntas frecuentes
Preguntas frecuentes sobre la configuración de OpenClaw.