Перейти до основного вмісту

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram — це API перетворення мовлення на текст. В OpenClaw він використовується для транскрипції вхідних аудіо/голосових повідомлень через tools.media.audio і для потокового STT у Voice Call через plugins.entries.voice-call.config.streaming. Для пакетної транскрипції OpenClaw завантажує повний аудіофайл у Deepgram і інжектує транскрипт у конвеєр відповіді ({{Transcript}} + блок [Audio]). Для потокового Voice Call OpenClaw пересилає live кадри G.711 u-law через WebSocket-кінцеву точку Deepgram listen і надсилає часткові або фінальні транскрипти в міру того, як Deepgram їх повертає.
ДетальЗначення
Вебсайтdeepgram.com
Документаціяdevelopers.deepgram.com
АвтентифікаціяDEEPGRAM_API_KEY
Типова модельnova-3

Початок роботи

1

Установіть свій API-ключ

Додайте свій API-ключ Deepgram до середовища:
DEEPGRAM_API_KEY=dg_...
2

Увімкніть provider аудіо

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Надішліть голосове повідомлення

Надішліть аудіоповідомлення через будь-який підключений канал. OpenClaw транскрибує його через Deepgram і інжектує транскрипт у конвеєр відповіді.

Параметри конфігурації

ПараметрШляхОпис
modeltools.media.audio.models[].modelid моделі Deepgram (типово: nova-3)
languagetools.media.audio.models[].languageПідказка мови (необов’язково)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageУвімкнути визначення мови (необов’язково)
punctuatetools.media.audio.providerOptions.deepgram.punctuateУвімкнути пунктуацію (необов’язково)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatУвімкнути smart formatting (необов’язково)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Потоковий STT для Voice Call

Вбудований Plugin deepgram також реєструє provider транскрипції в реальному часі для Plugin Voice Call.
НалаштуванняШлях конфігураціїТипове значення
API-ключplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyРезервно використовує DEEPGRAM_API_KEY
Модель...deepgram.modelnova-3
Мова...deepgram.language(не задано)
Кодування...deepgram.encodingmulaw
Частота дискретизації...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Проміжні результати...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call отримує телефонне аудіо у форматі 8 kHz G.711 u-law. Provider потокової передачі Deepgram типово використовує encoding: "mulaw" і sampleRate: 8000, тож медіакадри Twilio можна пересилати напряму.

Примітки

Автентифікація дотримується стандартного порядку автентифікації provider. DEEPGRAM_API_KEY — найпростіший шлях.
Перевизначайте кінцеві точки або заголовки через tools.media.audio.baseUrl і tools.media.audio.headers, якщо використовуєте проксі.
Виведення дотримується тих самих правил для аудіо, що й в інших provider (обмеження розміру, тайм-аути, інжекція транскрипту).

Пов’язане

Media tools

Огляд конвеєра обробки аудіо, зображень і відео.

Конфігурація

Повний довідник конфігурації, включно з налаштуваннями media tools.

Усунення несправностей

Поширені проблеми та кроки налагодження.

FAQ

Поширені запитання про налаштування OpenClaw.