Перейти до основного вмісту

Deepgram (Транскрипція аудіо)

Deepgram — це API speech-to-text. В OpenClaw він використовується для транскрипції вхідних аудіо/голосових повідомлень через tools.media.audio. Коли цю функцію ввімкнено, OpenClaw завантажує аудіофайл до Deepgram і вставляє транскрипт у конвеєр відповіді ({{Transcript}} + блок [Audio]). Це не потокова обробка; використовується endpoint транскрипції попередньо записаного аудіо.
ДетальЗначення
Вебсайтdeepgram.com
Документаціяdevelopers.deepgram.com
АвтентифікаціяDEEPGRAM_API_KEY
Модель за замовчуваннямnova-3

Початок роботи

1

Укажіть свій API-ключ

Додайте свій API-ключ Deepgram до середовища:
DEEPGRAM_API_KEY=dg_...
2

Увімкніть аудіопровайдера

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Надішліть голосове повідомлення

Надішліть аудіоповідомлення через будь-який підключений канал. OpenClaw транскрибує його через Deepgram і вставить транскрипт у конвеєр відповіді.

Параметри конфігурації

ПараметрШляхОпис
modeltools.media.audio.models[].modelID моделі Deepgram (за замовчуванням: nova-3)
languagetools.media.audio.models[].languageПідказка мови (необов’язково)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageУвімкнути визначення мови (необов’язково)
punctuatetools.media.audio.providerOptions.deepgram.punctuateУвімкнути пунктуацію (необов’язково)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatУвімкнути розумне форматування (необов’язково)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Примітки

Автентифікація виконується за стандартним порядком автентифікації провайдера. DEEPGRAM_API_KEY — найпростіший варіант.
Замініть endpoint-и або заголовки за допомогою tools.media.audio.baseUrl і tools.media.audio.headers, якщо використовуєте проксі.
Вивід дотримується тих самих правил для аудіо, що й інші провайдери (обмеження розміру, тайм-аути, вставка транскрипту).
Транскрипція Deepgram підтримує лише попередньо записане аудіо (без потокової обробки в реальному часі). OpenClaw завантажує повний аудіофайл і чекає на повний транскрипт перед тим, як вставити його в розмову.

Пов’язане

Медіаінструменти

Огляд конвеєра обробки аудіо, зображень і відео.

Конфігурація

Повний довідник із конфігурації, включно з налаштуваннями медіаінструментів.

Усунення несправностей

Поширені проблеми та кроки налагодження.

FAQ

Поширені запитання про налаштування OpenClaw.