Deepgram — це API перетворення мовлення на текст. В OpenClaw він використовується для транскрипції вхідних аудіо/голосових повідомлень черезDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media.audio і для потокового STT у Voice Call
через plugins.entries.voice-call.config.streaming.
Для пакетної транскрипції OpenClaw завантажує повний аудіофайл у Deepgram
і інжектує транскрипт у конвеєр відповіді ({{Transcript}} +
блок [Audio]). Для потокового Voice Call OpenClaw пересилає live кадри G.711
u-law через WebSocket-кінцеву точку Deepgram listen і надсилає часткові або
фінальні транскрипти в міру того, як Deepgram їх повертає.
| Деталь | Значення |
|---|---|
| Вебсайт | deepgram.com |
| Документація | developers.deepgram.com |
| Автентифікація | DEEPGRAM_API_KEY |
| Типова модель | nova-3 |
Початок роботи
Параметри конфігурації
| Параметр | Шлях | Опис |
|---|---|---|
model | tools.media.audio.models[].model | id моделі Deepgram (типово: nova-3) |
language | tools.media.audio.models[].language | Підказка мови (необов’язково) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | Увімкнути визначення мови (необов’язково) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | Увімкнути пунктуацію (необов’язково) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | Увімкнути smart formatting (необов’язково) |
- Із підказкою мови
- З параметрами Deepgram
Потоковий STT для Voice Call
Вбудований Plugindeepgram також реєструє provider транскрипції в реальному часі
для Plugin Voice Call.
| Налаштування | Шлях конфігурації | Типове значення |
|---|---|---|
| API-ключ | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | Резервно використовує DEEPGRAM_API_KEY |
| Модель | ...deepgram.model | nova-3 |
| Мова | ...deepgram.language | (не задано) |
| Кодування | ...deepgram.encoding | mulaw |
| Частота дискретизації | ...deepgram.sampleRate | 8000 |
| Endpointing | ...deepgram.endpointingMs | 800 |
| Проміжні результати | ...deepgram.interimResults | true |
Voice Call отримує телефонне аудіо у форматі 8 kHz G.711 u-law. Provider
потокової передачі Deepgram типово використовує
encoding: "mulaw" і sampleRate: 8000, тож
медіакадри Twilio можна пересилати напряму.Примітки
Автентифікація
Автентифікація
Автентифікація дотримується стандартного порядку автентифікації provider.
DEEPGRAM_API_KEY —
найпростіший шлях.Проксі та власні кінцеві точки
Проксі та власні кінцеві точки
Перевизначайте кінцеві точки або заголовки через
tools.media.audio.baseUrl і
tools.media.audio.headers, якщо використовуєте проксі.Поведінка виведення
Поведінка виведення
Виведення дотримується тих самих правил для аудіо, що й в інших provider (обмеження розміру, тайм-аути,
інжекція транскрипту).
Пов’язане
Media tools
Огляд конвеєра обробки аудіо, зображень і відео.
Конфігурація
Повний довідник конфігурації, включно з налаштуваннями media tools.
Усунення несправностей
Поширені проблеми та кроки налагодження.
FAQ
Поширені запитання про налаштування OpenClaw.