Chuyển đến nội dung chính

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram là một API chuyển giọng nói thành văn bản. Trong OpenClaw, nó được dùng để phiên âm âm thanh/ghi chú thoại gửi đến thông qua tools.media.audio và cho STT phát trực tuyến của Voice Call thông qua plugins.entries.voice-call.config.streaming. Đối với phiên âm theo lô, OpenClaw tải toàn bộ tệp âm thanh lên Deepgram và chèn bản phiên âm vào quy trình trả lời ({{Transcript}} + khối [Audio]). Đối với phát trực tuyến Voice Call, OpenClaw chuyển tiếp các khung G.711 u-law trực tiếp qua endpoint WebSocket listen của Deepgram và phát ra bản phiên âm một phần hoặc cuối cùng khi Deepgram trả về.
Chi tiếtGiá trị
Trang webdeepgram.com
Tài liệudevelopers.deepgram.com
Xác thựcDEEPGRAM_API_KEY
Mô hình mặc địnhnova-3

Bắt đầu

1

Set your API key

Thêm khóa API Deepgram của bạn vào môi trường:
DEEPGRAM_API_KEY=dg_...
2

Enable the audio provider

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

Send a voice note

Gửi một tin nhắn âm thanh qua bất kỳ kênh nào đã kết nối. OpenClaw phiên âm tin nhắn đó qua Deepgram và chèn bản phiên âm vào quy trình trả lời.

Tùy chọn cấu hình

Tùy chọnĐường dẫnMô tả
modeltools.media.audio.models[].modelID mô hình Deepgram (mặc định: nova-3)
languagetools.media.audio.models[].languageGợi ý ngôn ngữ (tùy chọn)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageBật phát hiện ngôn ngữ (tùy chọn)
punctuatetools.media.audio.providerOptions.deepgram.punctuateBật dấu câu (tùy chọn)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatBật định dạng thông minh (tùy chọn)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

STT phát trực tuyến Voice Call

Plugin deepgram đi kèm cũng đăng ký một nhà cung cấp phiên âm thời gian thực cho Plugin Voice Call.
Thiết lậpĐường dẫn cấu hìnhMặc định
Khóa APIplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyDự phòng về DEEPGRAM_API_KEY
Mô hình...deepgram.modelnova-3
Ngôn ngữ...deepgram.language(chưa đặt)
Mã hóa...deepgram.encodingmulaw
Tốc độ mẫu...deepgram.sampleRate8000
Ngắt cuối đoạn...deepgram.endpointingMs800
Kết quả tạm thời...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call nhận âm thanh điện thoại dưới dạng G.711 u-law 8 kHz. Nhà cung cấp phát trực tuyến Deepgram mặc định dùng encoding: "mulaw"sampleRate: 8000, vì vậy có thể chuyển tiếp trực tiếp các khung phương tiện Twilio.

Ghi chú

Xác thực tuân theo thứ tự xác thực nhà cung cấp tiêu chuẩn. DEEPGRAM_API_KEY là cách đơn giản nhất.
Ghi đè endpoint hoặc header bằng tools.media.audio.baseUrltools.media.audio.headers khi dùng proxy.
Đầu ra tuân theo cùng các quy tắc âm thanh như những nhà cung cấp khác (giới hạn kích thước, thời gian chờ, chèn bản phiên âm).

Liên quan

Media tools

Tổng quan về quy trình xử lý âm thanh, hình ảnh và video.

Configuration

Tham chiếu cấu hình đầy đủ, bao gồm các thiết lập công cụ phương tiện.

Troubleshooting

Các sự cố thường gặp và bước gỡ lỗi.

FAQ

Các câu hỏi thường gặp về thiết lập OpenClaw.