Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram เป็น API สำหรับแปลงเสียงเป็นข้อความ ใน OpenClaw จะใช้สำหรับการถอดเสียงไฟล์เสียง/ข้อความเสียงขาเข้าผ่าน tools.media.audio และสำหรับ STT แบบสตรีมมิงของ Voice Call ผ่าน plugins.entries.voice-call.config.streaming สำหรับการถอดเสียงแบบแบตช์ OpenClaw จะอัปโหลดไฟล์เสียงทั้งไฟล์ไปยัง Deepgram และแทรกข้อความถอดเสียงเข้าไปในไปป์ไลน์การตอบกลับ ({{Transcript}} + บล็อก [Audio]) สำหรับ Voice Call แบบสตรีมมิง OpenClaw จะส่งต่อเฟรม G.711 u-law แบบสดผ่าน WebSocket listen endpoint ของ Deepgram และส่งข้อความถอดเสียงแบบบางส่วนหรือแบบสมบูรณ์เมื่อ Deepgram ส่งกลับมา
รายละเอียดค่า
เว็บไซต์deepgram.com
เอกสารdevelopers.deepgram.com
การยืนยันตัวตนDEEPGRAM_API_KEY
โมเดลเริ่มต้นnova-3

เริ่มต้นใช้งาน

1

ตั้งค่า API key ของคุณ

เพิ่ม Deepgram API key ของคุณลงใน environment:
DEEPGRAM_API_KEY=dg_...
2

เปิดใช้งานผู้ให้บริการเสียง

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

ส่งข้อความเสียง

ส่งข้อความเสียงผ่านช่องทางที่เชื่อมต่ออยู่ช่องทางใดก็ได้ OpenClaw จะถอดเสียงผ่าน Deepgram และแทรกข้อความถอดเสียงเข้าไปในไปป์ไลน์การตอบกลับ

ตัวเลือกการกำหนดค่า

ตัวเลือกพาธคำอธิบาย
modeltools.media.audio.models[].modelรหัสโมเดลของ Deepgram (ค่าเริ่มต้น: nova-3)
languagetools.media.audio.models[].languageคำใบ้ภาษา (ไม่บังคับ)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageเปิดใช้การตรวจจับภาษา (ไม่บังคับ)
punctuatetools.media.audio.providerOptions.deepgram.punctuateเปิดใช้เครื่องหมายวรรคตอน (ไม่บังคับ)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatเปิดใช้การจัดรูปแบบอัจฉริยะ (ไม่บังคับ)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

STT แบบสตรีมมิงของ Voice Call

Plugin deepgram ที่มาพร้อมกันยังลงทะเบียนผู้ให้บริการถอดเสียงแบบเรียลไทม์สำหรับ Plugin Voice Call ด้วย
การตั้งค่าพาธการกำหนดค่าค่าเริ่มต้น
API keyplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyใช้ DEEPGRAM_API_KEY เป็นค่าตกทอด
โมเดล...deepgram.modelnova-3
ภาษา...deepgram.language(ไม่ได้ตั้งค่า)
Encoding...deepgram.encodingmulaw
อัตราสุ่มตัวอย่าง...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
ผลลัพธ์ระหว่างทาง...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call รับเสียงโทรศัพท์เป็น G.711 u-law ที่ 8 kHz ผู้ให้บริการสตรีมมิงของ Deepgram จึงตั้งค่าเริ่มต้นเป็น encoding: "mulaw" และ sampleRate: 8000 ทำให้สามารถส่งต่อเฟรมสื่อของ Twilio ได้โดยตรง

หมายเหตุ

การยืนยันตัวตนเป็นไปตามลำดับการยืนยันตัวตนมาตรฐานของผู้ให้บริการ DEEPGRAM_API_KEY เป็นวิธีที่ง่ายที่สุด
แทนที่ endpoint หรือ header ได้ด้วย tools.media.audio.baseUrl และ tools.media.audio.headers เมื่อใช้งานผ่านพร็อกซี
ผลลัพธ์เป็นไปตามกฎเสียงเดียวกันกับผู้ให้บริการรายอื่น (ขีดจำกัดขนาด, การหมดเวลา, การแทรกข้อความถอดเสียง)

ที่เกี่ยวข้อง

เครื่องมือสื่อ

ภาพรวมไปป์ไลน์การประมวลผลเสียง รูปภาพ และวิดีโอ

การกำหนดค่า

เอกสารอ้างอิงการกำหนดค่าแบบเต็ม รวมถึงการตั้งค่าเครื่องมือสื่อ

การแก้ไขปัญหา

ปัญหาที่พบบ่อยและขั้นตอนการดีบัก

คำถามที่พบบ่อย

คำถามที่พบบ่อยเกี่ยวกับการตั้งค่า OpenClaw