Deepgram เป็น API สำหรับแปลงเสียงเป็นข้อความ ใน OpenClaw จะใช้สำหรับการถอดเสียงไฟล์เสียง/ข้อความเสียงขาเข้าผ่านDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media.audio และสำหรับ STT แบบสตรีมมิงของ Voice Call ผ่าน plugins.entries.voice-call.config.streaming
สำหรับการถอดเสียงแบบแบตช์ OpenClaw จะอัปโหลดไฟล์เสียงทั้งไฟล์ไปยัง Deepgram และแทรกข้อความถอดเสียงเข้าไปในไปป์ไลน์การตอบกลับ ({{Transcript}} + บล็อก [Audio]) สำหรับ Voice Call แบบสตรีมมิง OpenClaw จะส่งต่อเฟรม G.711 u-law แบบสดผ่าน WebSocket listen endpoint ของ Deepgram และส่งข้อความถอดเสียงแบบบางส่วนหรือแบบสมบูรณ์เมื่อ Deepgram ส่งกลับมา
| รายละเอียด | ค่า |
|---|---|
| เว็บไซต์ | deepgram.com |
| เอกสาร | developers.deepgram.com |
| การยืนยันตัวตน | DEEPGRAM_API_KEY |
| โมเดลเริ่มต้น | nova-3 |
เริ่มต้นใช้งาน
ตัวเลือกการกำหนดค่า
| ตัวเลือก | พาธ | คำอธิบาย |
|---|---|---|
model | tools.media.audio.models[].model | รหัสโมเดลของ Deepgram (ค่าเริ่มต้น: nova-3) |
language | tools.media.audio.models[].language | คำใบ้ภาษา (ไม่บังคับ) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | เปิดใช้การตรวจจับภาษา (ไม่บังคับ) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | เปิดใช้เครื่องหมายวรรคตอน (ไม่บังคับ) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | เปิดใช้การจัดรูปแบบอัจฉริยะ (ไม่บังคับ) |
- พร้อมคำใบ้ภาษา
- พร้อมตัวเลือกของ Deepgram
STT แบบสตรีมมิงของ Voice Call
Plugindeepgram ที่มาพร้อมกันยังลงทะเบียนผู้ให้บริการถอดเสียงแบบเรียลไทม์สำหรับ Plugin Voice Call ด้วย
| การตั้งค่า | พาธการกำหนดค่า | ค่าเริ่มต้น |
|---|---|---|
| API key | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | ใช้ DEEPGRAM_API_KEY เป็นค่าตกทอด |
| โมเดล | ...deepgram.model | nova-3 |
| ภาษา | ...deepgram.language | (ไม่ได้ตั้งค่า) |
| Encoding | ...deepgram.encoding | mulaw |
| อัตราสุ่มตัวอย่าง | ...deepgram.sampleRate | 8000 |
| Endpointing | ...deepgram.endpointingMs | 800 |
| ผลลัพธ์ระหว่างทาง | ...deepgram.interimResults | true |
Voice Call รับเสียงโทรศัพท์เป็น G.711 u-law ที่ 8 kHz ผู้ให้บริการสตรีมมิงของ Deepgram จึงตั้งค่าเริ่มต้นเป็น
encoding: "mulaw" และ sampleRate: 8000 ทำให้สามารถส่งต่อเฟรมสื่อของ Twilio ได้โดยตรงหมายเหตุ
การยืนยันตัวตน
การยืนยันตัวตน
การยืนยันตัวตนเป็นไปตามลำดับการยืนยันตัวตนมาตรฐานของผู้ให้บริการ
DEEPGRAM_API_KEY เป็นวิธีที่ง่ายที่สุดพร็อกซีและ endpoint แบบกำหนดเอง
พร็อกซีและ endpoint แบบกำหนดเอง
แทนที่ endpoint หรือ header ได้ด้วย
tools.media.audio.baseUrl และ
tools.media.audio.headers เมื่อใช้งานผ่านพร็อกซีลักษณะการแสดงผลลัพธ์
ลักษณะการแสดงผลลัพธ์
ผลลัพธ์เป็นไปตามกฎเสียงเดียวกันกับผู้ให้บริการรายอื่น (ขีดจำกัดขนาด, การหมดเวลา,
การแทรกข้อความถอดเสียง)
ที่เกี่ยวข้อง
เครื่องมือสื่อ
ภาพรวมไปป์ไลน์การประมวลผลเสียง รูปภาพ และวิดีโอ
การกำหนดค่า
เอกสารอ้างอิงการกำหนดค่าแบบเต็ม รวมถึงการตั้งค่าเครื่องมือสื่อ
การแก้ไขปัญหา
ปัญหาที่พบบ่อยและขั้นตอนการดีบัก
คำถามที่พบบ่อย
คำถามที่พบบ่อยเกี่ยวกับการตั้งค่า OpenClaw