OpenClaw สร้างรูปภาพ วิดีโอ และเพลง เข้าใจสื่อขาเข้า (รูปภาพ เสียง วิดีโอ) และพูดคำตอบออกเสียงด้วยการแปลงข้อความเป็นเสียง ความสามารถด้านสื่อทั้งหมด ขับเคลื่อนด้วยเครื่องมือ: เอเจนต์จะตัดสินใจว่าจะใช้เมื่อใดตาม บทสนทนา และแต่ละเครื่องมือจะปรากฏเฉพาะเมื่อมี provider รองรับอย่างน้อยหนึ่งราย ที่กำหนดค่าไว้ การพูดสดใช้สัญญาเซสชัน Talk แทนเส้นทางเครื่องมือสื่อแบบครั้งเดียว Talk มีสามโหมด:Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
realtime แบบ native ของ provider, stt-tts ภายในเครื่องหรือแบบสตรีม
และ transcription สำหรับการจับเสียงพูดแบบเฝ้าดูเท่านั้น โหมดเหล่านี้
ใช้แค็ตตาล็อก provider, ซองเหตุการณ์ และความหมายของการยกเลิกร่วมกับ
โทรศัพท์ การประชุม realtime บนเบราว์เซอร์ และไคลเอ็นต์ push-to-talk แบบ native
ความสามารถ
การสร้างรูปภาพ
สร้างและแก้ไขรูปภาพจาก prompt ข้อความหรือรูปภาพอ้างอิงผ่าน
image_generate แบบซิงโครนัส — เสร็จสิ้นในบรรทัดเดียวกับคำตอบการสร้างวิดีโอ
ข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และวิดีโอเป็นวิดีโอผ่าน
video_generate
แบบอะซิงโครนัส — ทำงานในเบื้องหลังและโพสต์ผลลัพธ์เมื่อพร้อมการสร้างเพลง
สร้างเพลงหรือแทร็กเสียงผ่าน
music_generate แบบอะซิงโครนัสบน
provider ที่ใช้ร่วมกัน; เส้นทาง workflow ของ ComfyUI ทำงานแบบซิงโครนัสการแปลงข้อความเป็นเสียง
แปลงคำตอบขาออกเป็นเสียงพูดผ่านเครื่องมือ
tts พร้อม
การกำหนดค่า messages.tts แบบซิงโครนัสการเข้าใจสื่อ
สรุปรูปภาพ เสียง และวิดีโอขาเข้าโดยใช้ model provider
ที่รองรับ vision และ Plugin สำหรับการเข้าใจสื่อโดยเฉพาะ
การแปลงเสียงเป็นข้อความ
ถอดเสียงข้อความเสียงขาเข้าผ่าน provider STT แบบ batch หรือ STT แบบสตรีมของ Voice Call
ตารางความสามารถของ provider
| Provider | รูปภาพ | วิดีโอ | เพลง | TTS | STT | เสียงแบบ realtime | การเข้าใจสื่อ |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
การเข้าใจสื่อใช้ model ใดก็ได้ที่รองรับ vision หรือเสียงซึ่งลงทะเบียนไว้
ในการกำหนดค่า provider ของคุณ ตารางด้านบนแสดงรายการ provider ที่มีการรองรับ
การเข้าใจสื่อโดยเฉพาะ; provider LLM หลายรูปแบบส่วนใหญ่ (Anthropic, Google,
OpenAI เป็นต้น) ก็สามารถเข้าใจสื่อขาเข้าได้เช่นกันเมื่อกำหนดค่าเป็น model ตอบกลับ
ที่ใช้งานอยู่
อะซิงโครนัสกับซิงโครนัส
| ความสามารถ | โหมด | เหตุผล |
|---|---|---|
| รูปภาพ | ซิงโครนัส | การตอบกลับจาก provider กลับมาในไม่กี่วินาที; เสร็จสิ้นในบรรทัดเดียวกับคำตอบ |
| การแปลงข้อความเป็นเสียง | ซิงโครนัส | การตอบกลับจาก provider กลับมาในไม่กี่วินาที; แนบกับเสียงของคำตอบ |
| วิดีโอ | อะซิงโครนัส | การประมวลผลของ provider ใช้เวลา 30 วินาทีถึงหลายนาที; คิวที่ช้าอาจทำงานได้จนถึง timeout ที่กำหนดค่าไว้ |
| เพลง (ที่ใช้ร่วมกัน) | อะซิงโครนัส | มีลักษณะการประมวลผลของ provider เหมือนกับวิดีโอ |
| เพลง (ComfyUI) | ซิงโครนัส | workflow ภายในเครื่องทำงานในบรรทัดเดียวกับเซิร์ฟเวอร์ ComfyUI ที่กำหนดค่าไว้ |
การแปลงเสียงเป็นข้อความและ Voice Call
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio และ xAI ทั้งหมดสามารถถอดเสียง เสียงขาเข้าผ่านเส้นทาง batchtools.media.audio ได้เมื่อกำหนดค่าไว้
Plugin ช่องทางที่ preflight ข้อความเสียงสำหรับการกรอง mention หรือการแยกวิเคราะห์
คำสั่ง จะทำเครื่องหมายไฟล์แนบที่ถอดเสียงแล้วบน context ขาเข้า เพื่อให้รอบ
การเข้าใจสื่อที่ใช้ร่วมกันนำ transcript นั้นกลับมาใช้แทนการเรียก
STT ครั้งที่สองสำหรับเสียงเดียวกัน
Deepgram, ElevenLabs, Mistral, OpenAI และ xAI ยังลงทะเบียน provider STT แบบสตรีมของ Voice Call
ด้วย ดังนั้นเสียงโทรศัพท์สดจึงสามารถส่งต่อไปยัง vendor ที่เลือก
ได้โดยไม่ต้องรอให้การบันทึกเสร็จสมบูรณ์
สำหรับบทสนทนาสดกับผู้ใช้ ให้ใช้ โหมด Talk เป็นหลัก ไฟล์แนบเสียงแบบ batch
จะอยู่บนเส้นทางสื่อ; realtime บนเบราว์เซอร์, push-to-talk แบบ native,
โทรศัพท์ และเสียงการประชุมควรใช้เหตุการณ์ Talk และแค็ตตาล็อกที่ผูกกับเซสชัน
ซึ่ง Gateway ส่งคืน
การแมป provider (วิธีที่ vendor แยกตามพื้นผิว)
Google
พื้นผิวรูปภาพ วิดีโอ เพลง TTS แบบ batch, เสียง realtime ฝั่ง backend และ
การเข้าใจสื่อ
OpenAI
OpenAI
พื้นผิวรูปภาพ วิดีโอ TTS แบบ batch, STT แบบ batch, STT แบบสตรีมของ Voice Call, เสียง
realtime ฝั่ง backend และ memory-embedding
DeepInfra
DeepInfra
พื้นผิวการกำหนดเส้นทาง chat/model, การสร้าง/แก้ไขรูปภาพ, ข้อความเป็นวิดีโอ, TTS แบบ batch,
STT แบบ batch, การเข้าใจสื่อรูปภาพ และ memory-embedding
model rerank/classification/object-detection แบบ native ของ DeepInfra จะยังไม่
ลงทะเบียนจนกว่า OpenClaw จะมีสัญญา provider เฉพาะสำหรับหมวดหมู่เหล่านั้น
xAI
xAI
รูปภาพ วิดีโอ การค้นหา code-execution, TTS แบบ batch, STT แบบ batch และ STT แบบสตรีมของ Voice
Call เสียง xAI Realtime เป็นความสามารถ upstream แต่ยัง
ไม่ได้ลงทะเบียนใน OpenClaw จนกว่าสัญญาเสียง realtime ที่ใช้ร่วมกันจะสามารถ
แสดงแทนได้