Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw สร้างรูปภาพ วิดีโอ และเพลง เข้าใจสื่อขาเข้า (รูปภาพ เสียง วิดีโอ) และพูดคำตอบออกเสียงด้วยการแปลงข้อความเป็นเสียง ความสามารถด้านสื่อทั้งหมด ขับเคลื่อนด้วยเครื่องมือ: เอเจนต์จะตัดสินใจว่าจะใช้เมื่อใดตาม บทสนทนา และแต่ละเครื่องมือจะปรากฏเฉพาะเมื่อมี provider รองรับอย่างน้อยหนึ่งราย ที่กำหนดค่าไว้ การพูดสดใช้สัญญาเซสชัน Talk แทนเส้นทางเครื่องมือสื่อแบบครั้งเดียว Talk มีสามโหมด: realtime แบบ native ของ provider, stt-tts ภายในเครื่องหรือแบบสตรีม และ transcription สำหรับการจับเสียงพูดแบบเฝ้าดูเท่านั้น โหมดเหล่านี้ ใช้แค็ตตาล็อก provider, ซองเหตุการณ์ และความหมายของการยกเลิกร่วมกับ โทรศัพท์ การประชุม realtime บนเบราว์เซอร์ และไคลเอ็นต์ push-to-talk แบบ native

ความสามารถ

การสร้างรูปภาพ

สร้างและแก้ไขรูปภาพจาก prompt ข้อความหรือรูปภาพอ้างอิงผ่าน image_generate แบบซิงโครนัส — เสร็จสิ้นในบรรทัดเดียวกับคำตอบ

การสร้างวิดีโอ

ข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และวิดีโอเป็นวิดีโอผ่าน video_generate แบบอะซิงโครนัส — ทำงานในเบื้องหลังและโพสต์ผลลัพธ์เมื่อพร้อม

การสร้างเพลง

สร้างเพลงหรือแทร็กเสียงผ่าน music_generate แบบอะซิงโครนัสบน provider ที่ใช้ร่วมกัน; เส้นทาง workflow ของ ComfyUI ทำงานแบบซิงโครนัส

การแปลงข้อความเป็นเสียง

แปลงคำตอบขาออกเป็นเสียงพูดผ่านเครื่องมือ tts พร้อม การกำหนดค่า messages.tts แบบซิงโครนัส

การเข้าใจสื่อ

สรุปรูปภาพ เสียง และวิดีโอขาเข้าโดยใช้ model provider ที่รองรับ vision และ Plugin สำหรับการเข้าใจสื่อโดยเฉพาะ

การแปลงเสียงเป็นข้อความ

ถอดเสียงข้อความเสียงขาเข้าผ่าน provider STT แบบ batch หรือ STT แบบสตรีมของ Voice Call

ตารางความสามารถของ provider

ProviderรูปภาพวิดีโอเพลงTTSSTTเสียงแบบ realtimeการเข้าใจสื่อ
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo
การเข้าใจสื่อใช้ model ใดก็ได้ที่รองรับ vision หรือเสียงซึ่งลงทะเบียนไว้ ในการกำหนดค่า provider ของคุณ ตารางด้านบนแสดงรายการ provider ที่มีการรองรับ การเข้าใจสื่อโดยเฉพาะ; provider LLM หลายรูปแบบส่วนใหญ่ (Anthropic, Google, OpenAI เป็นต้น) ก็สามารถเข้าใจสื่อขาเข้าได้เช่นกันเมื่อกำหนดค่าเป็น model ตอบกลับ ที่ใช้งานอยู่

อะซิงโครนัสกับซิงโครนัส

ความสามารถโหมดเหตุผล
รูปภาพซิงโครนัสการตอบกลับจาก provider กลับมาในไม่กี่วินาที; เสร็จสิ้นในบรรทัดเดียวกับคำตอบ
การแปลงข้อความเป็นเสียงซิงโครนัสการตอบกลับจาก provider กลับมาในไม่กี่วินาที; แนบกับเสียงของคำตอบ
วิดีโออะซิงโครนัสการประมวลผลของ provider ใช้เวลา 30 วินาทีถึงหลายนาที; คิวที่ช้าอาจทำงานได้จนถึง timeout ที่กำหนดค่าไว้
เพลง (ที่ใช้ร่วมกัน)อะซิงโครนัสมีลักษณะการประมวลผลของ provider เหมือนกับวิดีโอ
เพลง (ComfyUI)ซิงโครนัสworkflow ภายในเครื่องทำงานในบรรทัดเดียวกับเซิร์ฟเวอร์ ComfyUI ที่กำหนดค่าไว้
สำหรับเครื่องมือแบบอะซิงโครนัส OpenClaw จะส่งคำขอไปยัง provider, ส่งคืน task id ทันที และติดตามงานใน task ledger เอเจนต์จะตอบสนอง ข้อความอื่นต่อไปขณะที่งานกำลังทำงาน เมื่อ provider ทำงานเสร็จ OpenClaw จะปลุกเอเจนต์พร้อม path สื่อที่สร้างขึ้น เพื่อให้เอเจนต์บอก ผู้ใช้ได้ และเมื่อ policy การส่งมอบจากแหล่งที่มากำหนด จะส่งต่อผลลัพธ์ผ่าน เครื่องมือข้อความ สำหรับเส้นทางกลุ่ม/ช่องทางที่ใช้ได้เฉพาะเครื่องมือข้อความ OpenClaw ถือว่า หลักฐานการส่งมอบด้วยเครื่องมือข้อความที่ขาดหายเป็นความพยายามทำให้เสร็จสิ้นที่ล้มเหลว และส่ง สื่อ fallback ที่สร้างขึ้นโดยตรงไปยังช่องทางต้นทาง

การแปลงเสียงเป็นข้อความและ Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio และ xAI ทั้งหมดสามารถถอดเสียง เสียงขาเข้าผ่านเส้นทาง batch tools.media.audio ได้เมื่อกำหนดค่าไว้ Plugin ช่องทางที่ preflight ข้อความเสียงสำหรับการกรอง mention หรือการแยกวิเคราะห์ คำสั่ง จะทำเครื่องหมายไฟล์แนบที่ถอดเสียงแล้วบน context ขาเข้า เพื่อให้รอบ การเข้าใจสื่อที่ใช้ร่วมกันนำ transcript นั้นกลับมาใช้แทนการเรียก STT ครั้งที่สองสำหรับเสียงเดียวกัน Deepgram, ElevenLabs, Mistral, OpenAI และ xAI ยังลงทะเบียน provider STT แบบสตรีมของ Voice Call ด้วย ดังนั้นเสียงโทรศัพท์สดจึงสามารถส่งต่อไปยัง vendor ที่เลือก ได้โดยไม่ต้องรอให้การบันทึกเสร็จสมบูรณ์ สำหรับบทสนทนาสดกับผู้ใช้ ให้ใช้ โหมด Talk เป็นหลัก ไฟล์แนบเสียงแบบ batch จะอยู่บนเส้นทางสื่อ; realtime บนเบราว์เซอร์, push-to-talk แบบ native, โทรศัพท์ และเสียงการประชุมควรใช้เหตุการณ์ Talk และแค็ตตาล็อกที่ผูกกับเซสชัน ซึ่ง Gateway ส่งคืน

การแมป provider (วิธีที่ vendor แยกตามพื้นผิว)

พื้นผิวรูปภาพ วิดีโอ เพลง TTS แบบ batch, เสียง realtime ฝั่ง backend และ การเข้าใจสื่อ
พื้นผิวรูปภาพ วิดีโอ TTS แบบ batch, STT แบบ batch, STT แบบสตรีมของ Voice Call, เสียง realtime ฝั่ง backend และ memory-embedding
พื้นผิวการกำหนดเส้นทาง chat/model, การสร้าง/แก้ไขรูปภาพ, ข้อความเป็นวิดีโอ, TTS แบบ batch, STT แบบ batch, การเข้าใจสื่อรูปภาพ และ memory-embedding model rerank/classification/object-detection แบบ native ของ DeepInfra จะยังไม่ ลงทะเบียนจนกว่า OpenClaw จะมีสัญญา provider เฉพาะสำหรับหมวดหมู่เหล่านั้น
รูปภาพ วิดีโอ การค้นหา code-execution, TTS แบบ batch, STT แบบ batch และ STT แบบสตรีมของ Voice Call เสียง xAI Realtime เป็นความสามารถ upstream แต่ยัง ไม่ได้ลงทะเบียนใน OpenClaw จนกว่าสัญญาเสียง realtime ที่ใช้ร่วมกันจะสามารถ แสดงแทนได้

ที่เกี่ยวข้อง