Tools

ภาพรวมสื่อ

OpenClaw สร้างรูปภาพ วิดีโอ และเพลง เข้าใจสื่อขาเข้า (รูปภาพ เสียง วิดีโอ) และพูดคำตอบออกเสียงด้วยข้อความเป็นเสียงพูด ความสามารถด้าน สื่อทั้งหมดขับเคลื่อนด้วยเครื่องมือ: agent จะตัดสินใจว่าจะใช้เมื่อใดตาม บทสนทนา และแต่ละเครื่องมือจะปรากฏเฉพาะเมื่อมีการกำหนดค่า provider ที่รองรับอย่างน้อยหนึ่งราย

เสียงพูดสดใช้สัญญาเซสชัน Talk แทนเส้นทางเครื่องมือสื่อแบบครั้งเดียว Talk มีสามโหมด: realtime แบบเนทีฟของ provider, stt-tts แบบ local หรือสตรีมมิง และ transcription สำหรับการจับเสียงพูดแบบสังเกตอย่างเดียว โหมดเหล่านี้ ใช้แค็ตตาล็อก provider, envelope เหตุการณ์ และความหมายของการยกเลิกร่วมกับ โทรศัพท์ การประชุม browser realtime และไคลเอนต์กดเพื่อพูดแบบเนทีฟ

ความสามารถ

การสร้างรูปภาพ

สร้างและแก้ไขรูปภาพจากพรอมป์ข้อความหรือรูปภาพอ้างอิงผ่าน image_generate อะซิงโครนัสในเซสชันแชต — ทำงานอยู่เบื้องหลังและ โพสต์ผลลัพธ์เมื่อพร้อม

การสร้างวิดีโอ

ข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และวิดีโอเป็นวิดีโอผ่าน video_generate อะซิงโครนัส — ทำงานอยู่เบื้องหลังและโพสต์ผลลัพธ์เมื่อพร้อม

การสร้างเพลง

สร้างเพลงหรือแทร็กเสียงผ่าน music_generate อะซิงโครนัสในเซสชันแชต บนวงจรชีวิตงานสร้างสื่อที่ใช้ร่วมกัน

ข้อความเป็นเสียงพูด

แปลงคำตอบขาออกเป็นเสียงพูดผ่านเครื่องมือ tts พร้อมการกำหนดค่า messages.tts ซิงโครนัส

การทำความเข้าใจสื่อ

สรุปรูปภาพ เสียง และวิดีโอขาเข้าโดยใช้ provider โมเดลที่รองรับ vision และ Plugin เฉพาะสำหรับการทำความเข้าใจสื่อ

เสียงพูดเป็นข้อความ

ถอดเสียงข้อความเสียงขาเข้าผ่าน STT แบบแบตช์หรือ provider STT แบบสตรีมมิง ของ Voice Call

เมทริกซ์ความสามารถของ provider

Provider	รูปภาพ	วิดีโอ	เพลง	TTS	STT	เสียง realtime	การทำความเข้าใจสื่อ
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Note

การทำความเข้าใจสื่อใช้โมเดลที่รองรับ vision หรือรองรับเสียงใดก็ได้ที่ลงทะเบียน ไว้ในการกำหนดค่า provider ของคุณ เมทริกซ์ด้านบนแสดงรายชื่อ provider ที่มีการรองรับ การทำความเข้าใจสื่อโดยเฉพาะ; provider LLM หลายโมดัลส่วนใหญ่ (Anthropic, Google, OpenAI ฯลฯ) ยังสามารถเข้าใจสื่อขาเข้าได้เมื่อกำหนดค่าเป็นโมเดลตอบกลับที่ใช้งานอยู่

อะซิงโครนัสเทียบกับซิงโครนัส

ความสามารถ	โหมด	เหตุผล
รูปภาพ	อะซิงโครนัส	การประมวลผลของ provider อาจยาวเกินรอบแชตหนึ่งครั้ง; ไฟล์แนบที่สร้างขึ้นใช้เส้นทางเสร็จสมบูรณ์ที่ใช้ร่วมกัน
ข้อความเป็นเสียงพูด	ซิงโครนัส	คำตอบของ provider ส่งกลับภายในไม่กี่วินาที; แนบเข้ากับเสียงตอบกลับ
วิดีโอ	อะซิงโครนัส	การประมวลผลของ provider ใช้เวลา 30 วินาทีถึงหลายนาที; คิวที่ช้าอาจทำงานได้จนถึง timeout ที่กำหนดค่าไว้
เพลง	อะซิงโครนัส	มีลักษณะการประมวลผลของ provider เหมือนกับวิดีโอ

สำหรับเครื่องมืออะซิงโครนัส OpenClaw จะส่งคำขอไปยัง provider, ส่งคืน id ของงาน ทันที และติดตามงานในบัญชีแยกประเภทงาน agent จะตอบกลับข้อความอื่นต่อไป ระหว่างที่งานทำงาน เมื่อ provider ทำเสร็จ OpenClaw จะปลุก agent พร้อม path สื่อที่สร้างขึ้น เพื่อให้ agent บอกผู้ใช้ผ่านโหมดการตอบกลับที่มองเห็นได้ตามปกติของเซสชัน: การส่งคำตอบสุดท้ายอัตโนมัติเมื่อกำหนดค่าไว้ หรือ message(action="send") เมื่อเซสชันต้องใช้ เครื่องมือข้อความ หากเซสชันผู้ขอไม่ทำงานหรือการปลุกที่ใช้งานอยู่ล้มเหลว และสื่อที่สร้างขึ้นบางส่วนยังหายไปจากคำตอบเสร็จสมบูรณ์ OpenClaw จะส่ง fallback โดยตรงแบบ idempotent ที่มีเฉพาะสื่อที่หายไป สื่อที่ส่งไปแล้วโดยคำตอบเสร็จสมบูรณ์ จะไม่ถูกโพสต์ซ้ำ

เสียงพูดเป็นข้อความและ Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio และ xAI สามารถถอดเสียง เสียงขาเข้าผ่านเส้นทาง tools.media.audio แบบแบตช์ได้เมื่อกำหนดค่าไว้ Plugin ช่องทางที่ตรวจล่วงหน้า voice note เพื่อการคัดกรองการกล่าวถึงหรือการแยกวิเคราะห์ คำสั่งจะทำเครื่องหมายไฟล์แนบที่ถอดเสียงไว้บน context ขาเข้า ดังนั้น pass การทำความเข้าใจสื่อที่ใช้ร่วมกันจะนำ transcript นั้นกลับมาใช้แทนการเรียก STT ครั้งที่สองสำหรับเสียงเดียวกัน

Deepgram, ElevenLabs, Mistral, OpenAI และ xAI ยังลงทะเบียน provider STT แบบสตรีมมิง ของ Voice Call ด้วย ดังนั้นเสียงโทรศัพท์สดจึงสามารถส่งต่อไปยังผู้ให้บริการที่เลือก โดยไม่ต้องรอการบันทึกที่เสร็จสมบูรณ์

สำหรับบทสนทนาสดกับผู้ใช้ ให้ใช้ โหมด Talk เป็นหลัก ไฟล์แนบเสียงแบบแบตช์ ยังคงอยู่บนเส้นทางสื่อ; browser realtime, กดเพื่อพูดแบบเนทีฟ, โทรศัพท์ และเสียงการประชุมควรใช้เหตุการณ์ Talk และแค็ตตาล็อกที่จำกัดตามเซสชัน ซึ่ง Gateway ส่งกลับมา

การแมป provider (วิธีที่ผู้ให้บริการแยกไปตามพื้นผิวต่าง ๆ)

Google

พื้นผิวรูปภาพ วิดีโอ เพลง TTS แบบแบตช์ เสียง realtime ฝั่ง backend และ การทำความเข้าใจสื่อ

OpenAI

พื้นผิวรูปภาพ วิดีโอ TTS แบบแบตช์ STT แบบแบตช์ STT แบบสตรีมมิงของ Voice Call เสียง realtime ฝั่ง backend และ memory-embedding

DeepInfra

พื้นผิวการกำหนดเส้นทางแชต/โมเดล การสร้าง/แก้ไขรูปภาพ ข้อความเป็นวิดีโอ TTS แบบแบตช์ STT แบบแบตช์ การทำความเข้าใจสื่อรูปภาพ และ memory-embedding โมเดล rerank/classification/object-detection แบบเนทีฟของ DeepInfra จะยังไม่ ถูกลงทะเบียนจนกว่า OpenClaw จะมีสัญญา provider เฉพาะสำหรับหมวดหมู่เหล่านั้น

xAI

รูปภาพ วิดีโอ การค้นหา code-execution TTS แบบแบตช์ STT แบบแบตช์ และ STT แบบสตรีมมิงของ Voice Call เสียง xAI Realtime เป็นความสามารถจาก upstream แต่ยังไม่ได้ ลงทะเบียนใน OpenClaw จนกว่าสัญญา realtime-voice ที่ใช้ร่วมกันจะสามารถ แสดงแทนได้

ที่เกี่ยวข้อง

Was this useful?