Nodes and media

การรองรับรูปภาพและสื่อ

ช่องทาง WhatsApp ทำงานผ่าน Baileys Web เอกสารนี้บันทึกกฎการจัดการสื่อปัจจุบันสำหรับการส่ง, Gateway และการตอบกลับของ agent

เป้าหมาย

ส่งสื่อพร้อมคำบรรยายที่ไม่บังคับผ่าน openclaw message send --media
อนุญาตให้การตอบกลับอัตโนมัติจากกล่องขาเข้าบนเว็บมีสื่อควบคู่กับข้อความได้
รักษาขีดจำกัดตามประเภทให้สมเหตุสมผลและคาดเดาได้

พื้นผิว CLI

openclaw message send --media <path-or-url> [--message <caption>]
- --media เป็นตัวเลือก; คำบรรยายสามารถว่างได้สำหรับการส่งเฉพาะสื่อ
- --dry-run พิมพ์ payload ที่ resolve แล้ว; --json ส่งออก { channel, to, messageId, mediaUrl, caption }

พฤติกรรมช่องทาง WhatsApp Web

อินพุต: พาธไฟล์ในเครื่อง หรือ URL แบบ HTTP(S)
โฟลว์: โหลดเข้า Buffer, ตรวจหาชนิดสื่อ และสร้าง payload ที่ถูกต้อง:
- รูปภาพ: ปรับขนาดและบีบอัดซ้ำเป็น JPEG (ด้านยาวสุด 2048px) โดยตั้งเป้า channels.whatsapp.mediaMaxMb (ค่าเริ่มต้น: 50 MB)
- เสียง/ข้อความเสียง/วิดีโอ: ส่งผ่านได้สูงสุด 16 MB; เสียงจะถูกส่งเป็นข้อความเสียง (ptt: true)
- เอกสาร: อย่างอื่นทั้งหมด สูงสุด 100 MB พร้อมรักษาชื่อไฟล์ไว้เมื่อมี
การเล่นแบบ GIF ของ WhatsApp: ส่ง MP4 พร้อม gifPlayback: true (CLI: --gif-playback) เพื่อให้ไคลเอนต์มือถือวนซ้ำแบบ inline
การตรวจจับ MIME ให้ความสำคัญกับ magic bytes จากนั้น headers แล้วจึงเป็นนามสกุลไฟล์
คำบรรยายมาจาก --message หรือ reply.text; อนุญาตให้คำบรรยายว่างได้
การบันทึก log: โหมดไม่ verbose แสดง ↩️/✅; โหมด verbose รวมขนาดและพาธ/URL ต้นทาง

Pipeline การตอบกลับอัตโนมัติ

getReplyFromConfig คืนค่า { text?, mediaUrl?, mediaUrls? }
เมื่อมีสื่อ ตัวส่งบนเว็บจะ resolve พาธในเครื่องหรือ URL โดยใช้ pipeline เดียวกับ openclaw message send
หากระบุรายการสื่อหลายรายการ จะส่งตามลำดับทีละรายการ

สื่อขาเข้าไปยังคำสั่ง

เมื่อข้อความเว็บขาเข้ามีสื่อ OpenClaw จะดาวน์โหลดไปยังไฟล์ชั่วคราวและเปิดเผยตัวแปรสำหรับ templating:
- {{MediaUrl}} pseudo-URL สำหรับสื่อขาเข้า
- {{MediaPath}} พาธชั่วคราวในเครื่องที่เขียนก่อนรันคำสั่ง
เมื่อเปิดใช้ Docker sandbox ราย session สื่อขาเข้าจะถูกคัดลอกเข้า workspace ของ sandbox และ MediaPath/MediaUrl จะถูกเขียนใหม่เป็นพาธสัมพัทธ์ เช่น media/inbound/<filename>
ความเข้าใจสื่อ (หากกำหนดค่าผ่าน tools.media.* หรือ tools.media.models ที่ใช้ร่วมกัน) จะทำงานก่อน templating และสามารถแทรกบล็อก [Image], [Audio] และ [Video] เข้าไปใน Body
- เสียงตั้งค่า {{Transcript}} และใช้ transcript สำหรับการแยกวิเคราะห์คำสั่ง เพื่อให้ slash commands ยังทำงานได้
- คำอธิบายวิดีโอและรูปภาพจะคงข้อความคำบรรยายไว้สำหรับการแยกวิเคราะห์คำสั่ง
- หากโมเดลรูปภาพหลักที่ active รองรับ vision โดยตรงอยู่แล้ว OpenClaw จะข้ามบล็อกสรุป [Image] และส่งรูปภาพต้นฉบับให้โมเดลแทน
โดยค่าเริ่มต้น จะประมวลผลเฉพาะไฟล์แนบรูปภาพ/เสียง/วิดีโอรายการแรกที่ตรงกัน; ตั้งค่า tools.media.<cap>.attachments เพื่อประมวลผลไฟล์แนบหลายรายการ

ขีดจำกัดและข้อผิดพลาด

เพดานการส่งขาออก (การส่งผ่าน WhatsApp web)

รูปภาพ: สูงสุด channels.whatsapp.mediaMaxMb (ค่าเริ่มต้น: 50 MB) หลังการบีบอัดซ้ำ
เสียง/ข้อความเสียง/วิดีโอ: เพดาน 16 MB; เอกสาร: เพดาน 100 MB
สื่อที่ใหญ่เกินไปหรืออ่านไม่ได้ → ข้อผิดพลาดชัดเจนใน log และการตอบกลับจะถูกข้าม

เพดานความเข้าใจสื่อ (การถอดเสียง/คำอธิบาย)

ค่าเริ่มต้นของรูปภาพ: 10 MB (tools.media.image.maxBytes)
ค่าเริ่มต้นของเสียง: 20 MB (tools.media.audio.maxBytes)
ค่าเริ่มต้นของวิดีโอ: 50 MB (tools.media.video.maxBytes)
สื่อที่ใหญ่เกินไปจะข้ามความเข้าใจสื่อ แต่การตอบกลับยังคงดำเนินต่อด้วยเนื้อหาต้นฉบับ

หมายเหตุสำหรับการทดสอบ

ครอบคลุมโฟลว์การส่งและการตอบกลับสำหรับกรณีรูปภาพ/เสียง/เอกสาร
ตรวจสอบการบีบอัดซ้ำสำหรับรูปภาพ (ขอบเขตขนาด) และแฟล็กข้อความเสียงสำหรับเสียง
ตรวจให้แน่ใจว่าการตอบกลับแบบหลายสื่อกระจายออกเป็นการส่งตามลำดับ

ที่เกี่ยวข้อง

Was this useful?