Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw agent สามารถสร้างวิดีโอจากพรอมป์ข้อความ รูปภาพอ้างอิง หรือ วิดีโอที่มีอยู่ได้ รองรับแบ็กเอนด์ผู้ให้บริการสิบหกราย โดยแต่ละรายมี ตัวเลือกโมเดล โหมดอินพุต และชุดฟีเจอร์ที่แตกต่างกัน agent จะเลือก ผู้ให้บริการที่เหมาะสมโดยอัตโนมัติตามการกำหนดค่าและ API key ที่มีอยู่ของคุณ
เครื่องมือ video_generate จะปรากฏก็ต่อเมื่อมีผู้ให้บริการสร้างวิดีโอ อย่างน้อยหนึ่งรายพร้อมใช้งาน หากคุณไม่เห็นเครื่องมือนี้ในเครื่องมือของ agent ให้ตั้งค่า API key ของผู้ให้บริการ หรือกำหนดค่า agents.defaults.videoGenerationModel
OpenClaw ถือว่าการสร้างวิดีโอมีโหมดรันไทม์สามโหมด:
  • generate - คำขอแปลงข้อความเป็นวิดีโอที่ไม่มีสื่ออ้างอิง
  • imageToVideo - คำขอมีรูปภาพอ้างอิงอย่างน้อยหนึ่งรูป
  • videoToVideo - คำขอมีวิดีโออ้างอิงอย่างน้อยหนึ่งรายการ
ผู้ให้บริการสามารถรองรับโหมดเหล่านี้ชุดย่อยใดก็ได้ เครื่องมือจะตรวจสอบ โหมดที่ใช้งานอยู่ก่อนส่งคำขอ และรายงานโหมดที่รองรับใน action=list

เริ่มต้นอย่างรวดเร็ว

1

กำหนดค่าการยืนยันตัวตน

ตั้งค่า API key สำหรับผู้ให้บริการที่รองรับรายใดก็ได้:
export GEMINI_API_KEY="your-key"
2

เลือกโมเดลเริ่มต้น (ไม่บังคับ)

openclaw config set agents.defaults.videoGenerationModel.primary "google/veo-3.1-fast-generate-preview"
3

ขอให้ agent ทำงาน

สร้างวิดีโอภาพยนตร์ความยาว 5 วินาทีของล็อบสเตอร์ที่เป็นมิตรกำลังเล่นเซิร์ฟยามพระอาทิตย์ตก
agent จะเรียก video_generate โดยอัตโนมัติ ไม่จำเป็นต้องอนุญาตเครื่องมือเป็นพิเศษ

การสร้างแบบอะซิงโครนัสทำงานอย่างไร

การสร้างวิดีโอเป็นแบบอะซิงโครนัส เมื่อ agent เรียก video_generate ใน เซสชัน:
  1. OpenClaw ส่งคำขอไปยังผู้ให้บริการและส่งคืน task id ทันที
  2. ผู้ให้บริการประมวลผลงานอยู่เบื้องหลัง (โดยทั่วไปใช้เวลา 30 วินาทีถึงหลายนาทีขึ้นอยู่กับผู้ให้บริการและความละเอียด ผู้ให้บริการที่อาศัยคิวและทำงานช้าอาจทำงานได้จนถึงเวลาหมดเวลาที่กำหนดไว้)
  3. เมื่อวิดีโอพร้อมแล้ว OpenClaw จะปลุกเซสชันเดิมด้วยอีเวนต์เสร็จสิ้นภายใน
  4. agent แจ้งผู้ใช้และแนบวิดีโอที่เสร็จแล้ว ในแชตกลุ่ม/ช่องทาง ที่ใช้การส่งแบบมองเห็นได้ผ่านเครื่องมือข้อความเท่านั้น agent จะส่งต่อ ผลลัพธ์ผ่านเครื่องมือข้อความ แทนที่ OpenClaw จะโพสต์โดยตรง
ขณะที่งานกำลังดำเนินอยู่ การเรียก video_generate ซ้ำในเซสชันเดียวกัน จะส่งคืนสถานะงานปัจจุบันแทนการเริ่มสร้างอีกรายการหนึ่ง ใช้ openclaw tasks list หรือ openclaw tasks show <taskId> เพื่อ ตรวจสอบความคืบหน้าจาก CLI นอกเหนือจากการรัน agent ที่มีเซสชันรองรับ (เช่น การเรียกเครื่องมือโดยตรง) เครื่องมือจะถอยกลับไปใช้การสร้างแบบอินไลน์และส่งคืนเส้นทางสื่อสุดท้าย ในเทิร์นเดียวกัน ไฟล์วิดีโอที่สร้างขึ้นจะถูกบันทึกไว้ใต้พื้นที่จัดเก็บสื่อที่ OpenClaw จัดการเมื่อ ผู้ให้บริการส่งคืนไบต์ ขีดจำกัดการบันทึกวิดีโอที่สร้างขึ้นตามค่าเริ่มต้นจะอิงตาม ขีดจำกัดสื่อวิดีโอ และ agents.defaults.mediaMaxMb จะเพิ่มขีดจำกัดนี้สำหรับ เรนเดอร์ที่ใหญ่ขึ้น เมื่อผู้ให้บริการส่งคืน URL เอาต์พุตที่โฮสต์ไว้ด้วย OpenClaw สามารถส่ง URL นั้นแทนการทำให้งานล้มเหลว หากการคงอยู่ในเครื่อง ปฏิเสธไฟล์ที่มีขนาดใหญ่เกินไป

วงจรชีวิตของงาน

สถานะความหมาย
queuedสร้างงานแล้ว กำลังรอให้ผู้ให้บริการรับงาน
runningผู้ให้บริการกำลังประมวลผล (โดยทั่วไปใช้เวลา 30 วินาทีถึงหลายนาทีขึ้นอยู่กับผู้ให้บริการและความละเอียด)
succeededวิดีโอพร้อมแล้ว agent จะตื่นขึ้นและโพสต์ไปยังการสนทนา
failedข้อผิดพลาดของผู้ให้บริการหรือหมดเวลา agent จะตื่นขึ้นพร้อมรายละเอียดข้อผิดพลาด
ตรวจสอบสถานะจาก CLI:
openclaw tasks list
openclaw tasks show <taskId>
openclaw tasks cancel <taskId>
หากงานวิดีโออยู่ในสถานะ queued หรือ running สำหรับเซสชันปัจจุบันอยู่แล้ว video_generate จะส่งคืนสถานะงานที่มีอยู่แทนการเริ่มงานใหม่ ใช้ action: "status" เพื่อตรวจสอบอย่างชัดเจนโดยไม่ทริกเกอร์การสร้างใหม่

ผู้ให้บริการที่รองรับ

ผู้ให้บริการโมเดลเริ่มต้นข้อความอ้างอิงรูปภาพอ้างอิงวิดีโอการยืนยันตัวตน
Alibabawan2.6-t2vใช่ (URL ระยะไกล)ใช่ (URL ระยะไกล)MODELSTUDIO_API_KEY
BytePlus (1.0)seedance-1-0-pro-250528สูงสุด 2 รูปภาพ (เฉพาะโมเดล I2V; เฟรมแรก + เฟรมสุดท้าย)-BYTEPLUS_API_KEY
BytePlus Seedance 1.5seedance-1-5-pro-251215สูงสุด 2 รูปภาพ (เฟรมแรก + เฟรมสุดท้ายผ่าน role)-BYTEPLUS_API_KEY
BytePlus Seedance 2.0dreamina-seedance-2-0-260128รูปภาพอ้างอิงสูงสุด 9 รูปวิดีโอสูงสุด 3 รายการBYTEPLUS_API_KEY
ComfyUIworkflow1 รูปภาพ-COMFY_API_KEY หรือ COMFY_CLOUD_API_KEY
DeepInfraPixverse/Pixverse-T2V--DEEPINFRA_API_KEY
falfal-ai/minimax/video-01-live1 รูปภาพ; สูงสุด 9 รูปเมื่อใช้ Seedance reference-to-videoวิดีโอสูงสุด 3 รายการเมื่อใช้ Seedance reference-to-videoFAL_KEY
Googleveo-3.1-fast-generate-preview1 รูปภาพ1 วิดีโอGEMINI_API_KEY
MiniMaxMiniMax-Hailuo-2.31 รูปภาพ-MINIMAX_API_KEY หรือ MiniMax OAuth
OpenAIsora-21 รูปภาพ1 วิดีโอOPENAI_API_KEY
OpenRoutergoogle/veo-3.1-fastสูงสุด 4 รูปภาพ (เฟรมแรก/เฟรมสุดท้ายหรือข้อมูลอ้างอิง)-OPENROUTER_API_KEY
Qwenwan2.6-t2vใช่ (URL ระยะไกล)ใช่ (URL ระยะไกล)QWEN_API_KEY
Runwaygen4.51 รูปภาพ1 วิดีโอRUNWAYML_API_SECRET
TogetherWan-AI/Wan2.2-T2V-A14B1 รูปภาพ-TOGETHER_API_KEY
Vydraveo31 รูปภาพ (kling)-VYDRA_API_KEY
xAIgrok-imagine-videoรูปภาพเฟรมแรก 1 รูป หรือ reference_image สูงสุด 7 รูป1 วิดีโอXAI_API_KEY
ผู้ให้บริการบางรายยอมรับตัวแปรสภาพแวดล้อม API key เพิ่มเติมหรือทางเลือกอื่น ดู รายละเอียดใน หน้าผู้ให้บริการ แต่ละหน้า รัน video_generate action=list เพื่อตรวจสอบผู้ให้บริการ โมเดล และ โหมดรันไทม์ที่พร้อมใช้งาน ณ ขณะรันไทม์

เมทริกซ์ความสามารถ

สัญญาโหมดแบบชัดเจนที่ใช้โดย video_generate, การทดสอบสัญญา และ การกวาดสดแบบใช้ร่วมกัน:
ผู้ให้บริการgenerateimageToVideovideoToVideoเลนสดแบบใช้ร่วมกันในวันนี้
Alibabagenerate, imageToVideo; ข้าม videoToVideo เพราะผู้ให้บริการรายนี้ต้องใช้ URL วิดีโอ http(s) ระยะไกล
BytePlus-generate, imageToVideo
ComfyUI-ไม่อยู่ในการกวาดแบบใช้ร่วมกัน ความครอบคลุมเฉพาะ workflow อยู่กับการทดสอบ Comfy
DeepInfra--generate; สคีมาวิดีโอ DeepInfra แบบเนทีฟเป็นแบบแปลงข้อความเป็นวิดีโอในสัญญาที่บันเดิลมา
falgenerate, imageToVideo; videoToVideo เฉพาะเมื่อใช้ Seedance reference-to-video
Googlegenerate, imageToVideo; ข้าม videoToVideo แบบใช้ร่วมกัน เพราะการกวาด Gemini/Veo ปัจจุบันที่อิงบัฟเฟอร์ไม่ยอมรับอินพุตนั้น
MiniMax-generate, imageToVideo
OpenAIgenerate, imageToVideo; ข้าม videoToVideo แบบใช้ร่วมกัน เพราะเส้นทาง org/input นี้ต้องใช้การเข้าถึง inpaint/remix ฝั่งผู้ให้บริการในปัจจุบัน
OpenRouter-generate, imageToVideo
Qwengenerate, imageToVideo; ข้าม videoToVideo เพราะผู้ให้บริการรายนี้ต้องใช้ URL วิดีโอ http(s) ระยะไกล
Runwaygenerate, imageToVideo; videoToVideo รันเฉพาะเมื่อโมเดลที่เลือกคือ runway/gen4_aleph
Together-generate, imageToVideo
Vydra-generate; ข้าม imageToVideo แบบใช้ร่วมกัน เพราะ veo3 ที่บันเดิลมาเป็นแบบข้อความเท่านั้น และ kling ที่บันเดิลมาต้องใช้ URL รูปภาพระยะไกล
xAIgenerate, imageToVideo; ข้าม videoToVideo เพราะผู้ให้บริการรายนี้ต้องใช้ URL MP4 ระยะไกลในปัจจุบัน

พารามิเตอร์เครื่องมือ

จำเป็น

prompt
string
required
คำอธิบายข้อความของวิดีโอที่จะสร้าง จำเป็นสำหรับ action: "generate"

อินพุตเนื้อหา

image
string
ภาพอ้างอิงเดียว (พาธหรือ URL)
images
string[]
ภาพอ้างอิงหลายภาพ (สูงสุด 9 ภาพ)
imageRoles
string[]
คำใบ้บทบาทตามแต่ละตำแหน่งที่ขนานกับรายการภาพที่รวมแล้ว ซึ่งเป็นทางเลือก ค่ามาตรฐาน: first_frame, last_frame, reference_image
video
string
วิดีโออ้างอิงเดียว (พาธหรือ URL)
videos
string[]
วิดีโออ้างอิงหลายรายการ (สูงสุด 4 รายการ)
videoRoles
string[]
คำใบ้บทบาทตามแต่ละตำแหน่งที่ขนานกับรายการวิดีโอที่รวมแล้ว ซึ่งเป็นทางเลือก ค่ามาตรฐาน: reference_video
audioRef
string
เสียงอ้างอิงเดียว (พาธหรือ URL) ใช้สำหรับเพลงพื้นหลังหรือเสียง อ้างอิงเมื่อผู้ให้บริการรองรับอินพุตเสียง
audioRefs
string[]
เสียงอ้างอิงหลายรายการ (สูงสุด 3 รายการ)
audioRoles
string[]
คำใบ้บทบาทตามแต่ละตำแหน่งที่ขนานกับรายการเสียงที่รวมแล้ว ซึ่งเป็นทางเลือก ค่ามาตรฐาน: reference_audio
คำใบ้บทบาทจะถูกส่งต่อไปยังผู้ให้บริการตามเดิม ค่ามาตรฐานมาจาก ยูเนียน VideoGenerationAssetRole แต่ผู้ให้บริการอาจยอมรับ สตริงบทบาทเพิ่มเติม อาร์เรย์ *Roles ต้องมีจำนวนรายการไม่มากกว่า รายการอ้างอิงที่สอดคล้องกัน ข้อผิดพลาดนับเกินหรือน้อยไปหนึ่งตำแหน่งจะล้มเหลวพร้อมข้อผิดพลาดที่ชัดเจน ใช้สตริงว่างเพื่อปล่อยให้ช่องหนึ่งไม่ได้ตั้งค่า สำหรับ xAI ให้ตั้งบทบาทของภาพทุกภาพเป็น reference_image เพื่อใช้โหมดการสร้าง reference_images ของผู้ให้บริการนั้น ละเว้น บทบาทหรือใช้ first_frame สำหรับภาพเดี่ยวแบบภาพเป็นวิดีโอ

การควบคุมสไตล์

aspectRatio
string
คำใบ้อัตราส่วนภาพ เช่น 1:1, 16:9, 9:16, adaptive หรือค่าที่เฉพาะกับผู้ให้บริการ OpenClaw จะทำให้เป็นมาตรฐานหรือเพิกเฉยค่าที่ไม่รองรับตามผู้ให้บริการแต่ละราย
resolution
string
คำใบ้ความละเอียด เช่น 480P, 720P, 768P, 1080P, 4K หรือค่าที่เฉพาะกับผู้ให้บริการ OpenClaw จะทำให้เป็นมาตรฐานหรือเพิกเฉยค่าที่ไม่รองรับตามผู้ให้บริการแต่ละราย
durationSeconds
number
ระยะเวลาเป้าหมายเป็นวินาที (ปัดเป็นค่าที่ใกล้ที่สุดซึ่งผู้ให้บริการรองรับ)
size
string
คำใบ้ขนาดเมื่อผู้ให้บริการรองรับ
audio
boolean
เปิดใช้เสียงที่สร้างขึ้นในเอาต์พุตเมื่อรองรับ แยกจาก audioRef* (อินพุต)
watermark
boolean
สลับการใส่ลายน้ำของผู้ให้บริการเมื่อรองรับ
adaptive เป็น sentinel ที่เฉพาะกับผู้ให้บริการ: จะถูกส่งต่อไปตามเดิมยัง ผู้ให้บริการที่ประกาศ adaptive ไว้ในความสามารถของตน (เช่น BytePlus Seedance ใช้ค่านี้เพื่อตรวจจับอัตราส่วนอัตโนมัติจากมิติของภาพอินพุต) ผู้ให้บริการที่ไม่ได้ประกาศค่านี้จะแสดงค่านั้นผ่าน details.ignoredOverrides ในผลลัพธ์ของเครื่องมือ เพื่อให้เห็นว่าค่าถูกละทิ้ง

ขั้นสูง

action
"generate" | "status" | "list"
default:"generate"
"status" ส่งคืนงานของเซสชันปัจจุบัน; "list" ตรวจสอบผู้ให้บริการ
model
string
การแทนที่ผู้ให้บริการ/โมเดล (เช่น runway/gen4.5)
filename
string
คำใบ้ชื่อไฟล์เอาต์พุต
timeoutMs
number
ระยะหมดเวลาการดำเนินการของผู้ให้บริการเป็นมิลลิวินาที ซึ่งเป็นทางเลือก เมื่อละเว้น OpenClaw จะใช้ agents.defaults.videoGenerationModel.timeoutMs หากกำหนดค่าไว้
providerOptions
object
ตัวเลือกเฉพาะผู้ให้บริการในรูปแบบอ็อบเจ็กต์ JSON (เช่น {"seed": 42, "draft": true}) ผู้ให้บริการที่ประกาศสคีมาแบบมีชนิดจะตรวจสอบคีย์และชนิด; คีย์ที่ไม่รู้จัก หรือชนิดที่ไม่ตรงกันจะข้ามตัวเลือกนั้นระหว่าง fallback ผู้ให้บริการที่ไม่มี สคีมาที่ประกาศไว้จะได้รับตัวเลือกตามเดิม รัน video_generate action=list เพื่อดูว่าผู้ให้บริการแต่ละรายยอมรับอะไรบ้าง
ไม่ใช่ผู้ให้บริการทุกแห่งที่รองรับทุกพารามิเตอร์ OpenClaw จะทำให้ระยะเวลาเป็นมาตรฐานเป็น ค่าที่ใกล้ที่สุดซึ่งผู้ให้บริการรองรับ และแมปคำใบ้เรขาคณิตที่แปลแล้วใหม่ เช่นขนาดเป็นอัตราส่วนภาพเมื่อผู้ให้บริการ fallback เปิดเผย พื้นผิวการควบคุมที่ต่างกัน การแทนที่ที่ไม่รองรับจริง ๆ จะถูกเพิกเฉยตามหลัก พยายามให้ดีที่สุดและรายงานเป็นคำเตือนในผลลัพธ์ของเครื่องมือ ขีดจำกัดความสามารถแบบแข็ง (เช่นอินพุตอ้างอิงมากเกินไป) จะล้มเหลวก่อนส่งคำขอ ผลลัพธ์ของเครื่องมือ รายงานการตั้งค่าที่นำไปใช้; details.normalization บันทึกการแปลใด ๆ จากค่าที่ร้องขอไปเป็นค่าที่นำไปใช้
อินพุตอ้างอิงเลือกโหมดรันไทม์:
  • ไม่มีสื่ออ้างอิง → generate
  • มีภาพอ้างอิงใด ๆ → imageToVideo
  • มีวิดีโออ้างอิงใด ๆ → videoToVideo
  • อินพุตเสียงอ้างอิง ไม่ เปลี่ยนโหมดที่สรุปได้; อินพุตเหล่านี้จะถูกใช้ทับ โหมดใดก็ตามที่อ้างอิงจากภาพ/วิดีโอเลือกไว้ และใช้งานได้เฉพาะ กับผู้ให้บริการที่ประกาศ maxInputAudios
การผสมการอ้างอิงภาพและวิดีโอไม่ใช่พื้นผิวความสามารถร่วมที่เสถียร ควรใช้ชนิดอ้างอิงเดียวต่อคำขอ

Fallback และตัวเลือกแบบมีชนิด

การตรวจสอบความสามารถบางส่วนจะถูกนำไปใช้ที่เลเยอร์ fallback แทนที่จะเป็น ขอบเขตเครื่องมือ ดังนั้นคำขอที่เกินขีดจำกัดของผู้ให้บริการหลักจึงยังสามารถ รันบน fallback ที่มีความสามารถได้:
  • ตัวเลือกที่ใช้งานอยู่ซึ่งไม่ได้ประกาศ maxInputAudios (หรือเป็น 0) จะถูกข้ามเมื่อ คำขอมีการอ้างอิงเสียง; จากนั้นจะลองตัวเลือกถัดไป
  • maxDurationSeconds ของตัวเลือกที่ใช้งานอยู่ต่ำกว่า durationSeconds ที่ร้องขอ โดยไม่มีรายการ supportedDurationSeconds ที่ประกาศไว้ → ถูกข้าม
  • คำขอมี providerOptions และตัวเลือกที่ใช้งานอยู่ประกาศสคีมา providerOptions แบบมีชนิดไว้อย่างชัดเจน → ถูกข้ามหากคีย์ที่ให้มา ไม่อยู่ในสคีมาหรือชนิดค่าไม่ตรงกัน ผู้ให้บริการที่ไม่มี สคีมาที่ประกาศไว้จะได้รับตัวเลือกตามเดิม (การส่งผ่านที่เข้ากันได้ย้อนหลัง) ผู้ให้บริการสามารถเลือกไม่รับตัวเลือกผู้ให้บริการทั้งหมดได้โดย ประกาศสคีมาว่าง (capabilities.providerOptions: {}) ซึ่ง ทำให้ถูกข้ามเช่นเดียวกับกรณีชนิดไม่ตรงกัน
เหตุผลการข้ามแรกในคำขอจะบันทึกที่ warn เพื่อให้ผู้ปฏิบัติงานเห็นเมื่อ ผู้ให้บริการหลักของตนถูกข้าม; การข้ามครั้งต่อ ๆ ไปจะบันทึกที่ debug เพื่อ ไม่ให้เชน fallback ยาว ๆ ส่งเสียงรบกวน หากตัวเลือกทั้งหมดถูกข้าม ข้อผิดพลาดแบบรวมจะรวมเหตุผลการข้ามของแต่ละตัวเลือกไว้ด้วย

การดำเนินการ

การดำเนินการสิ่งที่ทำ
generateค่าเริ่มต้น สร้างวิดีโอจากพรอมต์ที่กำหนดและอินพุตอ้างอิงที่เป็นทางเลือก
statusตรวจสอบสถานะของงานวิดีโอที่กำลังดำเนินอยู่สำหรับเซสชันปัจจุบันโดยไม่เริ่มการสร้างใหม่
listแสดงผู้ให้บริการ โมเดล และความสามารถที่พร้อมใช้งาน

การเลือกโมเดล

OpenClaw จะแก้ค่าโมเดลตามลำดับนี้:
  1. พารามิเตอร์เครื่องมือ model - หากเอเจนต์ระบุไว้ในการเรียก
  2. videoGenerationModel.primary จากการกำหนดค่า
  3. videoGenerationModel.fallbacks ตามลำดับ
  4. การตรวจจับอัตโนมัติ - ผู้ให้บริการที่มีการยืนยันตัวตนถูกต้อง โดยเริ่มจาก ผู้ให้บริการเริ่มต้นปัจจุบัน จากนั้นเป็นผู้ให้บริการที่เหลือตามลำดับ ตัวอักษร
หากผู้ให้บริการล้มเหลว จะลองตัวเลือกถัดไปโดยอัตโนมัติ หากตัวเลือกทั้งหมด ล้มเหลว ข้อผิดพลาดจะรวมรายละเอียดจากแต่ละความพยายาม ตั้งค่า agents.defaults.mediaGenerationAutoProviderFallback: false เพื่อใช้ เฉพาะรายการ model, primary และ fallbacks ที่ระบุอย่างชัดเจนเท่านั้น
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "google/veo-3.1-fast-generate-preview",
        fallbacks: ["runway/gen4.5", "qwen/wan2.6-t2v"],
      },
    },
  },
}

หมายเหตุผู้ให้บริการ

ใช้ปลายทางแบบอะซิงโครนัสของ DashScope / Model Studio ภาพอ้างอิงและ วิดีโอต้องเป็น URL http(s) ระยะไกล
รหัสผู้ให้บริการ: byteplus.โมเดล: seedance-1-0-pro-250528 (ค่าเริ่มต้น), seedance-1-0-pro-t2v-250528, seedance-1-0-pro-fast-251015, seedance-1-0-lite-t2v-250428, seedance-1-0-lite-i2v-250428.โมเดล T2V (*-t2v-*) ไม่รับอินพุตภาพ; โมเดล I2V และ โมเดล *-pro-* ทั่วไปรองรับภาพอ้างอิงเดียว (เฟรมแรก) ส่งภาพตามตำแหน่งหรือตั้งค่า role: "first_frame" ID โมเดล T2V จะถูกสลับอัตโนมัติเป็นตัวแปร I2V ที่สอดคล้องกันเมื่อมีการให้ภาพคีย์ providerOptions ที่รองรับ: seed (ตัวเลข), draft (บูลีน - บังคับเป็น 480p), camera_fixed (บูลีน)
ต้องใช้ Plugin @openclaw/byteplus-modelark รหัสผู้ให้บริการ: byteplus-seedance15 โมเดล: seedance-1-5-pro-251215.ใช้ API content[] แบบรวม รองรับภาพอินพุตสูงสุด 2 ภาพ (first_frame + last_frame) อินพุตทั้งหมดต้องเป็น URL https:// ระยะไกล ตั้งค่า role: "first_frame" / "last_frame" บนแต่ละภาพ หรือ ส่งภาพตามตำแหน่งaspectRatio: "adaptive" ตรวจจับอัตราส่วนอัตโนมัติจากภาพอินพุต audio: true แมปเป็น generate_audio ส่งต่อ providerOptions.seed (ตัวเลข)
ต้องใช้ Plugin @openclaw/byteplus-modelark รหัสผู้ให้บริการ: byteplus-seedance2 โมเดล: dreamina-seedance-2-0-260128, dreamina-seedance-2-0-fast-260128.ใช้ API content[] แบบรวม รองรับภาพอ้างอิงสูงสุด 9 ภาพ วิดีโออ้างอิง 3 รายการ และเสียงอ้างอิง 3 รายการ อินพุตทั้งหมดต้องเป็น URL https:// ระยะไกล ตั้งค่า role บนแต่ละแอสเซ็ต - ค่าที่รองรับ: "first_frame", "last_frame", "reference_image", "reference_video", "reference_audio".aspectRatio: "adaptive" ตรวจจับอัตราส่วนอัตโนมัติจากภาพอินพุต audio: true แมปเป็น generate_audio ส่งต่อ providerOptions.seed (ตัวเลข)
การประมวลผลแบบโลคัลหรือบนคลาวด์ที่ขับเคลื่อนด้วยเวิร์กโฟลว์ รองรับ text-to-video และ image-to-video ผ่านกราฟที่กำหนดค่าไว้
ใช้โฟลว์ที่มีคิวรองรับสำหรับงานที่ทำงานนาน ตามค่าเริ่มต้น OpenClaw จะรอสูงสุด 20 นาทีก่อนถือว่างานคิว fal ที่ยังดำเนินอยู่หมดเวลา โมเดลวิดีโอ fal ส่วนใหญ่ รับการอ้างอิงรูปภาพได้หนึ่งรายการ โมเดล Seedance 2.0 reference-to-video รับรูปภาพได้สูงสุด 9 รายการ วิดีโอ 3 รายการ และการอ้างอิงเสียง 3 รายการ โดยมี ไฟล์อ้างอิงรวมกันได้ไม่เกิน 12 ไฟล์
รองรับการอ้างอิงรูปภาพหนึ่งรายการหรือวิดีโอหนึ่งรายการ คำขอสร้างเสียงจะถูก เพิกเฉยพร้อมคำเตือนบนเส้นทาง Gemini API เนื่องจาก API นั้นปฏิเสธ พารามิเตอร์ generateAudio สำหรับการสร้างวิดีโอ Veo ปัจจุบัน
อ้างอิงรูปภาพได้เพียงรายการเดียว MiniMax รับความละเอียด 768P และ 1080P; คำขอเช่น 720P จะถูกปรับให้เป็นค่าที่รองรับซึ่งใกล้เคียงที่สุด ก่อนส่ง
ส่งต่อเฉพาะการแทนที่ size เท่านั้น การแทนที่สไตล์อื่นๆ (aspectRatio, resolution, audio, watermark) จะถูกเพิกเฉยพร้อม คำเตือน
ใช้ API /videos แบบอะซิงโครนัสของ OpenRouter OpenClaw ส่ง งาน โพล polling_url และดาวน์โหลดจาก unsigned_urls หรือ ปลายทางเนื้อหางานตามเอกสาร ค่าเริ่มต้น google/veo-3.1-fast ที่บันเดิลมา ประกาศระยะเวลา 4/6/8 วินาที ความละเอียด 720P/1080P และ อัตราส่วนภาพ 16:9/9:16
ใช้แบ็กเอนด์ DashScope เดียวกับ Alibaba อินพุตอ้างอิงต้องเป็น URL http(s) ระยะไกล; ไฟล์โลคัลจะถูกปฏิเสธตั้งแต่ต้น
รองรับไฟล์โลคัลผ่าน data URI Video-to-video ต้องใช้ runway/gen4_aleph การรันแบบข้อความอย่างเดียวเปิดใช้อัตราส่วนภาพ 16:9 และ 9:16
อ้างอิงรูปภาพได้เพียงรายการเดียว
ใช้ https://www.vydra.ai/api/v1 โดยตรงเพื่อหลีกเลี่ยงการเปลี่ยนเส้นทาง ที่ทำให้การตรวจสอบสิทธิ์หลุดหาย veo3 ถูกบันเดิลเป็น text-to-video เท่านั้น; kling ต้องใช้ URL รูปภาพระยะไกล
รองรับ text-to-video, image-to-video จากรูปภาพเฟรมแรกหนึ่งรายการ, อินพุต reference_image สูงสุด 7 รายการผ่าน reference_images ของ xAI และโฟลว์ แก้ไข/ขยายวิดีโอระยะไกล

โหมดความสามารถของผู้ให้บริการ

สัญญาการสร้างวิดีโอที่ใช้ร่วมกันรองรับความสามารถเฉพาะโหมด แทนที่จะมีเฉพาะขีดจำกัดแบบรวมแบนๆ เท่านั้น การติดตั้งใช้งานผู้ให้บริการใหม่ ควรเลือกใช้บล็อกโหมดที่ชัดเจน:
capabilities: {
  generate: {
    maxVideos: 1,
    maxDurationSeconds: 10,
    supportsResolution: true,
  },
  imageToVideo: {
    enabled: true,
    maxVideos: 1,
    maxInputImages: 1,
    maxInputImagesByModel: { "provider/reference-to-video": 9 },
    maxDurationSeconds: 5,
  },
  videoToVideo: {
    enabled: true,
    maxVideos: 1,
    maxInputVideos: 1,
    maxDurationSeconds: 5,
  },
}
ฟิลด์รวมแบบแบน เช่น maxInputImages และ maxInputVideos ไม่ เพียงพอสำหรับประกาศการรองรับโหมดแปลง ผู้ให้บริการควร ประกาศ generate, imageToVideo และ videoToVideo อย่างชัดเจน เพื่อให้ การทดสอบสด การทดสอบสัญญา และเครื่องมือ video_generate ที่ใช้ร่วมกันสามารถตรวจสอบ การรองรับโหมดได้อย่างกำหนดผลลัพธ์แน่นอน เมื่อโมเดลหนึ่งในผู้ให้บริการรองรับอินพุตอ้างอิงได้กว้างกว่า ที่เหลือ ให้ใช้ maxInputImagesByModel, maxInputVideosByModel หรือ maxInputAudiosByModel แทนการเพิ่มขีดจำกัดทั้งโหมด

การทดสอบสด

ความครอบคลุมแบบสดที่เลือกเปิดได้สำหรับผู้ให้บริการที่บันเดิลและใช้ร่วมกัน:
OPENCLAW_LIVE_TEST=1 pnpm test:live -- extensions/video-generation-providers.live.test.ts
ตัวครอบคำสั่งของรีโป:
pnpm test:live:media video
ไฟล์สดนี้โหลดตัวแปรสภาพแวดล้อมของผู้ให้บริการที่ขาดหายจาก ~/.profile, เลือกใช้ คีย์ API แบบสด/จากสภาพแวดล้อมก่อนโปรไฟล์การตรวจสอบสิทธิ์ที่จัดเก็บไว้ตามค่าเริ่มต้น และรัน การทดสอบ smoke ที่ปลอดภัยต่อการรีลีสตามค่าเริ่มต้น:
  • generate สำหรับผู้ให้บริการที่ไม่ใช่ FAL ทุกตัวในชุด sweep
  • พรอมป์ล็อบสเตอร์หนึ่งวินาที
  • ขีดจำกัดการดำเนินการต่อผู้ให้บริการจาก OPENCLAW_LIVE_VIDEO_GENERATION_TIMEOUT_MS (180000 ตามค่าเริ่มต้น)
FAL เป็นแบบเลือกเปิด เนื่องจากเวลาแฝงของคิวฝั่งผู้ให้บริการอาจกินเวลารีลีส เป็นหลัก:
pnpm test:live:media video --video-providers fal
ตั้งค่า OPENCLAW_LIVE_VIDEO_GENERATION_FULL_MODES=1 เพื่อรันโหมดแปลงที่ประกาศไว้ ซึ่งชุด sweep ที่ใช้ร่วมกันสามารถทดสอบได้อย่างปลอดภัยด้วยสื่อโลคัลด้วย:
  • imageToVideo เมื่อ capabilities.imageToVideo.enabled
  • videoToVideo เมื่อ capabilities.videoToVideo.enabled และ ผู้ให้บริการ/โมเดลรับอินพุตวิดีโอโลคัลที่รองรับด้วยบัฟเฟอร์ในชุด sweep ที่ใช้ร่วมกัน
ปัจจุบันเลนสด videoToVideo ที่ใช้ร่วมกันครอบคลุม runway เฉพาะเมื่อคุณ เลือก runway/gen4_aleph

การกำหนดค่า

ตั้งค่าโมเดลสร้างวิดีโอเริ่มต้นในการกำหนดค่า OpenClaw ของคุณ:
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "qwen/wan2.6-t2v",
        fallbacks: ["qwen/wan2.6-r2v-flash"],
      },
    },
  },
}
หรือผ่าน CLI:
openclaw config set agents.defaults.videoGenerationModel.primary "qwen/wan2.6-t2v"

ที่เกี่ยวข้อง