Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

เครื่องมือ image_generate ช่วยให้เอเจนต์สร้างและแก้ไขรูปภาพโดยใช้ผู้ให้บริการ ที่คุณกำหนดค่าไว้ รูปภาพที่สร้างขึ้นจะถูกส่งโดยอัตโนมัติเป็นไฟล์แนบสื่อ ในคำตอบของเอเจนต์
เครื่องมือนี้จะปรากฏเฉพาะเมื่อมีผู้ให้บริการสร้างรูปภาพอย่างน้อยหนึ่งราย พร้อมใช้งาน หากคุณไม่เห็น image_generate ในเครื่องมือของเอเจนต์ ให้กำหนดค่า agents.defaults.imageGenerationModel ตั้งค่าคีย์ API ของผู้ให้บริการ หรือลงชื่อเข้าใช้ด้วย OpenAI Codex OAuth

เริ่มต้นอย่างรวดเร็ว

1

กำหนดค่าการยืนยันตัวตน

ตั้งค่าคีย์ API สำหรับผู้ให้บริการอย่างน้อยหนึ่งราย (เช่น OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) หรือลงชื่อเข้าใช้ด้วย OpenAI Codex OAuth
2

เลือกโมเดลเริ่มต้น (ไม่บังคับ)

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
      },
    },
  },
}
Codex OAuth ใช้อ้างอิงโมเดล openai/gpt-image-2 เดียวกัน เมื่อกำหนดค่า โปรไฟล์ OAuth openai-codex แล้ว OpenClaw จะกำหนดเส้นทางคำขอรูปภาพ ผ่านโปรไฟล์ OAuth นั้นแทนที่จะลองใช้ OPENAI_API_KEY ก่อน การกำหนดค่า models.providers.openai อย่างชัดเจน (คีย์ API, URL ฐานแบบกำหนดเอง/Azure) จะเลือกกลับไปใช้เส้นทาง OpenAI Images API โดยตรง
3

ถามเอเจนต์

“สร้างรูปภาพมาสคอตหุ่นยนต์ที่เป็นมิตร”เอเจนต์จะเรียก image_generate โดยอัตโนมัติ ไม่จำเป็นต้องเพิ่มเครื่องมือ ลงใน allow-list เพราะจะเปิดใช้งานเป็นค่าเริ่มต้นเมื่อมีผู้ให้บริการพร้อมใช้งาน
สำหรับเอนด์พอยต์ LAN ที่เข้ากันได้กับ OpenAI เช่น LocalAI ให้คงค่า models.providers.openai.baseUrl แบบกำหนดเองไว้ และเลือกใช้อย่างชัดเจนด้วย browser.ssrfPolicy.dangerouslyAllowPrivateNetwork: true เอนด์พอยต์รูปภาพ ส่วนตัวและภายในยังคงถูกบล็อกเป็นค่าเริ่มต้น

เส้นทางทั่วไป

เป้าหมายอ้างอิงโมเดลการยืนยันตัวตน
การสร้างรูปภาพด้วย OpenAI โดยเรียกเก็บเงินผ่าน APIopenai/gpt-image-2OPENAI_API_KEY
การสร้างรูปภาพด้วย OpenAI โดยใช้การยืนยันตัวตนจากการสมัครสมาชิก Codexopenai/gpt-image-2OpenAI Codex OAuth
PNG/WebP พื้นหลังโปร่งใสของ OpenAIopenai/gpt-image-1.5OPENAI_API_KEY หรือ OpenAI Codex OAuth
การสร้างรูปภาพด้วย DeepInfradeepinfra/black-forest-labs/FLUX-1-schnellDEEPINFRA_API_KEY
การสร้างรูปภาพด้วย OpenRouteropenrouter/google/gemini-3.1-flash-image-previewOPENROUTER_API_KEY
การสร้างรูปภาพด้วย LiteLLMlitellm/gpt-image-2LITELLM_API_KEY
การสร้างรูปภาพด้วย Google Geminigoogle/gemini-3.1-flash-image-previewGEMINI_API_KEY หรือ GOOGLE_API_KEY
เครื่องมือ image_generate เดียวกันรองรับทั้งการสร้างรูปภาพจากข้อความและ การแก้ไขรูปภาพอ้างอิง ใช้ image สำหรับรูปภาพอ้างอิงหนึ่งรูป หรือ images สำหรับรูปภาพอ้างอิงหลายรูป คำแนะนำเอาต์พุตที่ผู้ให้บริการรองรับ เช่น quality, outputFormat และ background จะถูกส่งต่อเมื่อพร้อมใช้งาน และจะถูกรายงานว่าถูกละเว้นเมื่อผู้ให้บริการไม่รองรับ การรองรับพื้นหลังโปร่งใส ที่มาพร้อมระบบเป็นแบบเฉพาะของ OpenAI ผู้ให้บริการรายอื่นอาจยังคงรักษาอัลฟา ของ PNG ไว้ได้หากแบ็กเอนด์ของตนส่งออกมา

ผู้ให้บริการที่รองรับ

ผู้ให้บริการโมเดลเริ่มต้นการรองรับการแก้ไขการยืนยันตัวตน
ComfyUIworkflowใช่ (1 รูปภาพ, กำหนดค่าโดย workflow)COMFY_API_KEY หรือ COMFY_CLOUD_API_KEY สำหรับคลาวด์
DeepInfrablack-forest-labs/FLUX-1-schnellใช่ (1 รูปภาพ)DEEPINFRA_API_KEY
falfal-ai/flux/devใช่ (ขีดจำกัดเฉพาะโมเดล)FAL_KEY
Googlegemini-3.1-flash-image-previewใช่GEMINI_API_KEY หรือ GOOGLE_API_KEY
LiteLLMgpt-image-2ใช่ (รูปภาพอินพุตสูงสุด 5 รูป)LITELLM_API_KEY
MiniMaximage-01ใช่ (รูปภาพอ้างอิงหัวเรื่อง)MINIMAX_API_KEY หรือ MiniMax OAuth (minimax-portal)
OpenAIgpt-image-2ใช่ (สูงสุด 4 รูปภาพ)OPENAI_API_KEY หรือ OpenAI Codex OAuth
OpenRoutergoogle/gemini-3.1-flash-image-previewใช่ (รูปภาพอินพุตสูงสุด 5 รูป)OPENROUTER_API_KEY
Vydragrok-imagineไม่ใช่VYDRA_API_KEY
xAIgrok-imagine-imageใช่ (สูงสุด 5 รูปภาพ)XAI_API_KEY
ใช้ action: "list" เพื่อตรวจสอบผู้ให้บริการและโมเดลที่พร้อมใช้งานในขณะรันไทม์:
/tool image_generate action=list

ความสามารถของผู้ให้บริการ

ความสามารถComfyUIDeepInfrafalGoogleMiniMaxOpenAIVydraxAI
สร้าง (จำนวนสูงสุด)กำหนดโดย workflow4449414
แก้ไข / อ้างอิง1 รูปภาพ (workflow)1 รูปภาพFlux: 1; GPT: 10; NB2: 14สูงสุด 5 รูปภาพ1 รูปภาพ (อ้างอิงหัวเรื่อง)สูงสุด 5 รูปภาพ-สูงสุด 5 รูปภาพ
การควบคุมขนาด--สูงสุด 4K--
อัตราส่วนภาพ----
ความละเอียด (1K/2K/4K)-----1K, 2K

พารามิเตอร์ของเครื่องมือ

prompt
string
required
พรอมป์สำหรับสร้างรูปภาพ จำเป็นสำหรับ action: "generate"
action
"generate" | "list"
default:"generate"
ใช้ "list" เพื่อตรวจสอบผู้ให้บริการและโมเดลที่พร้อมใช้งานในขณะรันไทม์
model
string
การแทนที่ผู้ให้บริการ/โมเดล (เช่น openai/gpt-image-2) ใช้ openai/gpt-image-1.5 สำหรับพื้นหลัง OpenAI แบบโปร่งใส
image
string
เส้นทางหรือ URL ของรูปภาพอ้างอิงหนึ่งรูปสำหรับโหมดแก้ไข
images
string[]
รูปภาพอ้างอิงหลายรูปสำหรับโหมดแก้ไข (สูงสุด 5 รูปกับผู้ให้บริการที่รองรับ)
size
string
คำแนะนำขนาด: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160
aspectRatio
string
อัตราส่วนภาพ: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
resolution
"1K" | "2K" | "4K"
คำแนะนำความละเอียด
quality
"low" | "medium" | "high" | "auto"
คำแนะนำคุณภาพเมื่อผู้ให้บริการรองรับ
outputFormat
"png" | "jpeg" | "webp"
คำแนะนำรูปแบบเอาต์พุตเมื่อผู้ให้บริการรองรับ
background
"transparent" | "opaque" | "auto"
คำแนะนำพื้นหลังเมื่อผู้ให้บริการรองรับ ใช้ transparent กับ outputFormat: "png" หรือ "webp" สำหรับผู้ให้บริการที่รองรับความโปร่งใส
count
number
จำนวนรูปภาพที่จะสร้าง (1-4)
timeoutMs
number
ระยะหมดเวลาคำขอผู้ให้บริการแบบไม่บังคับในหน่วยมิลลิวินาที เมื่อ Codex เรียก image_generate ผ่านเครื่องมือแบบไดนามิก ค่ารายการเรียกนี้ยังคงแทนที่ ค่าเริ่มต้นที่กำหนดค่าไว้ และถูกจำกัดไว้ที่ 600000 ms
filename
string
คำแนะนำชื่อไฟล์เอาต์พุต
openai
object
คำแนะนำเฉพาะ OpenAI: background, moderation, outputCompression และ user
ผู้ให้บริการบางรายไม่ได้รองรับพารามิเตอร์ทั้งหมด เมื่อผู้ให้บริการสำรองรองรับ ตัวเลือกเรขาคณิตที่ใกล้เคียงแทนตัวเลือกที่ขออย่างแม่นยำ OpenClaw จะรีแมปเป็น ขนาด อัตราส่วนภาพ หรือความละเอียดที่รองรับซึ่งใกล้เคียงที่สุดก่อนส่งคำขอ คำแนะนำเอาต์พุตที่ไม่รองรับจะถูกตัดทิ้งสำหรับผู้ให้บริการที่ไม่ได้ประกาศว่า รองรับ และจะถูกรายงานในผลลัพธ์ของเครื่องมือ ผลลัพธ์ของเครื่องมือจะรายงาน การตั้งค่าที่นำไปใช้แล้ว details.normalization จะบันทึกการแปลค่าจาก ที่ร้องขอไปเป็นค่าที่นำไปใช้

การกำหนดค่า

การเลือกโมเดล

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
        fallbacks: [
          "openrouter/google/gemini-3.1-flash-image-preview",
          "google/gemini-3.1-flash-image-preview",
          "fal/fal-ai/flux/dev",
        ],
      },
    },
  },
}

ลำดับการเลือกผู้ให้บริการ

OpenClaw จะลองใช้ผู้ให้บริการตามลำดับนี้:
  1. พารามิเตอร์ model จากการเรียกเครื่องมือ (หากเอเจนต์ระบุไว้)
  2. imageGenerationModel.primary จาก config
  3. imageGenerationModel.fallbacks ตามลำดับ
  4. การตรวจหาอัตโนมัติ - เฉพาะค่าเริ่มต้นของผู้ให้บริการที่มีการยืนยันตัวตนรองรับ:
    • ผู้ให้บริการเริ่มต้นปัจจุบันก่อน;
    • ผู้ให้บริการสร้างรูปภาพที่ลงทะเบียนไว้ที่เหลือตามลำดับ provider-id
หากผู้ให้บริการล้มเหลว (ข้อผิดพลาดการยืนยันตัวตน, เกินขีดจำกัดอัตรา ฯลฯ) ตัวเลือกที่กำหนดค่าไว้ถัดไปจะถูกลองโดยอัตโนมัติ หากทั้งหมดล้มเหลว ข้อผิดพลาดจะรวมรายละเอียดจากแต่ละความพยายาม
การแทนที่ model รายครั้งจะลองเฉพาะผู้ให้บริการ/โมเดลนั้นเท่านั้น และ จะไม่ไปต่อยัง primary/fallback ที่กำหนดค่าไว้หรือผู้ให้บริการที่ตรวจพบอัตโนมัติ
ค่าเริ่มต้นของผู้ให้บริการจะเข้าสู่รายการตัวเลือกก็ต่อเมื่อ OpenClaw สามารถ ยืนยันตัวตนผู้ให้บริการนั้นได้จริง ตั้งค่า agents.defaults.mediaGenerationAutoProviderFallback: false เพื่อใช้เฉพาะ รายการ model, primary และ fallbacks ที่ระบุอย่างชัดเจนเท่านั้น
ตั้งค่า agents.defaults.imageGenerationModel.timeoutMs สำหรับแบ็กเอนด์รูปภาพ ที่ทำงานช้า พารามิเตอร์เครื่องมือ timeoutMs รายครั้งจะแทนที่ค่าเริ่มต้น ที่กำหนดค่าไว้ การเรียกเครื่องมือแบบไดนามิกของ Codex จะเคารพงบประมาณ ระยะหมดเวลาเดียวกัน โดยถูกจำกัดด้วยค่าสูงสุดของสะพานเครื่องมือแบบไดนามิก ของ OpenClaw ที่ 600000 ms
ใช้ action: "list" เพื่อตรวจสอบผู้ให้บริการที่ลงทะเบียนอยู่ในขณะนั้น โมเดลเริ่มต้นของแต่ละราย และคำแนะนำ env-var สำหรับการยืนยันตัวตน

การแก้ไขรูปภาพ

OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI และ xAI รองรับการแก้ไข รูปภาพอ้างอิง ส่งเส้นทางหรือ URL ของรูปภาพอ้างอิง:
"สร้างเวอร์ชันสีน้ำของภาพถ่ายนี้" + image: "/path/to/photo.jpg"
OpenAI, OpenRouter, Google และ xAI รองรับภาพอ้างอิงได้สูงสุด 5 ภาพผ่านพารามิเตอร์ images ส่วน fal รองรับภาพอ้างอิง 1 ภาพสำหรับ Flux image-to-image รองรับได้ สูงสุด 10 ภาพสำหรับการแก้ไข GPT Image 2 และสูงสุด 14 ภาพสำหรับการแก้ไข Nano Banana 2 MiniMax และ ComfyUI รองรับ 1 ภาพ

เจาะลึกผู้ให้บริการ

การสร้างภาพของ OpenAI มีค่าเริ่มต้นเป็น openai/gpt-image-2 หากมีการกำหนดค่า โปรไฟล์ OAuth ของ openai-codex ไว้ OpenClaw จะใช้โปรไฟล์ OAuth เดียวกันกับที่โมเดลแชตแบบสมัครสมาชิกของ Codex ใช้ซ้ำ และส่ง คำขอภาพผ่านแบ็กเอนด์ Codex Responses URL ฐานของ Codex แบบเดิม เช่น https://chatgpt.com/backend-api จะถูกทำให้เป็นรูปแบบมาตรฐานเป็น https://chatgpt.com/backend-api/codex สำหรับคำขอภาพ OpenClaw จะไม่ fallback ไปใช้ OPENAI_API_KEY สำหรับคำขอนั้นแบบเงียบ ๆ - หากต้องการบังคับให้ส่งผ่าน OpenAI Images API โดยตรง ให้กำหนดค่า models.providers.openai อย่างชัดเจนด้วยคีย์ API, URL ฐานแบบกำหนดเอง หรือ Azure endpointยังสามารถเลือกโมเดล openai/gpt-image-1.5, openai/gpt-image-1 และ openai/gpt-image-1-mini อย่างชัดเจนได้ ใช้ gpt-image-1.5 สำหรับเอาต์พุต PNG/WebP ที่มีพื้นหลังโปร่งใส; API gpt-image-2 ปัจจุบันปฏิเสธ background: "transparent"gpt-image-2 รองรับทั้งการสร้างภาพจากข้อความและ การแก้ไขภาพอ้างอิงผ่านเครื่องมือ image_generate เดียวกัน OpenClaw ส่งต่อ prompt, count, size, quality, outputFormat และภาพอ้างอิงไปยัง OpenAI OpenAI ไม่ได้ รับ aspectRatio หรือ resolution โดยตรง; เมื่อเป็นไปได้ OpenClaw จะแปลง ค่าเหล่านั้นให้เป็น size ที่รองรับ มิฉะนั้นเครื่องมือจะรายงานค่าเหล่านั้นเป็น override ที่ถูกละเว้นตัวเลือกเฉพาะ OpenAI อยู่ใต้ object openai:
{
  "quality": "low",
  "outputFormat": "jpeg",
  "openai": {
    "background": "opaque",
    "moderation": "low",
    "outputCompression": 60,
    "user": "end-user-42"
  }
}
openai.background รับค่า transparent, opaque หรือ auto; เอาต์พุตโปร่งใสต้องใช้ outputFormat เป็น png หรือ webp และต้องใช้ โมเดลภาพ OpenAI ที่รองรับความโปร่งใส OpenClaw จะส่งคำขอพื้นหลังโปร่งใสของ gpt-image-2 ค่าเริ่มต้นไปยัง gpt-image-1.5 openai.outputCompression ใช้กับเอาต์พุต JPEG/WebPคำใบ้ background ระดับบนสุดเป็นแบบเป็นกลางต่อผู้ให้บริการ และขณะนี้จะแมป ไปยังฟิลด์คำขอ background เดียวกันของ OpenAI เมื่อเลือกผู้ให้บริการ OpenAI ผู้ให้บริการที่ไม่ได้ประกาศการรองรับพื้นหลังจะส่งค่าดังกล่าวคืนใน ignoredOverrides แทนการรับพารามิเตอร์ที่ไม่รองรับหากต้องการส่งการสร้างภาพ OpenAI ผ่าน deployment ของ Azure OpenAI แทน api.openai.com ดู Azure OpenAI endpoints
การสร้างภาพของ OpenRouter ใช้ OPENROUTER_API_KEY เดียวกันและ ส่งผ่าน API ภาพของ chat completions ของ OpenRouter เลือก โมเดลภาพ OpenRouter ด้วย prefix openrouter/:
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openrouter/google/gemini-3.1-flash-image-preview",
      },
    },
  },
}
OpenClaw ส่งต่อ prompt, count, ภาพอ้างอิง และ คำใบ้ aspectRatio / resolution ที่เข้ากันได้กับ Gemini ไปยัง OpenRouter ทางลัดโมเดลภาพ OpenRouter ที่มีมาให้ในปัจจุบันรวมถึง google/gemini-3.1-flash-image-preview, google/gemini-3-pro-image-preview และ openai/gpt-5.4-image-2 ใช้ action: "list" เพื่อดูว่า Plugin ที่คุณกำหนดค่าไว้เปิดเผยอะไรบ้าง
การสร้างภาพของ MiniMax ใช้งานได้ผ่านเส้นทางการยืนยันตัวตน MiniMax ที่บันเดิลมาทั้งสองแบบ:
  • minimax/image-01 สำหรับการตั้งค่าด้วยคีย์ API
  • minimax-portal/image-01 สำหรับการตั้งค่าด้วย OAuth
ผู้ให้บริการ xAI ที่บันเดิลมาใช้ /v1/images/generations สำหรับคำขอ ที่มีเฉพาะพรอมต์ และใช้ /v1/images/edits เมื่อมี image หรือ images
  • โมเดล: xai/grok-imagine-image, xai/grok-imagine-image-pro
  • จำนวน: สูงสุด 4
  • ภาพอ้างอิง: image หนึ่งภาพหรือ images สูงสุดห้าภาพ
  • อัตราส่วนภาพ: 1:1, 16:9, 9:16, 4:3, 3:4, 2:3, 3:2
  • ความละเอียด: 1K, 2K
  • เอาต์พุต: ส่งคืนเป็นไฟล์แนบภาพที่ OpenClaw จัดการ
OpenClaw ตั้งใจไม่เปิดเผย quality, mask, user แบบเนทีฟของ xAI หรืออัตราส่วนภาพเพิ่มเติมที่มีเฉพาะเนทีฟ จนกว่าการควบคุมเหล่านั้นจะมีอยู่ใน สัญญา image_generate แบบข้ามผู้ให้บริการร่วมกัน

ตัวอย่าง

/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1
แฟล็ก --output-format และ --background เดียวกันมีให้ใช้งานบน openclaw infer image edit; --openai-background ยังคงเป็น alias เฉพาะ OpenAI ผู้ให้บริการที่บันเดิลมารายอื่นนอกเหนือจาก OpenAI ยังไม่ได้ประกาศ การควบคุมพื้นหลังอย่างชัดเจนในปัจจุบัน ดังนั้น background: "transparent" จึงถูกรายงาน ว่าถูกละเว้นสำหรับผู้ให้บริการเหล่านั้น

ที่เกี่ยวข้อง

  • ภาพรวมเครื่องมือ - เครื่องมือเอเจนต์ทั้งหมดที่มีให้ใช้งาน
  • ComfyUI - การตั้งค่าเวิร์กโฟลว์ ComfyUI ในเครื่องและ Comfy Cloud
  • fal - การตั้งค่าผู้ให้บริการภาพและวิดีโอ fal
  • Google (Gemini) - การตั้งค่าผู้ให้บริการภาพ Gemini
  • MiniMax - การตั้งค่าผู้ให้บริการภาพ MiniMax
  • OpenAI - การตั้งค่าผู้ให้บริการ OpenAI Images
  • Vydra - การตั้งค่าภาพ วิดีโอ และเสียงพูดของ Vydra
  • xAI - การตั้งค่าภาพ วิดีโอ การค้นหา การประมวลผลโค้ด และ TTS ของ Grok
  • ข้อมูลอ้างอิงการกำหนดค่า - การกำหนดค่า imageGenerationModel
  • โมเดล - การกำหนดค่าโมเดลและ failover