Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
image_generate 工具可讓代理程式使用你設定的供應商建立與編輯圖像。產生的圖像會自動作為媒體附件附加在代理程式的回覆中。
只有在至少有一個圖像生成供應商可用時,才會顯示此工具。如果你在代理程式的工具中沒有看到
image_generate,請設定 agents.defaults.imageGenerationModel、設定供應商 API 金鑰,或使用 OpenAI Codex OAuth 登入。快速開始
設定驗證
為至少一個供應商設定 API 金鑰(例如
OPENAI_API_KEY、GEMINI_API_KEY、OPENROUTER_API_KEY),或使用 OpenAI Codex OAuth 登入。選擇預設模型(選用)
openai/gpt-image-2 模型參照。設定 openai-codex OAuth 設定檔時,OpenClaw 會透過該 OAuth 設定檔路由圖像請求,而不是先嘗試 OPENAI_API_KEY。明確的 models.providers.openai 設定(API 金鑰、自訂/Azure 基底 URL)會改回使用直接的 OpenAI Images API 路由。常見路由
| 目標 | 模型參照 | 驗證 |
|---|---|---|
| 使用 API 計費的 OpenAI 圖像生成 | openai/gpt-image-2 | OPENAI_API_KEY |
| 使用 Codex 訂閱驗證的 OpenAI 圖像生成 | openai/gpt-image-2 | OpenAI Codex OAuth |
| OpenAI 透明背景 PNG/WebP | openai/gpt-image-1.5 | OPENAI_API_KEY 或 OpenAI Codex OAuth |
| DeepInfra 圖像生成 | deepinfra/black-forest-labs/FLUX-1-schnell | DEEPINFRA_API_KEY |
| OpenRouter 圖像生成 | openrouter/google/gemini-3.1-flash-image-preview | OPENROUTER_API_KEY |
| LiteLLM 圖像生成 | litellm/gpt-image-2 | LITELLM_API_KEY |
| Google Gemini 圖像生成 | google/gemini-3.1-flash-image-preview | GEMINI_API_KEY 或 GOOGLE_API_KEY |
image_generate 工具可處理文字轉圖像與參照圖像編輯。使用 image 指定一張參照圖像,或使用 images 指定多張參照圖像。供應商支援的輸出提示,例如 quality、outputFormat 和 background,會在可用時轉送;若供應商不支援,則會回報為已忽略。內建的透明背景支援是 OpenAI 專屬;如果其他供應商的後端輸出 PNG alpha,它們仍可能保留透明度。
支援的供應商
| 供應商 | 預設模型 | 編輯支援 | 驗證 |
|---|---|---|---|
| ComfyUI | workflow | 是(1 張圖像,由工作流程設定) | 雲端使用 COMFY_API_KEY 或 COMFY_CLOUD_API_KEY |
| DeepInfra | black-forest-labs/FLUX-1-schnell | 是(1 張圖像) | DEEPINFRA_API_KEY |
| fal | fal-ai/flux/dev | 是 | FAL_KEY |
gemini-3.1-flash-image-preview | 是 | GEMINI_API_KEY 或 GOOGLE_API_KEY | |
| LiteLLM | gpt-image-2 | 是(最多 5 張輸入圖像) | LITELLM_API_KEY |
| MiniMax | image-01 | 是(主體參照) | MINIMAX_API_KEY 或 MiniMax OAuth (minimax-portal) |
| OpenAI | gpt-image-2 | 是(最多 4 張圖像) | OPENAI_API_KEY 或 OpenAI Codex OAuth |
| OpenRouter | google/gemini-3.1-flash-image-preview | 是(最多 5 張輸入圖像) | OPENROUTER_API_KEY |
| Vydra | grok-imagine | 否 | VYDRA_API_KEY |
| xAI | grok-imagine-image | 是(最多 5 張圖像) | XAI_API_KEY |
action: "list" 在執行階段檢查可用的供應商與模型:
供應商功能
| 功能 | ComfyUI | DeepInfra | fal | MiniMax | OpenAI | Vydra | xAI | |
|---|---|---|---|---|---|---|---|---|
| 產生(最大數量) | 由工作流程定義 | 4 | 4 | 4 | 9 | 4 | 1 | 4 |
| 編輯 / 參照 | 1 張圖像(工作流程) | 1 張圖像 | 1 張圖像 | 最多 5 張圖像 | 1 張圖像(主體參照) | 最多 5 張圖像 | — | 最多 5 張圖像 |
| 尺寸控制 | — | ✓ | ✓ | ✓ | — | 最高 4K | — | — |
| 長寬比 | — | — | ✓(僅產生) | ✓ | ✓ | — | — | ✓ |
| 解析度(1K/2K/4K) | — | — | ✓ | ✓ | — | — | — | 1K, 2K |
工具參數
圖像生成提示。
action: "generate" 必填。使用
"list" 在執行階段檢查可用的供應商與模型。供應商/模型覆寫(例如
openai/gpt-image-2)。若要使用透明 OpenAI 背景,請使用 openai/gpt-image-1.5。編輯模式使用的單一參照圖像路徑或 URL。
編輯模式使用的多張參照圖像(支援的供應商最多 5 張)。
尺寸提示:
1024x1024、1536x1024、1024x1536、2048x2048、3840x2160。長寬比:
1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9。解析度提示。
供應商支援時使用的品質提示。
供應商支援時使用的輸出格式提示。
供應商支援時使用的背景提示。對於支援透明度的供應商,請搭配
outputFormat: "png" 或 "webp" 使用 transparent。要產生的圖像數量(1–4)。
選用的供應商請求逾時時間,單位為毫秒。
輸出檔名提示。
僅限 OpenAI 的提示:
background、moderation、outputCompression 和 user。並非所有供應商都支援所有參數。當後備供應商支援相近的幾何選項,而不是完全符合請求的選項時,OpenClaw 會在提交前重新對應至最接近的支援尺寸、長寬比或解析度。不支援的輸出提示會在供應商未宣告支援時被捨棄,並在工具結果中回報。工具結果會回報已套用的設定;
details.normalization 會擷取任何從請求到套用的轉換。設定
模型選擇
供應商選擇順序
OpenClaw 會依此順序嘗試供應商:- 工具呼叫中的
model參數(如果代理程式指定了)。 - 設定中的
imageGenerationModel.primary。 - 依序使用
imageGenerationModel.fallbacks。 - 自動偵測:僅限有驗證支援的供應商預設值:
- 目前的預設供應商優先;
- 其餘已註冊的圖像生成供應商依供應商 ID 順序排列。
逐次呼叫模型覆寫會精確套用
逐次呼叫模型覆寫會精確套用
逐次呼叫的
model 覆寫只會嘗試該供應商/模型,不會繼續使用已設定的主要/後備供應商或自動偵測的供應商。自動偵測會感知驗證狀態
自動偵測會感知驗證狀態
只有當 OpenClaw 能實際驗證該供應商時,供應商預設值才會進入候選清單。設定
agents.defaults.mediaGenerationAutoProviderFallback: false 可只使用明確的 model、primary 和 fallbacks 項目。逾時
逾時
對於較慢的圖像後端,請設定
agents.defaults.imageGenerationModel.timeoutMs。逐次呼叫的 timeoutMs 工具參數會覆寫已設定的預設值。在執行階段檢查
在執行階段檢查
使用
action: "list" 檢查目前已註冊的供應商、其預設模型,以及驗證環境變數提示。圖像編輯
OpenAI、OpenRouter、Google、DeepInfra、fal、MiniMax、ComfyUI 和 xAI 支援編輯參照圖像。傳入參照圖像路徑或 URL:images 參數最多支援 5 張參照圖像。fal、MiniMax 和 ComfyUI 支援 1 張。
供應商深入介紹
OpenAI gpt-image-2 (and gpt-image-1.5)
OpenAI gpt-image-2 (and gpt-image-1.5)
OpenAI 影像生成預設使用
openai/gpt-image-2。如果已設定
openai-codex OAuth 設定檔,OpenClaw 會重用 Codex 訂閱聊天模型所使用的相同
OAuth 設定檔,並透過 Codex Responses 後端傳送影像請求。舊版 Codex 基底
URL(例如 https://chatgpt.com/backend-api)會針對影像請求標準化為
https://chatgpt.com/backend-api/codex。OpenClaw
不會 為該請求靜默退回使用 OPENAI_API_KEY;若要強制直接透過 OpenAI Images API 路由,請使用 API 金鑰、自訂基底 URL
或 Azure 端點明確設定
models.providers.openai。仍可明確選取 openai/gpt-image-1.5、openai/gpt-image-1 和
openai/gpt-image-1-mini 模型。若要輸出透明背景 PNG/WebP,請使用
gpt-image-1.5;目前的
gpt-image-2 API 會拒絕 background: "transparent"。gpt-image-2 同時支援文字轉影像生成,以及透過相同 image_generate 工具進行參考影像編輯。
OpenClaw 會將 prompt、count、size、quality、outputFormat
和參考影像轉送給 OpenAI。OpenAI 不會直接收到
aspectRatio 或 resolution;在可行時,OpenClaw 會將這些值對應到受支援的
size,否則工具會將它們回報為已忽略的覆寫。OpenAI 專屬選項位於 openai 物件下:openai.background 接受 transparent、opaque 或 auto;
透明輸出需要 outputFormat 為 png 或 webp,並使用支援透明度的 OpenAI 影像模型。
OpenClaw 會將預設
gpt-image-2 透明背景請求路由到 gpt-image-1.5。
openai.outputCompression 適用於 JPEG/WebP 輸出。頂層 background 提示是提供者中立的,目前在選取 OpenAI 提供者時,會對應到相同的 OpenAI background 請求欄位。未宣告支援背景的提供者會在
ignoredOverrides 中回傳它,而不是接收不支援的參數。若要將 OpenAI 影像生成路由到 Azure OpenAI 部署,而不是
api.openai.com,請參閱
Azure OpenAI 端點。OpenRouter image models
OpenRouter image models
OpenRouter 影像生成使用相同的 OpenClaw 會將
OPENROUTER_API_KEY,並透過 OpenRouter 的聊天補全影像 API 路由。請使用
openrouter/ 前綴選取 OpenRouter 影像模型:prompt、count、參考影像,以及與 Gemini 相容的
aspectRatio / resolution 提示轉送給 OpenRouter。
目前內建的 OpenRouter 影像模型捷徑包括
google/gemini-3.1-flash-image-preview、
google/gemini-3-pro-image-preview 和 openai/gpt-5.4-image-2。使用
action: "list" 查看你設定的 Plugin 公開了哪些內容。MiniMax dual-auth
MiniMax dual-auth
MiniMax 影像生成可透過兩種隨附的 MiniMax 驗證路徑使用:
minimax/image-01用於 API 金鑰設定minimax-portal/image-01用於 OAuth 設定
xAI grok-imagine-image
xAI grok-imagine-image
隨附的 xAI 提供者會對僅有提示的請求使用
/v1/images/generations,並在存在 image 或 images 時使用 /v1/images/edits。- 模型:
xai/grok-imagine-image、xai/grok-imagine-image-pro - 數量:最多 4
- 參考:一個
image或最多五個images - 長寬比:
1:1、16:9、9:16、4:3、3:4、2:3、3:2 - 解析度:
1K、2K - 輸出:以 OpenClaw 管理的影像附件形式回傳
quality、mask、
user 或額外的僅限原生長寬比,直到這些控制項存在於共享的跨提供者 image_generate 合約中。範例
- Generate (4K landscape)
- Generate (transparent PNG)
- Generate (two square)
- Edit (one reference)
- Edit (multiple references)
--output-format 和 --background 旗標也可用於
openclaw infer image edit;--openai-background 仍保留為 OpenAI 專屬別名。除 OpenAI 以外的隨附提供者目前未宣告明確的背景控制,因此
background: "transparent" 會對它們回報為已忽略。