Tools

画像生成

image_generate ツールを使うと、エージェントは設定済みのプロバイダーを使用して画像を作成、編集できます。チャットセッションでは、画像生成は非同期で実行されます。 OpenClaw はバックグラウンドタスクを記録し、タスク ID をすぐに返し、プロバイダーが完了するとエージェントを起動します。完了エージェントはセッションの通常の表示返信モードに従います。設定されている場合は自動的に最終返信を配信し、セッションが message ツールを必要とする場合は message(action="send") を使用します。リクエスト元セッションが非アクティブであるか、そのアクティブな起動に失敗し、かつ生成された画像の一部が完了返信にまだ含まれていない場合、OpenClaw は不足している画像だけを含む冪等な直接フォールバックを送信します。

クイックスタート

Configure auth

少なくとも 1 つのプロバイダーに API キーを設定します（例: OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY）。または OpenAI Codex OAuth でサインインします。

Pick a default model (optional)

json5

{  agents: {    defaults: {      imageGenerationModel: {        primary: "openai/gpt-image-2",        timeoutMs: 180_000,      },    },  },}

ChatGPT/Codex OAuth は同じ openai/gpt-image-2 モデル参照を使用します。 openai OAuth プロファイルが設定されている場合、OpenClaw は画像リクエストをまず OPENAI_API_KEY を試すのではなく、その OAuth プロファイル経由でルーティングします。明示的な models.providers.openai 設定（API キー、カスタム/Azure ベース URL）を使うと、直接の OpenAI Images API ルートに戻ります。

Ask the agent

「親しみやすいロボットのマスコットの画像を生成して。」

エージェントは自動的に image_generate を呼び出します。ツールの許可リスト登録は不要です。プロバイダーが利用可能な場合、デフォルトで有効になります。このツールはバックグラウンドタスク ID を返し、準備ができると完了エージェントが生成された添付ファイルを message ツール経由で送信します。

よく使うルート

目的	モデル参照	認証
API 課金を使う OpenAI 画像生成	`openai/gpt-image-2`	`OPENAI_API_KEY`
Codex サブスクリプション認証を使う OpenAI 画像生成	`openai/gpt-image-2`	OpenAI ChatGPT/Codex OAuth
OpenAI 透明背景 PNG/WebP	`openai/gpt-image-1.5`	`OPENAI_API_KEY` または OpenAI Codex OAuth
DeepInfra 画像生成	`deepinfra/black-forest-labs/FLUX-1-schnell`	`DEEPINFRA_API_KEY`
fal Krea 2 の表現力豊かな/スタイル指定生成	`fal/krea/v2/medium/text-to-image`	`FAL_KEY`
OpenRouter 画像生成	`openrouter/google/gemini-3.1-flash-image-preview`	`OPENROUTER_API_KEY`
LiteLLM 画像生成	`litellm/gpt-image-2`	`LITELLM_API_KEY`
Microsoft Foundry MAI 画像生成	`microsoft-foundry/<deployment-name>`	`AZURE_OPENAI_API_KEY` または Entra ID
Google Gemini 画像生成	`google/gemini-3.1-flash-image-preview`	`GEMINI_API_KEY` または `GOOGLE_API_KEY`

同じ image_generate ツールが、テキストから画像生成と参照画像の編集を処理します。参照が 1 つの場合は image を、複数の参照には images を使用します。 fal の Krea 2 モデルでは、これらの参照は編集入力ではなくスタイル参照として送信されます。 quality, outputFormat, background など、プロバイダーがサポートする出力ヒントは利用可能な場合に転送され、プロバイダーがサポートしていない場合は無視されたものとして報告されます。バンドルされた透明背景サポートは OpenAI 固有です。他のプロバイダーでも、バックエンドが出力する場合は PNG アルファを保持することがあります。

サポートされるプロバイダー

プロバイダー	デフォルトモデル	編集サポート	認証
ComfyUI	`workflow`	はい（1 画像、ワークフロー設定）	クラウドでは `COMFY_API_KEY` または `COMFY_CLOUD_API_KEY`
DeepInfra	`black-forest-labs/FLUX-1-schnell`	はい（1 画像）	`DEEPINFRA_API_KEY`
fal	`fal-ai/flux/dev`	はい（モデル固有の制限）	`FAL_KEY`
Google	`gemini-3.1-flash-image-preview`	はい	`GEMINI_API_KEY` または `GOOGLE_API_KEY`
LiteLLM	`gpt-image-2`	はい（最大 5 入力画像）	`LITELLM_API_KEY`
Microsoft Foundry	`<deployment-name>`	はい（MAI-Image-2.5 モデルのみ）	`AZURE_OPENAI_API_KEY` または Entra ID (`az login`)
MiniMax	`image-01`	はい（被写体参照）	`MINIMAX_API_KEY` または MiniMax OAuth (`minimax-portal`)
OpenAI	`gpt-image-2`	はい（最大 4 画像）	`OPENAI_API_KEY` または OpenAI ChatGPT/Codex OAuth
OpenRouter	`google/gemini-3.1-flash-image-preview`	はい（最大 5 入力画像）	`OPENROUTER_API_KEY`
Vydra	`grok-imagine`	いいえ	`VYDRA_API_KEY`
xAI	`grok-imagine-image`	はい（最大 5 画像）	`XAI_API_KEY`

実行時に利用可能なプロバイダーとモデルを確認するには、action: "list" を使用します。

text

/tool image_generate action=list

現在のセッションのアクティブな画像生成タスクを確認するには、action: "status" を使用します。

text

/tool image_generate action=status

プロバイダー機能

機能	ComfyUI	DeepInfra	fal	Google	Microsoft Foundry	MiniMax	OpenAI	Vydra	xAI
生成（最大数）	ワークフロー定義	4	4	4	1	9	4	1	4
編集 / 参照	1 画像（ワークフロー）	1 画像	Flux: 1; GPT: 10; Krea スタイル参照: 10; NB2: 14	最大 5 画像	1 画像	1 画像（被写体参照）	最大 5 画像	-	最大 5 画像
サイズ制御	-	✓	✓	✓	✓	-	最大 4K	-	-
アスペクト比	-	-	✓	✓	-	✓	-	-	✓
解像度（1K/2K/4K）	-	-	✓	✓	-	-	-	-	1K, 2K

ツールパラメーター

promptstringrequired

画像生成プロンプト。action: "generate" では必須です。

action"generate" | "status" | "list"default: generate

アクティブなセッションタスクを確認するには "status" を、実行時に利用可能なプロバイダーとモデルを確認するには "list" を使用します。

modelstring

プロバイダー/モデルのオーバーライド（例: openai/gpt-image-2）。透明な OpenAI 背景には openai/gpt-image-1.5 を使用します。

imagestring

編集モード用の単一の参照画像パスまたは URL。

imagesstring[]

編集モードまたはスタイル参照モデル用の複数の参照画像（共有ツール経由では最大 10。プロバイダー固有の制限は引き続き適用されます）。

sizestring

サイズヒント: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160。

aspectRatiostring

アスペクト比: 1:1, 2:3, 3:2, 2.35:1, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9, 4:1, 1:4, 8:1, 1:8。プロバイダーはモデル固有のサブセットを検証します。

resolution"1K" | "2K" | "4K"

quality"low" | "medium" | "high" | "auto"

プロバイダーがサポートする場合の品質ヒント。

outputFormat"png" | "jpeg" | "webp"

プロバイダーがサポートする場合の出力形式ヒント。

background"transparent" | "opaque" | "auto"

プロバイダーがサポートする場合の背景ヒント。透明化対応プロバイダーでは、 outputFormat: "png" または "webp" とともに transparent を使用します。

countnumber

timeoutMsnumber

任意のプロバイダーリクエストタイムアウト（ミリ秒）。Codex が動的ツール経由で image_generate を呼び出す場合でも、この呼び出しごとの値は設定済みデフォルトを上書きし、600000 ms が上限になります。

filenamestring

openaiobject

OpenAI 専用ヒント: background, moderation, outputCompression, user。

fal.creativity"raw" | "low" | "medium" | "high"

fal Krea 2 の創造性制御。デフォルトは medium です。

設定

モデル選択

json5

{  agents: {    defaults: {      imageGenerationModel: {        primary: "openai/gpt-image-2",        timeoutMs: 180_000,        fallbacks: [          "openrouter/google/gemini-3.1-flash-image-preview",          "google/gemini-3.1-flash-image-preview",          "fal/fal-ai/flux/dev",        ],      },    },  },}

プロバイダー選択順序

OpenClaw は次の順序でプロバイダーを試します。

ツール呼び出しの model パラメーター（agent が指定した場合）。
config の imageGenerationModel.primary。
imageGenerationModel.fallbacks（順番どおり）。
自動検出 - auth に裏付けられたプロバイダー既定値のみ:
- 現在のデフォルトプロバイダーを最初に使用;
- 残りの登録済み画像生成プロバイダーを provider-id 順に使用。

プロバイダーが失敗した場合（認証エラー、レート制限など）、次に設定された候補が自動的に試行されます。すべて失敗した場合、エラーには各試行の詳細が含まれます。

呼び出しごとのモデル上書きは厳密

呼び出しごとの model 上書きは、そのプロバイダー/モデルだけを試行し、設定された primary/fallback や自動検出されたプロバイダーには続行しません。

自動検出は認証を考慮

プロバイダーの既定値は、OpenClaw がそのプロバイダーを実際に認証できる場合にのみ候補リストに入ります。明示的な model、primary、fallbacks エントリだけを使用するには、agents.defaults.mediaGenerationAutoProviderFallback: false を設定します。

タイムアウト

遅い画像バックエンドには agents.defaults.imageGenerationModel.timeoutMs を設定します。呼び出しごとの timeoutMs ツールパラメーターは設定済みの既定値を上書きし、設定済みの既定値は Plugin 作成者が定義したプロバイダー既定値を上書きします。 Google と OpenRouter のホスト型画像プロバイダーは 180 秒の既定値を使用します。 Microsoft Foundry MAI、xAI、Azure OpenAI の画像生成は 600 秒を使用します。 Codex の動的ツール呼び出しは 120 秒の image_generate ブリッジ既定値を使用し、設定されている場合は同じタイムアウト予算を尊重します。ただし OpenClaw の 600000 ms の動的ツールブリッジ最大値に制限されます。

実行時に検査

現在登録されているプロバイダー、そのデフォルトモデル、認証 env-var ヒントを検査するには action: "list" を使用します。

画像編集

OpenAI、OpenRouter、Google、DeepInfra、fal、Microsoft Foundry、MiniMax、 ComfyUI、xAI は参照画像の編集をサポートします。fal の Krea 2 モデルは、編集入力ではなくスタイル参照として同じ image / images フィールドを使用します。参照画像のパスまたは URL を渡します:

text

"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"

OpenAI、OpenRouter、Google、xAI は images パラメーターで最大 5 枚の参照画像をサポートします。fal は Flux image-to-image で 1 枚、GPT Image 2 編集で最大 10 枚、 Krea 2 のスタイル参照で最大 10 枚、Nano Banana 2 編集で最大 14 枚の参照画像をサポートします。Microsoft Foundry、MiniMax、ComfyUI は 1 枚をサポートします。

プロバイダーの詳細

OpenAI gpt-image-2（および gpt-image-1.5）

OpenAI 画像生成の既定値は openai/gpt-image-2 です。 openai OAuth プロファイルが設定されている場合、OpenClaw は Codex サブスクリプションチャットモデルで使用される同じ OAuth プロファイルを再利用し、画像リクエストを Codex Responses バックエンド経由で送信します。https://chatgpt.com/backend-api などのレガシー Codex ベース URL は、画像リクエスト向けに https://chatgpt.com/backend-api/codex に正規化されます。OpenClaw はそのリクエストで OPENAI_API_KEY に暗黙的にフォールバックすることはありません - 直接 OpenAI Images API ルーティングを強制するには、API キー、カスタムベース URL、または Azure エンドポイントを指定して models.providers.openai を明示的に設定します。

openai/gpt-image-1.5、openai/gpt-image-1、openai/gpt-image-1-mini モデルは、引き続き明示的に選択できます。透明背景の PNG/WebP 出力には gpt-image-1.5 を使用します。現在の gpt-image-2 API は background: "transparent" を拒否します。

gpt-image-2 は、同じ image_generate ツールを通じてテキストから画像の生成と参照画像編集の両方をサポートします。OpenClaw は prompt、count、size、 quality、outputFormat、参照画像を OpenAI に転送します。OpenAI は aspectRatio や resolution を直接受け取りません。可能な場合、OpenClaw はそれらをサポートされる size にマップし、それ以外の場合はツールが ignored overrides として報告します。

OpenAI 固有のオプションは openai オブジェクト配下にあります:

json

{  "quality": "low",  "outputFormat": "jpeg",  "openai": {    "background": "opaque",    "moderation": "low",    "outputCompression": 60,    "user": "end-user-42"  }}

openai.background は transparent、opaque、auto を受け入れます。透明出力には outputFormat png または webp と、透明化に対応した OpenAI 画像モデルが必要です。OpenClaw はデフォルトの gpt-image-2 透明背景リクエストを gpt-image-1.5 にルーティングします。openai.outputCompression は JPEG/WebP 出力に適用され、PNG 出力では無視されます。

最上位の background ヒントはプロバイダー中立であり、現在は OpenAI プロバイダーが選択された場合に同じ OpenAI background リクエストフィールドにマップされます。背景サポートを宣言していないプロバイダーは、サポートされないパラメーターを受け取る代わりに ignoredOverrides で返します。

api.openai.com ではなく Azure OpenAI デプロイメント経由で OpenAI 画像生成をルーティングするには、 Azure OpenAI エンドポイントを参照してください。

Microsoft Foundry MAI 画像モデル

Microsoft Foundry の画像生成は、microsoft-foundry/ プロバイダープレフィックス配下のデプロイ済み MAI 画像デプロイメント名を使用します。MAI API は model フィールドにデプロイメント名を期待するため、プロバイダーレベルのデフォルトモデルはありません:

json5

{  agents: {    defaults: {      imageGenerationModel: {        primary: "microsoft-foundry/<deployment-name>",        timeoutMs: 600_000,      },    },  },}

このプロバイダーは OpenAI Images API ではなく、Microsoft Foundry の MAI API を使用します:

生成エンドポイント: /mai/v1/images/generations
編集エンドポイント: /mai/v1/images/edits
認証: AZURE_OPENAI_API_KEY / プロバイダー API キー、または az login 経由の Entra ID
出力: 1 枚の PNG 画像
サイズ: 既定値は 1024x1024; 幅と高さはそれぞれ少なくとも 768 px で、総ピクセル数は最大 1,048,576
編集: 1 枚の PNG または JPEG 参照画像。MAI-Image-2.5-Flash と MAI-Image-2.5 デプロイメントでのみサポート

プロンプトのみの生成では、Foundry エンドポイントだけを設定してカスタムデプロイメント名を使用できます。カスタムデプロイメント名での編集には、そのデプロイメントが MAI-Image-2.5-Flash または MAI-Image-2.5 によって裏付けられていることを OpenClaw が検証できるよう、オンボーディング/モデルメタデータが必要です。

現在の MAI 画像モデルは MAI-Image-2.5-Flash、MAI-Image-2.5、 MAI-Image-2e、MAI-Image-2 です。セットアップとチャットモデルの挙動については Microsoft Foundry Plugin を参照してください。

OpenRouter 画像モデル

OpenRouter 画像生成は同じ OPENROUTER_API_KEY を使用し、OpenRouter のチャット補完画像 API 経由でルーティングします。openrouter/ プレフィックスで OpenRouter 画像モデルを選択します:

json5

{  agents: {    defaults: {      imageGenerationModel: {        primary: "openrouter/google/gemini-3.1-flash-image-preview",      },    },  },}

OpenClaw は prompt、count、参照画像、Gemini 互換の aspectRatio / resolution ヒントを OpenRouter に転送します。現在の組み込み OpenRouter 画像モデルショートカットには google/gemini-3.1-flash-image-preview、 google/gemini-3-pro-image-preview、openai/gpt-5.4-image-2 が含まれます。設定済み Plugin が公開している内容を確認するには action: "list" を使用します。

fal Krea 2

fal の Krea 2 モデルは、Flux で使用される汎用 image_size スキーマではなく、 fal のネイティブ Krea スキーマを使用します。OpenClaw は次を送信します:

アスペクト比ヒントには aspect_ratio
creativity（既定値は medium）
image または images が指定された場合は image_style_references

より高速で表現豊かなイラストには Krea 2 Medium を、より低速で詳細なフォトリアルおよびテクスチャ表現には Krea 2 Large を選択します:

json5

{  agents: {    defaults: {      imageGenerationModel: {        primary: "fal/krea/v2/medium/text-to-image",      },    },  },}

Krea 2 は現在、リクエストごとに 1 枚の画像を返します。Krea では aspectRatio を優先してください。OpenClaw は size を最も近いサポート済み Krea アスペクト比にマップし、 resolution は破棄せずに Krea では拒否します。ネイティブ Krea の creativity レベルを使いたい場合は fal.creativity を使用します:

json

{  "model": "fal/krea/v2/medium/text-to-image",  "prompt": "A cyber zine portrait with risograph texture",  "aspectRatio": "9:16",  "fal": {    "creativity": "high"  }}

MiniMax デュアル認証

MiniMax 画像生成は、バンドルされた両方の MiniMax 認証パスから利用できます:

API キー設定には minimax/image-01
OAuth 設定には minimax-portal/image-01

xAI grok-imagine-image

バンドルされた xAI プロバイダーは、プロンプトのみのリクエストには /v1/images/generations を使用し、 image または images が存在する場合は /v1/images/edits を使用します。

モデル: xai/grok-imagine-image、xai/grok-imagine-image-quality
数: 最大 4
参照: 1 つの image または最大 5 つの images
アスペクト比: 1:1、16:9、9:16、4:3、3:4、2:3、3:2
解像度: 1K、2K
出力: OpenClaw 管理の画像添付として返されます

OpenClaw は、共有クロスプロバイダー image_generate 契約にそれらの制御が存在するまで、 xAI ネイティブの quality、mask、user、または追加のネイティブ専用アスペクト比を意図的に公開しません。

例

生成（4K 横長）

text

/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1

生成（透明 PNG）

text

/tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent

同等の CLI:

bash

openclaw infer image generate \--model openai/gpt-image-1.5 \--output-format png \--background transparent \--prompt "A simple red circle sticker on a transparent background" \--json

生成（OpenAI 低品質）

text

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Low-cost draft poster for a quiet productivity app" quality=low openai='{"moderation":"low"}'

同等の CLI:

bash

openclaw infer image generate \--model openai/gpt-image-2 \--quality low \--openai-moderation low \--prompt "Low-cost draft poster for a quiet productivity app" \--json

Generate (two square)

text

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2

Edit (one reference)

text

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536

Edit (multiple references)

text

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024

Krea style references

text

/tool image_generate action=generate model=fal/krea/v2/medium/text-to-image prompt="An expressive editorial portrait using this color palette and print texture" images='["/path/to/palette.png","/path/to/texture.jpg"]' aspectRatio=9:16 fal='{"creativity":"high"}'

同じ --output-format、--background、--quality、および --openai-moderation フラグは openclaw infer image edit でも使用できます。 --openai-background は OpenAI 固有のエイリアスとして残ります。OpenAI 以外のバンドル済みプロバイダーは現在、明示的な背景制御を宣言していないため、それらでは background: "transparent" は無視されたものとして報告されます。

画像生成

クイックスタート

Configure auth

Pick a default model (optional)

Ask the agent

よく使うルート

サポートされるプロバイダー

プロバイダー機能

ツールパラメーター

設定

モデル選択

プロバイダー選択順序

画像編集

プロバイダーの詳細

例

生成（4K 横長）

生成（透明 PNG）

生成（OpenAI 低品質）

Generate (two square)

Edit (one reference)

Edit (multiple references)

Krea style references

関連

On this page

Molty