メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

image_generate ツールを使うと、エージェントは構成済みのプロバイダーを使用して画像を作成および編集できます。生成された画像は、エージェントの返信でメディア添付ファイルとして自動的に配信されます。
このツールは、少なくとも 1 つの画像生成プロバイダーが利用可能な場合にのみ表示されます。エージェントのツールに image_generate が表示されない場合は、agents.defaults.imageGenerationModel を構成するか、プロバイダーの API キーを設定するか、OpenAI Codex OAuth でサインインしてください。

クイックスタート

1

Configure auth

少なくとも 1 つのプロバイダーの API キーを設定するか(例: OPENAI_API_KEYGEMINI_API_KEYOPENROUTER_API_KEY)、OpenAI Codex OAuth でサインインします。
2

Pick a default model (optional)

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
      },
    },
  },
}
Codex OAuth は同じ openai/gpt-image-2 モデル参照を使用します。openai-codex OAuth プロファイルが構成されている場合、OpenClaw は最初に OPENAI_API_KEY を試す代わりに、その OAuth プロファイル経由で画像リクエストをルーティングします。明示的な models.providers.openai 構成(API キー、カスタム/Azure ベース URL)を指定すると、直接の OpenAI Images API ルートに戻ります。
3

Ask the agent

「フレンドリーなロボットのマスコットの画像を生成して。」エージェントは image_generate を自動的に呼び出します。ツールの許可リスト設定は不要です。プロバイダーが利用可能な場合はデフォルトで有効になります。
LocalAI などの OpenAI 互換 LAN エンドポイントでは、カスタム models.providers.openai.baseUrl を保持し、browser.ssrfPolicy.dangerouslyAllowPrivateNetwork: true で明示的にオプトインしてください。プライベートおよび内部の画像エンドポイントは、デフォルトでは引き続きブロックされます。

一般的なルート

目的モデル参照認証
API 課金による OpenAI 画像生成openai/gpt-image-2OPENAI_API_KEY
Codex サブスクリプション認証による OpenAI 画像生成openai/gpt-image-2OpenAI Codex OAuth
OpenAI 透過背景 PNG/WebPopenai/gpt-image-1.5OPENAI_API_KEY または OpenAI Codex OAuth
DeepInfra 画像生成deepinfra/black-forest-labs/FLUX-1-schnellDEEPINFRA_API_KEY
OpenRouter 画像生成openrouter/google/gemini-3.1-flash-image-previewOPENROUTER_API_KEY
LiteLLM 画像生成litellm/gpt-image-2LITELLM_API_KEY
Google Gemini 画像生成google/gemini-3.1-flash-image-previewGEMINI_API_KEY または GOOGLE_API_KEY
同じ image_generate ツールが、テキストから画像の生成と参照画像の編集を処理します。参照が 1 つの場合は image、複数の場合は images を使用します。qualityoutputFormatbackground など、プロバイダーがサポートする出力ヒントは、利用可能な場合に転送され、プロバイダーがサポートしていない場合は無視されたものとして報告されます。同梱の透過背景サポートは OpenAI 固有です。他のプロバイダーでも、バックエンドが PNG アルファを出力する場合は保持されることがあります。

サポートされるプロバイダー

プロバイダーデフォルトモデル編集サポート認証
ComfyUIworkflowはい(1 枚の画像、ワークフロー構成)クラウドの場合は COMFY_API_KEY または COMFY_CLOUD_API_KEY
DeepInfrablack-forest-labs/FLUX-1-schnellはい(1 枚の画像)DEEPINFRA_API_KEY
falfal-ai/flux/devはい(モデル固有の制限)FAL_KEY
Googlegemini-3.1-flash-image-previewはいGEMINI_API_KEY または GOOGLE_API_KEY
LiteLLMgpt-image-2はい(最大 5 枚の入力画像)LITELLM_API_KEY
MiniMaximage-01はい(被写体参照)MINIMAX_API_KEY または MiniMax OAuth (minimax-portal)
OpenAIgpt-image-2はい(最大 4 枚の画像)OPENAI_API_KEY または OpenAI Codex OAuth
OpenRoutergoogle/gemini-3.1-flash-image-previewはい(最大 5 枚の入力画像)OPENROUTER_API_KEY
Vydragrok-imagineいいえVYDRA_API_KEY
xAIgrok-imagine-imageはい(最大 5 枚の画像)XAI_API_KEY
実行時に利用可能なプロバイダーとモデルを確認するには、action: "list" を使用します。
/tool image_generate action=list

プロバイダー機能

機能ComfyUIDeepInfrafalGoogleMiniMaxOpenAIVydraxAI
生成(最大数)ワークフロー定義4449414
編集 / 参照1 枚の画像(ワークフロー)1 枚の画像Flux: 1; GPT: 10; NB2: 14最大 5 枚の画像1 枚の画像(被写体参照)最大 5 枚の画像-最大 5 枚の画像
サイズ制御--最大 4K--
アスペクト比----
解像度(1K/2K/4K)-----1K, 2K

ツールパラメーター

prompt
string
必須
画像生成プロンプト。action: "generate" では必須です。
action
"generate" | "list"
デフォルト:"generate"
実行時に利用可能なプロバイダーとモデルを確認するには "list" を使用します。
model
string
プロバイダー/モデルの上書き(例: openai/gpt-image-2)。透過 OpenAI 背景には openai/gpt-image-1.5 を使用します。
image
string
編集モード用の単一の参照画像パスまたは URL。
images
string[]
編集モード用の複数の参照画像(サポートするプロバイダーでは最大 5 枚)。
size
string
サイズヒント: 1024x10241536x10241024x15362048x20483840x2160
aspectRatio
string
アスペクト比: 1:12:33:23:44:34:55:49:1616:921:9
resolution
"1K" | "2K" | "4K"
解像度ヒント。
quality
"low" | "medium" | "high" | "auto"
プロバイダーがサポートしている場合の品質ヒント。
outputFormat
"png" | "jpeg" | "webp"
プロバイダーがサポートしている場合の出力形式ヒント。
background
"transparent" | "opaque" | "auto"
プロバイダーがサポートしている場合の背景ヒント。透過に対応したプロバイダーでは、outputFormat: "png" または "webp" とともに transparent を使用します。
count
number
生成する画像の数(1-4)。
timeoutMs
number
オプションのプロバイダーリクエストタイムアウト(ミリ秒)。Codex が動的ツール経由で image_generate を呼び出す場合でも、この呼び出しごとの値は構成済みのデフォルトを上書きし、600000 ms に制限されます。
filename
string
出力ファイル名ヒント。
openai
object
OpenAI 専用ヒント: backgroundmoderationoutputCompressionuser
すべてのプロバイダーがすべてのパラメーターをサポートしているわけではありません。フォールバックプロバイダーが、要求されたものと完全に同じではなく近いジオメトリオプションをサポートしている場合、OpenClaw は送信前に、最も近いサポート済みのサイズ、アスペクト比、または解像度へ再マッピングします。未サポートの出力ヒントは、サポートを宣言していないプロバイダーでは削除され、ツール結果で報告されます。ツール結果には適用された設定が報告されます。details.normalization には、要求内容から適用内容への変換が記録されます。

構成

モデル選択

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
        fallbacks: [
          "openrouter/google/gemini-3.1-flash-image-preview",
          "google/gemini-3.1-flash-image-preview",
          "fal/fal-ai/flux/dev",
        ],
      },
    },
  },
}

プロバイダー選択順序

OpenClaw は、次の順序でプロバイダーを試します。
  1. ツール呼び出しの model パラメーター(エージェントが指定した場合)。
  2. 構成の imageGenerationModel.primary
  3. imageGenerationModel.fallbacks を順番に。
  4. 自動検出 - 認証に基づくプロバイダーのデフォルトのみ:
    • 現在のデフォルトプロバイダーが最初。
    • 残りの登録済み画像生成プロバイダーをプロバイダー ID 順に。
プロバイダーが失敗した場合(認証エラー、レート制限など)、次に構成された候補が自動的に試されます。すべて失敗した場合、エラーには各試行の詳細が含まれます。
呼び出しごとの model 上書きは、そのプロバイダー/モデルのみを試し、構成済みの primary/fallback や自動検出されたプロバイダーには進みません。
プロバイダーのデフォルトは、OpenClaw がそのプロバイダーを実際に認証できる場合にのみ候補リストに入ります。明示的な modelprimaryfallbacks エントリのみを使用するには、agents.defaults.mediaGenerationAutoProviderFallback: false を設定します。
遅い画像バックエンドには agents.defaults.imageGenerationModel.timeoutMs を設定します。呼び出しごとの timeoutMs ツールパラメーターは、構成済みのデフォルトを上書きします。Codex の動的ツール呼び出しも同じタイムアウト予算を尊重し、OpenClaw の 600000 ms の動的ツールブリッジ上限で制限されます。
現在登録されているプロバイダー、そのデフォルトモデル、認証環境変数のヒントを確認するには、action: "list" を使用します。

画像編集

OpenAI、OpenRouter、Google、DeepInfra、fal、MiniMax、ComfyUI、xAI は、参照画像の編集をサポートしています。参照画像のパスまたは URL を渡します。
"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
OpenAI、OpenRouter、Google、xAI は、images パラメーターで最大 5 枚の参照画像をサポートします。fal は、Flux image-to-image では 1 枚の参照画像、GPT Image 2 編集では最大 10 枚、Nano Banana 2 編集では最大 14 枚をサポートします。MiniMax と ComfyUI は 1 枚をサポートします。

プロバイダー詳細解説

OpenAI 画像生成のデフォルトは openai/gpt-image-2 です。 openai-codex OAuth プロファイルが構成されている場合、OpenClaw は Codex サブスクリプションのチャットモデルで使われる同じ OAuth プロファイルを再利用し、画像リクエストを Codex Responses バックエンド経由で送信します。https://chatgpt.com/backend-api のような従来の Codex ベース URL は、画像リクエスト用に https://chatgpt.com/backend-api/codex へ正規化されます。OpenClaw は、そのリクエストで OPENAI_API_KEY暗黙的にフォールバックしません - OpenAI Images API へ直接ルーティングするには、API キー、カスタムベース URL、または Azure エンドポイントを指定して models.providers.openai を明示的に構成してください。openai/gpt-image-1.5openai/gpt-image-1、および openai/gpt-image-1-mini モデルは、引き続き明示的に選択できます。透明背景の PNG/WebP 出力には gpt-image-1.5 を使ってください。現在の gpt-image-2 API は background: "transparent" を拒否します。gpt-image-2 は、同じ image_generate ツールを通じて、テキストから画像への生成と 参照画像編集の両方をサポートします。 OpenClaw は promptcountsizequalityoutputFormat、 および参照画像を OpenAI に転送します。OpenAI が aspectRatio または resolution を直接受け取ることはありません。可能な場合、OpenClaw はそれらをサポートされる size にマッピングし、それ以外の場合はツールがそれらを無視されたオーバーライドとして報告します。OpenAI 固有のオプションは openai オブジェクトの下にあります。
{
  "quality": "low",
  "outputFormat": "jpeg",
  "openai": {
    "background": "opaque",
    "moderation": "low",
    "outputCompression": 60,
    "user": "end-user-42"
  }
}
openai.backgroundtransparentopaque、または auto を受け付けます。 透明出力には、outputFormatpng または webp であり、 透明化に対応した OpenAI 画像モデルが必要です。OpenClaw は、デフォルトの gpt-image-2 透明背景リクエストを gpt-image-1.5 にルーティングします。 openai.outputCompression は JPEG/WebP 出力に適用されます。トップレベルの background ヒントはプロバイダー中立で、現在は OpenAI プロバイダーが選択されている場合に、同じ OpenAI background リクエストフィールドへマッピングされます。背景サポートを宣言していないプロバイダーでは、サポートされないパラメーターを受け取る代わりに ignoredOverrides に返されます。api.openai.com ではなく Azure OpenAI デプロイメント経由で OpenAI 画像生成をルーティングするには、 Azure OpenAI エンドポイントを参照してください。
OpenRouter 画像生成は同じ OPENROUTER_API_KEY を使用し、 OpenRouter の chat completions 画像 API 経由でルーティングします。OpenRouter 画像モデルは openrouter/ プレフィックスで選択します。
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openrouter/google/gemini-3.1-flash-image-preview",
      },
    },
  },
}
OpenClaw は promptcount、参照画像、および Gemini 互換の aspectRatio / resolution ヒントを OpenRouter に転送します。 現在組み込みの OpenRouter 画像モデルショートカットには、 google/gemini-3.1-flash-image-previewgoogle/gemini-3-pro-image-previewopenai/gpt-5.4-image-2 があります。構成済み Plugin が公開している内容を確認するには action: "list" を使ってください。
MiniMax 画像生成は、バンドルされた MiniMax 認証パスの両方から利用できます。
  • API キー設定用の minimax/image-01
  • OAuth 設定用の minimax-portal/image-01
バンドルされた xAI プロバイダーは、プロンプトのみのリクエストでは /v1/images/generations を使用し、 image または images が存在する場合は /v1/images/edits を使用します。
  • モデル: xai/grok-imagine-imagexai/grok-imagine-image-pro
  • 件数: 最大 4
  • 参照: 1 つの image または最大 5 つの images
  • アスペクト比: 1:116:99:164:33:42:33:2
  • 解像度: 1K2K
  • 出力: OpenClaw 管理の画像添付として返されます
OpenClaw は、共有のクロスプロバイダー image_generate 契約にこれらの制御が存在するまで、xAI ネイティブの qualitymaskuser、または追加のネイティブ専用アスペクト比を意図的に公開しません。

/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1
同じ --output-format および --background フラグは、 openclaw infer image edit でも利用できます。--openai-background は引き続き OpenAI 固有のエイリアスです。OpenAI 以外のバンドル済みプロバイダーは、現時点では明示的な背景制御を宣言していないため、background: "transparent" はそれらに対して無視されたものとして報告されます。

関連

  • ツール概要 - 利用可能なすべてのエージェントツール
  • ComfyUI - ローカル ComfyUI と Comfy Cloud ワークフロー設定
  • fal - fal 画像および動画プロバイダー設定
  • Google (Gemini) - Gemini 画像プロバイダー設定
  • MiniMax - MiniMax 画像プロバイダー設定
  • OpenAI - OpenAI Images プロバイダー設定
  • Vydra - Vydra 画像、動画、音声設定
  • xAI - Grok 画像、動画、検索、コード実行、TTS 設定
  • 構成リファレンス - imageGenerationModel 構成
  • モデル - モデル構成とフェイルオーバー