Tools

Generazione di immagini

Lo strumento image_generate consente all'agente di creare e modificare immagini usando i provider configurati. Nelle sessioni di chat, la generazione di immagini viene eseguita in modo asincrono: OpenClaw registra un'attività in background, restituisce immediatamente l'id dell'attività e riattiva l'agente quando il provider termina. L'agente di completamento segue la normale modalità di risposta visibile della sessione: consegna automatica della risposta finale quando configurata, oppure message(action="send") quando la sessione richiede lo strumento di messaggio. Se la sessione richiedente è inattiva o la sua riattivazione attiva non riesce, e alcune immagini generate mancano ancora dalla risposta di completamento, OpenClaw invia un fallback diretto idempotente con solo le immagini mancanti.

Avvio rapido

  • Configure auth

    Imposta una chiave API per almeno un provider (per esempio OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) oppure accedi con OpenAI Codex OAuth.

  • Pick a default model (optional)

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "openai/gpt-image-2",        timeoutMs: 180_000,      },    },  },}

    ChatGPT/Codex OAuth usa lo stesso riferimento modello openai/gpt-image-2. Quando è configurato un profilo OAuth openai, OpenClaw instrada le richieste di immagini tramite quel profilo OAuth invece di provare prima OPENAI_API_KEY. La configurazione esplicita models.providers.openai (chiave API, URL di base custom/Azure) riattiva il percorso diretto dell'API OpenAI Images.

  • Ask the agent

    "Genera un'immagine di una simpatica mascotte robot."

    L'agente chiama automaticamente image_generate. Non serve alcuna allow-list degli strumenti: è abilitato per impostazione predefinita quando è disponibile un provider. Lo strumento restituisce un id di attività in background, poi l'agente di completamento invia l'allegato generato tramite lo strumento message quando è pronto.

  • Percorsi comuni

    Obiettivo Riferimento modello Autenticazione
    Generazione immagini OpenAI con fatturazione API openai/gpt-image-2 OPENAI_API_KEY
    Generazione immagini OpenAI con autenticazione da abbonamento Codex openai/gpt-image-2 OpenAI ChatGPT/Codex OAuth
    PNG/WebP OpenAI con sfondo trasparente openai/gpt-image-1.5 OPENAI_API_KEY o OpenAI Codex OAuth
    Generazione immagini DeepInfra deepinfra/black-forest-labs/FLUX-1-schnell DEEPINFRA_API_KEY
    Generazione fal Krea 2 espressiva/guidata dallo stile fal/krea/v2/medium/text-to-image FAL_KEY
    Generazione immagini OpenRouter openrouter/google/gemini-3.1-flash-image-preview OPENROUTER_API_KEY
    Generazione immagini LiteLLM litellm/gpt-image-2 LITELLM_API_KEY
    Generazione immagini Microsoft Foundry MAI microsoft-foundry/<deployment-name> AZURE_OPENAI_API_KEY o Entra ID
    Generazione immagini Google Gemini google/gemini-3.1-flash-image-preview GEMINI_API_KEY o GOOGLE_API_KEY

    Lo stesso strumento image_generate gestisce la conversione testo-immagine e la modifica di immagini di riferimento. Usa image per un solo riferimento o images per più riferimenti. Per i modelli Krea 2 su fal, quei riferimenti vengono inviati come riferimenti di stile invece che come input di modifica. I suggerimenti di output supportati dal provider come quality, outputFormat e background vengono inoltrati quando disponibili e indicati come ignorati quando un provider non li supporta. Il supporto integrato per lo sfondo trasparente è specifico di OpenAI; altri provider possono comunque preservare l'alpha PNG se il loro backend lo emette.

    Provider supportati

    Provider Modello predefinito Supporto alla modifica Autenticazione
    ComfyUI workflow Sì (1 immagine, configurata dal flusso di lavoro) COMFY_API_KEY o COMFY_CLOUD_API_KEY per il cloud
    DeepInfra black-forest-labs/FLUX-1-schnell Sì (1 immagine) DEEPINFRA_API_KEY
    fal fal-ai/flux/dev Sì (limiti specifici del modello) FAL_KEY
    Google gemini-3.1-flash-image-preview GEMINI_API_KEY o GOOGLE_API_KEY
    LiteLLM gpt-image-2 Sì (fino a 5 immagini di input) LITELLM_API_KEY
    Microsoft Foundry <deployment-name> Sì (solo modelli MAI-Image-2.5) AZURE_OPENAI_API_KEY o Entra ID (az login)
    MiniMax image-01 Sì (riferimento soggetto) MINIMAX_API_KEY o MiniMax OAuth (minimax-portal)
    OpenAI gpt-image-2 Sì (fino a 4 immagini) OPENAI_API_KEY o OpenAI ChatGPT/Codex OAuth
    OpenRouter google/gemini-3.1-flash-image-preview Sì (fino a 5 immagini di input) OPENROUTER_API_KEY
    Vydra grok-imagine No VYDRA_API_KEY
    xAI grok-imagine-image Sì (fino a 5 immagini) XAI_API_KEY

    Usa action: "list" per ispezionare provider e modelli disponibili in fase di esecuzione:

    text
    /tool image_generate action=list

    Usa action: "status" per ispezionare l'attività di generazione immagini attiva per la sessione corrente:

    text
    /tool image_generate action=status

    Capacità dei provider

    Capacità ComfyUI DeepInfra fal Google Microsoft Foundry MiniMax OpenAI Vydra xAI
    Generazione (conteggio massimo) Definita dal flusso di lavoro 4 4 4 1 9 4 1 4
    Modifica / riferimento 1 immagine (flusso di lavoro) 1 immagine Flux: 1; GPT: 10; riferimenti di stile Krea: 10; NB2: 14 Fino a 5 immagini 1 immagine 1 immagine (riferimento soggetto) Fino a 5 immagini - Fino a 5 immagini
    Controllo dimensioni - - Fino a 4K - -
    Rapporto d'aspetto - - - - -
    Risoluzione (1K/2K/4K) - - - - - - 1K, 2K

    Parametri dello strumento

    promptstringrequired

    Prompt di generazione immagini. Richiesto per action: "generate".

    action"generate" | "status" | "list"default: generate

    Usa "status" per ispezionare l'attività della sessione attiva oppure "list" per ispezionare provider e modelli disponibili in fase di esecuzione.

    modelstring

    Override provider/modello (per es. openai/gpt-image-2). Usa openai/gpt-image-1.5 per sfondi OpenAI trasparenti.

    imagestring

    Percorso o URL di una singola immagine di riferimento per la modalità di modifica.

    imagesstring[]

    Più immagini di riferimento per la modalità di modifica o modelli con riferimenti di stile (fino a 10 tramite lo strumento condiviso; i limiti specifici del provider si applicano comunque).

    sizestring

    Suggerimento dimensione: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.

    aspectRatiostring

    Rapporto d'aspetto: 1:1, 2:3, 3:2, 2.35:1, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9, 4:1, 1:4, 8:1, 1:8. I provider validano il sottoinsieme specifico del loro modello.

    resolution"1K" | "2K" | "4K"
    quality"low" | "medium" | "high" | "auto"

    Suggerimento qualità quando il provider lo supporta.

    outputFormat"png" | "jpeg" | "webp"

    Suggerimento formato di output quando il provider lo supporta.

    background"transparent" | "opaque" | "auto"

    Suggerimento sfondo quando il provider lo supporta. Usa transparent con outputFormat: "png" o "webp" per provider capaci di trasparenza.

    countnumber
    timeoutMsnumber

    Timeout opzionale della richiesta al provider in millisecondi. Quando Codex chiama image_generate tramite strumenti dinamici, questo valore per chiamata sovrascrive comunque il valore predefinito configurato ed è limitato a 600000 ms.

    filenamestring
    openaiobject

    Suggerimenti solo OpenAI: background, moderation, outputCompression e user.

    fal.creativity"raw" | "low" | "medium" | "high"

    Controllo creatività fal Krea 2. Il valore predefinito è medium.

    Configurazione

    Selezione del modello

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "openai/gpt-image-2",        timeoutMs: 180_000,        fallbacks: [          "openrouter/google/gemini-3.1-flash-image-preview",          "google/gemini-3.1-flash-image-preview",          "fal/fal-ai/flux/dev",        ],      },    },  },}

    Ordine di selezione dei provider

    OpenClaw prova i provider in questo ordine:

    1. Parametro model dalla chiamata dello strumento (se l'agente ne specifica uno).
    2. imageGenerationModel.primary dalla configurazione.
    3. imageGenerationModel.fallbacks in ordine.
    4. Rilevamento automatico - solo predefiniti dei provider basati su autenticazione:
      • prima il provider predefinito corrente;
      • poi gli altri provider di generazione immagini registrati, in ordine di ID provider.

    Se un provider non riesce (errore di autenticazione, limite di frequenza, ecc.), viene provato automaticamente il candidato configurato successivo. Se tutti falliscono, l'errore include i dettagli di ogni tentativo.

    Gli override del modello per chiamata sono esatti

    Un override model per chiamata prova solo quel provider/modello e non continua con il provider primario/fallback configurato o con i provider rilevati automaticamente.

    Il rilevamento automatico è consapevole dell'autenticazione

    Un predefinito del provider entra nell'elenco dei candidati solo quando OpenClaw può autenticare effettivamente quel provider. Imposta agents.defaults.mediaGenerationAutoProviderFallback: false per usare solo voci esplicite model, primary e fallbacks.

    Timeout

    Imposta agents.defaults.imageGenerationModel.timeoutMs per backend di immagini lenti. Un parametro dello strumento timeoutMs per chiamata sovrascrive il valore predefinito configurato, e i valori predefiniti configurati sovrascrivono i valori predefiniti del provider definiti dal plugin. I provider di immagini ospitati da Google e OpenRouter usano valori predefiniti di 180 secondi; la generazione immagini di Microsoft Foundry MAI, xAI e Azure OpenAI usa 600 secondi. Le chiamate dynamic-tool di Codex usano un valore predefinito del bridge image_generate di 120 secondi e rispettano lo stesso budget di timeout quando configurato, entro il limite massimo del bridge dynamic-tool di OpenClaw di 600000 ms.

    Ispezione a runtime

    Usa action: "list" per ispezionare i provider attualmente registrati, i loro modelli predefiniti e i suggerimenti sulle variabili d'ambiente per l'autenticazione.

    Modifica delle immagini

    OpenAI, OpenRouter, Google, DeepInfra, fal, Microsoft Foundry, MiniMax, ComfyUI e xAI supportano la modifica delle immagini di riferimento. I modelli Krea 2 su fal usano gli stessi campi image / images come riferimenti di stile invece che come input di modifica. Passa un percorso o URL di immagine di riferimento:

    text
    "Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"

    OpenAI, OpenRouter, Google e xAI supportano fino a 5 immagini di riferimento tramite il parametro images. fal supporta 1 immagine di riferimento per Flux image-to-image, fino a 10 per le modifiche GPT Image 2, fino a 10 riferimenti di stile per Krea 2 e fino a 14 per le modifiche Nano Banana 2. Microsoft Foundry, MiniMax e ComfyUI ne supportano 1.

    Approfondimenti sui provider

    OpenAI gpt-image-2 (e gpt-image-1.5)

    La generazione immagini di OpenAI usa come predefinito openai/gpt-image-2. Se è configurato un profilo OAuth openai, OpenClaw riusa lo stesso profilo OAuth usato dai modelli di chat in abbonamento di Codex e invia la richiesta immagine tramite il backend Codex Responses. Gli URL di base legacy di Codex come https://chatgpt.com/backend-api vengono canonicalizzati in https://chatgpt.com/backend-api/codex per le richieste immagine. OpenClaw non ripiega silenziosamente su OPENAI_API_KEY per quella richiesta: per forzare l'instradamento diretto verso OpenAI Images API, configura models.providers.openai esplicitamente con una chiave API, un URL di base personalizzato o un endpoint Azure.

    I modelli openai/gpt-image-1.5, openai/gpt-image-1 e openai/gpt-image-1-mini possono ancora essere selezionati esplicitamente. Usa gpt-image-1.5 per output PNG/WebP con sfondo trasparente; l'attuale API gpt-image-2 rifiuta background: "transparent".

    gpt-image-2 supporta sia la generazione text-to-image sia la modifica con immagini di riferimento tramite lo stesso strumento image_generate. OpenClaw inoltra prompt, count, size, quality, outputFormat e le immagini di riferimento a OpenAI. OpenAI non riceve direttamente aspectRatio o resolution; quando possibile OpenClaw mappa questi valori in un size supportato, altrimenti lo strumento li segnala come override ignorati.

    Le opzioni specifiche di OpenAI risiedono nell'oggetto openai:

    json
    {  "quality": "low",  "outputFormat": "jpeg",  "openai": {    "background": "opaque",    "moderation": "low",    "outputCompression": 60,    "user": "end-user-42"  }}

    openai.background accetta transparent, opaque o auto; gli output trasparenti richiedono outputFormat png o webp e un modello di immagini OpenAI con supporto alla trasparenza. OpenClaw indirizza le richieste predefinite gpt-image-2 con sfondo trasparente a gpt-image-1.5. openai.outputCompression si applica agli output JPEG/WebP ed è ignorato per gli output PNG.

    Il suggerimento di primo livello background è neutrale rispetto al provider e attualmente viene mappato allo stesso campo di richiesta OpenAI background quando è selezionato il provider OpenAI. I provider che non dichiarano il supporto allo sfondo lo restituiscono in ignoredOverrides invece di ricevere il parametro non supportato.

    Per instradare la generazione immagini OpenAI tramite una distribuzione Azure OpenAI invece di api.openai.com, consulta endpoint Azure OpenAI.

    Modelli di immagini Microsoft Foundry MAI

    La generazione immagini di Microsoft Foundry usa nomi di distribuzione immagini MAI distribuiti con il prefisso provider microsoft-foundry/. Non esiste un modello predefinito a livello di provider perché l'API MAI si aspetta il nome della distribuzione nel campo model:

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "microsoft-foundry/<deployment-name>",        timeoutMs: 600_000,      },    },  },}

    Il provider usa l'API MAI di Microsoft Foundry, non l'API OpenAI Images:

    • Endpoint di generazione: /mai/v1/images/generations
    • Endpoint di modifica: /mai/v1/images/edits
    • Autenticazione: AZURE_OPENAI_API_KEY / chiave API del provider, o Entra ID tramite az login
    • Output: un'immagine PNG
    • Dimensione: predefinita 1024x1024; larghezza e altezza devono essere ciascuna di almeno 768 px, e il totale dei pixel deve essere al massimo 1.048.576
    • Modifiche: una immagine di riferimento PNG o JPEG, supportata solo dalle distribuzioni MAI-Image-2.5-Flash e MAI-Image-2.5

    La generazione solo da prompt può usare un nome di distribuzione personalizzato con solo l'endpoint Foundry configurato. Le modifiche con nomi di distribuzione personalizzati richiedono metadati di onboarding/modello così OpenClaw può verificare che la distribuzione sia basata su MAI-Image-2.5-Flash o MAI-Image-2.5.

    I modelli di immagini MAI correnti sono MAI-Image-2.5-Flash, MAI-Image-2.5, MAI-Image-2e e MAI-Image-2. Consulta Plugin Microsoft Foundry per la configurazione e il comportamento dei modelli di chat.

    Modelli di immagini OpenRouter

    La generazione immagini di OpenRouter usa la stessa OPENROUTER_API_KEY e viene instradata tramite l'API di immagini per chat completions di OpenRouter. Seleziona i modelli di immagini OpenRouter con il prefisso openrouter/:

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "openrouter/google/gemini-3.1-flash-image-preview",      },    },  },}

    OpenClaw inoltra prompt, count, immagini di riferimento e suggerimenti aspectRatio / resolution compatibili con Gemini a OpenRouter. Le scorciatoie integrate correnti per i modelli di immagini OpenRouter includono google/gemini-3.1-flash-image-preview, google/gemini-3-pro-image-preview e openai/gpt-5.4-image-2. Usa action: "list" per vedere cosa espone il plugin configurato.

    fal Krea 2

    I modelli Krea 2 su fal usano lo schema Krea nativo di fal invece dello schema generico image_size usato da Flux. OpenClaw invia:

    • aspect_ratio per i suggerimenti sul rapporto d'aspetto
    • creativity, con valore predefinito medium
    • image_style_references quando vengono forniti image o images

    Seleziona Krea 2 Medium per illustrazioni espressive più rapide e Krea 2 Large per aspetti fotorealistici e materici più lenti e dettagliati:

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "fal/krea/v2/medium/text-to-image",      },    },  },}

    Krea 2 attualmente restituisce un'immagine per richiesta. Preferisci aspectRatio per Krea; OpenClaw mappa size al rapporto d'aspetto Krea supportato più vicino e rifiuta resolution per Krea invece di scartarlo. Usa fal.creativity quando vuoi un livello di creatività Krea nativo:

    json
    {  "model": "fal/krea/v2/medium/text-to-image",  "prompt": "A cyber zine portrait with risograph texture",  "aspectRatio": "9:16",  "fal": {    "creativity": "high"  }}
    Doppia autenticazione MiniMax

    La generazione immagini MiniMax è disponibile tramite entrambi i percorsi di autenticazione MiniMax inclusi:

    • minimax/image-01 per configurazioni con chiave API
    • minimax-portal/image-01 per configurazioni OAuth
    xAI grok-imagine-image

    Il provider xAI incluso usa /v1/images/generations per richieste solo da prompt e /v1/images/edits quando è presente image o images.

    • Modelli: xai/grok-imagine-image, xai/grok-imagine-image-quality
    • Conteggio: fino a 4
    • Riferimenti: una image o fino a cinque images
    • Rapporti d'aspetto: 1:1, 16:9, 9:16, 4:3, 3:4, 2:3, 3:2
    • Risoluzioni: 1K, 2K
    • Output: restituiti come allegati immagine gestiti da OpenClaw

    OpenClaw non espone intenzionalmente quality, mask, user o rapporti d'aspetto aggiuntivi solo nativi di xAI finché questi controlli non esistono nel contratto condiviso image_generate tra provider.

    Esempi

    Genera (paesaggio 4K)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1

    Genera (PNG trasparente)

    text
    /tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent

    CLI equivalente:

    bash
    openclaw infer image generate \--model openai/gpt-image-1.5 \--output-format png \--background transparent \--prompt "A simple red circle sticker on a transparent background" \--json

    Genera (bassa qualità OpenAI)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Low-cost draft poster for a quiet productivity app" quality=low openai='{"moderation":"low"}'

    CLI equivalente:

    bash
    openclaw infer image generate \--model openai/gpt-image-2 \--quality low \--openai-moderation low \--prompt "Low-cost draft poster for a quiet productivity app" \--json

    Genera (due quadrate)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2

    Modifica (un riferimento)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536

    Modifica (più riferimenti)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024

    Riferimenti di stile Krea

    text
    /tool image_generate action=generate model=fal/krea/v2/medium/text-to-image prompt="An expressive editorial portrait using this color palette and print texture" images='["/path/to/palette.png","/path/to/texture.jpg"]' aspectRatio=9:16 fal='{"creativity":"high"}'

    Gli stessi flag --output-format, --background, --quality e --openai-moderation sono disponibili in openclaw infer image edit; --openai-background rimane un alias specifico di OpenAI. I provider inclusi diversi da OpenAI al momento non dichiarano un controllo esplicito dello sfondo, quindi background: "transparent" viene segnalato come ignorato per loro.

    Correlati

    • Panoramica degli strumenti - tutti gli strumenti dell'agente disponibili
    • ComfyUI - configurazione del workflow locale di ComfyUI e Comfy Cloud
    • fal - configurazione del provider di immagini e video fal
    • Google (Gemini) - configurazione del provider di immagini Gemini
    • Plugin Microsoft Foundry - configurazione della chat Microsoft Foundry e delle immagini MAI
    • MiniMax - configurazione del provider di immagini MiniMax
    • OpenAI - configurazione del provider OpenAI Images
    • Vydra - configurazione di immagini, video e sintesi vocale Vydra
    • xAI - configurazione di immagini, video, ricerca, esecuzione di codice e TTS Grok
    • Riferimento di configurazione - configurazione di imageGenerationModel
    • Modelli - configurazione dei modelli e failover
    Was this useful?
    On this page

    On this page