Lo strumentoDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
image_generate consente all’agente di creare e modificare immagini usando i provider configurati. Le immagini generate vengono recapitate automaticamente come allegati multimediali nella risposta dell’agente.
Lo strumento compare solo quando è disponibile almeno un provider di generazione immagini. Se non vedi
image_generate negli strumenti del tuo agente, configura agents.defaults.imageGenerationModel, imposta una chiave API del provider o accedi con OpenAI Codex OAuth.Avvio rapido
Configura l'autenticazione
Imposta una chiave API per almeno un provider (per esempio
OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) oppure accedi con OpenAI Codex OAuth.Scegli un modello predefinito (opzionale)
openai/gpt-image-2. Quando è configurato un profilo OAuth openai-codex, OpenClaw instrada le richieste di immagini tramite quel profilo OAuth invece di provare prima OPENAI_API_KEY. La configurazione esplicita models.providers.openai (chiave API, URL di base personalizzato/Azure) riattiva il percorso diretto dell’API OpenAI Images.Percorsi comuni
| Obiettivo | Rif. modello | Autenticazione |
|---|---|---|
| Generazione immagini OpenAI con fatturazione API | openai/gpt-image-2 | OPENAI_API_KEY |
| Generazione immagini OpenAI con autenticazione tramite abbonamento Codex | openai/gpt-image-2 | OpenAI Codex OAuth |
| PNG/WebP OpenAI con sfondo trasparente | openai/gpt-image-1.5 | OPENAI_API_KEY o OpenAI Codex OAuth |
| Generazione immagini DeepInfra | deepinfra/black-forest-labs/FLUX-1-schnell | DEEPINFRA_API_KEY |
| Generazione immagini OpenRouter | openrouter/google/gemini-3.1-flash-image-preview | OPENROUTER_API_KEY |
| Generazione immagini LiteLLM | litellm/gpt-image-2 | LITELLM_API_KEY |
| Generazione immagini Google Gemini | google/gemini-3.1-flash-image-preview | GEMINI_API_KEY o GOOGLE_API_KEY |
image_generate gestisce testo-in-immagine e la modifica con immagini di riferimento. Usa image per un riferimento o images per più riferimenti. I suggerimenti di output supportati dal provider, come quality, outputFormat e background, vengono inoltrati quando disponibili e segnalati come ignorati quando un provider non li supporta. Il supporto incluso per sfondi trasparenti è specifico di OpenAI; altri provider possono comunque preservare il canale alfa PNG se il loro backend lo emette.
Provider supportati
| Provider | Modello predefinito | Supporto modifica | Autenticazione |
|---|---|---|---|
| ComfyUI | workflow | Sì (1 immagine, configurata dal workflow) | COMFY_API_KEY o COMFY_CLOUD_API_KEY per il cloud |
| DeepInfra | black-forest-labs/FLUX-1-schnell | Sì (1 immagine) | DEEPINFRA_API_KEY |
| fal | fal-ai/flux/dev | Sì (limiti specifici del modello) | FAL_KEY |
gemini-3.1-flash-image-preview | Sì | GEMINI_API_KEY o GOOGLE_API_KEY | |
| LiteLLM | gpt-image-2 | Sì (fino a 5 immagini di input) | LITELLM_API_KEY |
| MiniMax | image-01 | Sì (riferimento soggetto) | MINIMAX_API_KEY o MiniMax OAuth (minimax-portal) |
| OpenAI | gpt-image-2 | Sì (fino a 4 immagini) | OPENAI_API_KEY o OpenAI Codex OAuth |
| OpenRouter | google/gemini-3.1-flash-image-preview | Sì (fino a 5 immagini di input) | OPENROUTER_API_KEY |
| Vydra | grok-imagine | No | VYDRA_API_KEY |
| xAI | grok-imagine-image | Sì (fino a 5 immagini) | XAI_API_KEY |
action: "list" per ispezionare provider e modelli disponibili a runtime:
Capacità dei provider
| Capacità | ComfyUI | DeepInfra | fal | MiniMax | OpenAI | Vydra | xAI | |
|---|---|---|---|---|---|---|---|---|
| Generazione (conteggio massimo) | Definito dal workflow | 4 | 4 | 4 | 9 | 4 | 1 | 4 |
| Modifica / riferimento | 1 immagine (workflow) | 1 immagine | Flux: 1; GPT: 10; NB2: 14 | Fino a 5 immagini | 1 immagine (rif. soggetto) | Fino a 5 immagini | - | Fino a 5 immagini |
| Controllo dimensioni | - | ✓ | ✓ | ✓ | - | Fino a 4K | - | - |
| Proporzioni | - | - | ✓ | ✓ | ✓ | - | - | ✓ |
| Risoluzione (1K/2K/4K) | - | - | ✓ | ✓ | - | - | - | 1K, 2K |
Parametri dello strumento
Prompt di generazione immagini. Obbligatorio per
action: "generate".Usa
"list" per ispezionare provider e modelli disponibili a runtime.Override provider/modello (ad es.
openai/gpt-image-2). Usa openai/gpt-image-1.5 per sfondi OpenAI trasparenti.Percorso o URL di una singola immagine di riferimento per la modalità di modifica.
Più immagini di riferimento per la modalità di modifica (fino a 5 sui provider supportati).
Suggerimento dimensione:
1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.Proporzioni:
1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.Suggerimento risoluzione.
Suggerimento qualità quando il provider lo supporta.
Suggerimento formato di output quando il provider lo supporta.
Suggerimento sfondo quando il provider lo supporta. Usa
transparent con outputFormat: "png" o "webp" per provider capaci di trasparenza.Numero di immagini da generare (1-4).
Timeout opzionale della richiesta al provider in millisecondi. Quando Codex chiama
image_generate tramite strumenti dinamici, questo valore per chiamata sovrascrive comunque il valore predefinito configurato ed è limitato a 600000 ms.Suggerimento nome file di output.
Suggerimenti solo OpenAI:
background, moderation, outputCompression e user.Non tutti i provider supportano tutti i parametri. Quando un provider di fallback supporta un’opzione geometrica simile invece di quella esatta richiesta, OpenClaw rimappa alla dimensione, alle proporzioni o alla risoluzione supportate più vicine prima dell’invio. I suggerimenti di output non supportati vengono scartati per i provider che non dichiarano supporto e segnalati nel risultato dello strumento. I risultati dello strumento riportano le impostazioni applicate;
details.normalization registra ogni traduzione da richiesto ad applicato.Configurazione
Selezione del modello
Ordine di selezione dei provider
OpenClaw prova i provider in questo ordine:- Parametro
modeldalla chiamata allo strumento (se l’agente ne specifica uno). imageGenerationModel.primarydalla configurazione.imageGenerationModel.fallbacksin ordine.- Rilevamento automatico: solo valori predefiniti dei provider con autenticazione:
- prima il provider predefinito corrente;
- poi i restanti provider registrati per generazione immagini in ordine di ID provider.
Gli override del modello per chiamata sono esatti
Gli override del modello per chiamata sono esatti
Un override
model per chiamata prova solo quel provider/modello e non continua con primary/fallback configurati o provider rilevati automaticamente.Il rilevamento automatico è consapevole dell'autenticazione
Il rilevamento automatico è consapevole dell'autenticazione
Il valore predefinito di un provider entra nell’elenco dei candidati solo quando OpenClaw può effettivamente autenticare quel provider. Imposta
agents.defaults.mediaGenerationAutoProviderFallback: false per usare solo voci esplicite model, primary e fallbacks.Timeout
Timeout
Imposta
agents.defaults.imageGenerationModel.timeoutMs per backend di immagini lenti. Un parametro dello strumento timeoutMs per chiamata sovrascrive il valore predefinito configurato. Le chiamate agli strumenti dinamici di Codex rispettano lo stesso budget di timeout, limitato dal massimo di 600000 ms del bridge per strumenti dinamici di OpenClaw.Ispeziona a runtime
Ispeziona a runtime
Usa
action: "list" per ispezionare i provider attualmente registrati, i loro modelli predefiniti e i suggerimenti per le variabili d’ambiente di autenticazione.Modifica delle immagini
OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI e xAI supportano la modifica delle immagini di riferimento. Passa un percorso o URL di un’immagine di riferimento:images. fal supporta 1 immagine di riferimento per Flux image-to-image, fino
a 10 per le modifiche GPT Image 2 e fino a 14 per le modifiche Nano Banana 2. MiniMax e
ComfyUI ne supportano 1.
Approfondimenti sui provider
OpenAI gpt-image-2 (and gpt-image-1.5)
OpenAI gpt-image-2 (and gpt-image-1.5)
La generazione di immagini OpenAI usa per impostazione predefinita
openai/gpt-image-2. Se è
configurato un profilo OAuth openai-codex, OpenClaw riutilizza lo stesso
profilo OAuth usato dai modelli chat in abbonamento Codex e invia la
richiesta immagine tramite il backend Codex Responses. Gli URL di base Codex
legacy come https://chatgpt.com/backend-api vengono canonicalizzati in
https://chatgpt.com/backend-api/codex per le richieste immagine. OpenClaw
non ripiega silenziosamente su OPENAI_API_KEY per quella richiesta -
per forzare l’instradamento diretto tramite OpenAI Images API, configura
esplicitamente models.providers.openai con una chiave API, un URL di base
personalizzato o un endpoint Azure.I modelli openai/gpt-image-1.5, openai/gpt-image-1 e
openai/gpt-image-1-mini possono ancora essere selezionati esplicitamente. Usa
gpt-image-1.5 per output PNG/WebP con sfondo trasparente; l’API attuale
gpt-image-2 rifiuta background: "transparent".gpt-image-2 supporta sia la generazione text-to-image sia la modifica con
immagini di riferimento tramite lo stesso strumento image_generate.
OpenClaw inoltra prompt, count, size, quality, outputFormat
e le immagini di riferimento a OpenAI. OpenAI non riceve
direttamente aspectRatio o resolution; quando possibile OpenClaw mappa
questi valori in una size supportata, altrimenti lo strumento li segnala come
override ignorati.Le opzioni specifiche di OpenAI si trovano nell’oggetto openai:openai.background accetta transparent, opaque o auto;
gli output trasparenti richiedono outputFormat png o webp e un
modello immagine OpenAI compatibile con la trasparenza. OpenClaw instrada le
richieste predefinite gpt-image-2 con sfondo trasparente verso gpt-image-1.5.
openai.outputCompression si applica agli output JPEG/WebP.Il suggerimento di primo livello background è neutrale rispetto al provider e attualmente viene mappato
allo stesso campo di richiesta OpenAI background quando è selezionato il provider OpenAI.
I provider che non dichiarano il supporto per lo sfondo lo restituiscono
in ignoredOverrides invece di ricevere il parametro non supportato.Per instradare la generazione di immagini OpenAI tramite una distribuzione Azure OpenAI
invece di api.openai.com, consulta
endpoint Azure OpenAI.OpenRouter image models
OpenRouter image models
La generazione di immagini OpenRouter usa la stessa OpenClaw inoltra
OPENROUTER_API_KEY e
passa attraverso l’API immagini per chat completions di OpenRouter. Seleziona
i modelli immagine OpenRouter con il prefisso openrouter/:prompt, count, le immagini di riferimento e i suggerimenti
aspectRatio / resolution compatibili con Gemini a OpenRouter.
Le scorciatoie integrate attuali per i modelli immagine OpenRouter includono
google/gemini-3.1-flash-image-preview,
google/gemini-3-pro-image-preview e openai/gpt-5.4-image-2. Usa
action: "list" per vedere cosa espone il Plugin configurato.MiniMax dual-auth
MiniMax dual-auth
La generazione di immagini MiniMax è disponibile tramite entrambi i percorsi di autenticazione
MiniMax inclusi:
minimax/image-01per configurazioni con chiave APIminimax-portal/image-01per configurazioni OAuth
xAI grok-imagine-image
xAI grok-imagine-image
Il provider xAI incluso usa
/v1/images/generations per le richieste con solo prompt
e /v1/images/edits quando è presente image o images.- Modelli:
xai/grok-imagine-image,xai/grok-imagine-image-pro - Conteggio: fino a 4
- Riferimenti: una
imageo fino a cinqueimages - Rapporti d’aspetto:
1:1,16:9,9:16,4:3,3:4,2:3,3:2 - Risoluzioni:
1K,2K - Output: restituiti come allegati immagine gestiti da OpenClaw
quality, mask,
user specifici di xAI, né rapporti d’aspetto aggiuntivi solo nativi, finché tali controlli non esistono
nel contratto condiviso cross-provider image_generate.Esempi
- Generate (4K landscape)
- Generate (transparent PNG)
- Generate (two square)
- Edit (one reference)
- Edit (multiple references)
--output-format e --background sono disponibili su
openclaw infer image edit; --openai-background resta un alias
specifico di OpenAI. I provider inclusi diversi da OpenAI oggi non dichiarano
un controllo esplicito dello sfondo, quindi background: "transparent" viene segnalato
come ignorato per loro.
Correlati
- Panoramica degli strumenti - tutti gli strumenti agent disponibili
- ComfyUI - configurazione del workflow ComfyUI locale e Comfy Cloud
- fal - configurazione del provider immagini e video fal
- Google (Gemini) - configurazione del provider immagini Gemini
- MiniMax - configurazione del provider immagini MiniMax
- OpenAI - configurazione del provider OpenAI Images
- Vydra - configurazione di immagini, video e voce Vydra
- xAI - configurazione di immagini Grok, video, ricerca, esecuzione di codice e TTS
- Riferimento di configurazione - configurazione
imageGenerationModel - Modelli - configurazione dei modelli e failover