Vai al contenuto principale

Generazione di immagini

Lo strumento image_generate consente all’agente di creare e modificare immagini usando i provider configurati. Le immagini generate vengono recapitate automaticamente come allegati multimediali nella risposta dell’agente.
Lo strumento appare solo quando è disponibile almeno un provider di generazione di immagini. Se non vedi image_generate tra gli strumenti dell’agente, configura agents.defaults.imageGenerationModel oppure imposta una chiave API del provider.

Guida rapida

  1. Imposta una chiave API per almeno un provider (ad esempio OPENAI_API_KEY o GEMINI_API_KEY).
  2. Facoltativamente imposta il tuo modello preferito:
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-1",
      },
    },
  },
}
  1. Chiedi all’agente: “Genera un’immagine di una simpatica mascotte aragosta.”
L’agente chiama automaticamente image_generate. Non è necessario alcun allow-listing dello strumento: è abilitato per impostazione predefinita quando è disponibile un provider.

Provider supportati

ProviderModello predefinitoSupporto modificaChiave API
OpenAIgpt-image-1Sì (fino a 5 immagini)OPENAI_API_KEY
Googlegemini-3.1-flash-image-previewGEMINI_API_KEY o GOOGLE_API_KEY
falfal-ai/flux/devFAL_KEY
MiniMaximage-01Sì (riferimento del soggetto)MINIMAX_API_KEY o OAuth MiniMax (minimax-portal)
ComfyUIworkflowSì (1 immagine, configurata nel workflow)COMFY_API_KEY o COMFY_CLOUD_API_KEY per il cloud
Vydragrok-imagineNoVYDRA_API_KEY
Usa action: "list" per ispezionare i provider e i modelli disponibili a runtime:
/tool image_generate action=list

Parametri dello strumento

ParametroTipoDescrizione
promptstringPrompt per la generazione dell’immagine (obbligatorio per action: "generate")
actionstring"generate" (predefinito) oppure "list" per ispezionare i provider
modelstringOverride provider/modello, ad esempio openai/gpt-image-1
imagestringSingolo percorso immagine o URL di riferimento per la modalità modifica
imagesstring[]Più immagini di riferimento per la modalità modifica (fino a 5)
sizestringSuggerimento di dimensione: 1024x1024, 1536x1024, 1024x1536, 1024x1792, 1792x1024
aspectRatiostringRapporto d’aspetto: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
resolutionstringSuggerimento di risoluzione: 1K, 2K o 4K
countnumberNumero di immagini da generare (1–4)
filenamestringSuggerimento per il nome del file di output
Non tutti i provider supportano tutti i parametri. Quando un provider di fallback supporta un’opzione geometrica vicina invece di quella esatta richiesta, OpenClaw rimappa alla dimensione, al rapporto d’aspetto o alla risoluzione supportati più vicini prima dell’invio. Gli override realmente non supportati vengono comunque riportati nel risultato dello strumento. I risultati dello strumento riportano le impostazioni applicate. Quando OpenClaw rimappa la geometria durante il fallback del provider, i valori restituiti size, aspectRatio e resolution riflettono ciò che è stato effettivamente inviato, e details.normalization cattura la traduzione da richiesto ad applicato.

Configurazione

Selezione del modello

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-1",
        fallbacks: ["google/gemini-3.1-flash-image-preview", "fal/fal-ai/flux/dev"],
      },
    },
  },
}

Ordine di selezione del provider

Quando genera un’immagine, OpenClaw prova i provider in questo ordine:
  1. parametro model dalla chiamata dello strumento (se l’agente ne specifica uno)
  2. imageGenerationModel.primary dalla configurazione
  3. imageGenerationModel.fallbacks in ordine
  4. Rilevamento automatico — usa solo i valori predefiniti del provider supportati dall’autenticazione:
    • prima il provider predefinito corrente
    • poi i restanti provider di generazione di immagini registrati in ordine di provider-id
Se un provider fallisce (errore di autenticazione, rate limit, ecc.), il candidato successivo viene provato automaticamente. Se falliscono tutti, l’errore include i dettagli di ogni tentativo. Note:
  • Il rilevamento automatico è consapevole dell’autenticazione. Un valore predefinito del provider entra nell’elenco dei candidati solo quando OpenClaw può effettivamente autenticare quel provider.
  • Il rilevamento automatico è abilitato per impostazione predefinita. Imposta agents.defaults.mediaGenerationAutoProviderFallback: false se vuoi che la generazione di immagini usi solo le voci esplicite model, primary e fallbacks.
  • Usa action: "list" per ispezionare i provider attualmente registrati, i loro modelli predefiniti e i suggerimenti sulle env var di autenticazione.

Modifica delle immagini

OpenAI, Google, fal, MiniMax e ComfyUI supportano la modifica di immagini di riferimento. Passa un percorso immagine o un URL di riferimento:
"Genera una versione ad acquerello di questa foto" + image: "/path/to/photo.jpg"
OpenAI e Google supportano fino a 5 immagini di riferimento tramite il parametro images. fal, MiniMax e ComfyUI ne supportano 1. La generazione di immagini MiniMax è disponibile tramite entrambi i percorsi di autenticazione bundled di MiniMax:
  • minimax/image-01 per configurazioni con chiave API
  • minimax-portal/image-01 per configurazioni OAuth

Capacità dei provider

CapacitàOpenAIGooglefalMiniMaxComfyUIVydra
GenerazioneSì (fino a 4)Sì (fino a 4)Sì (fino a 4)Sì (fino a 9)Sì (output definiti dal workflow)Sì (1)
Modifica/riferimentoSì (fino a 5 immagini)Sì (fino a 5 immagini)Sì (1 immagine)Sì (1 immagine, rif. soggetto)Sì (1 immagine, configurata nel workflow)No
Controllo dimensioneNoNoNo
Rapporto d’aspettoNoSì (solo generazione)NoNo
Risoluzione (1K/2K/4K)NoNoNoNo

Correlati

  • Panoramica degli strumenti — tutti gli strumenti disponibili dell’agente
  • fal — configurazione del provider immagini e video fal
  • ComfyUI — configurazione dei workflow locali di ComfyUI e Comfy Cloud
  • Google (Gemini) — configurazione del provider immagini Gemini
  • MiniMax — configurazione del provider immagini MiniMax
  • OpenAI — configurazione del provider OpenAI Images
  • Vydra — configurazione di immagini, video e speech di Vydra
  • Riferimento alla configurazione — configurazione imageGenerationModel
  • Modelli — configurazione dei modelli e failover