Passer au contenu principal

Génération d’images

L’outil image_generate permet à l’agent de créer et de modifier des images à l’aide de vos fournisseurs configurés. Les images générées sont livrées automatiquement comme pièces jointes multimédias dans la réponse de l’agent.
L’outil n’apparaît que lorsqu’au moins un fournisseur de génération d’images est disponible. Si vous ne voyez pas image_generate dans les outils de votre agent, configurez agents.defaults.imageGenerationModel ou définissez une clé API de fournisseur.

Démarrage rapide

  1. Définissez une clé API pour au moins un fournisseur (par exemple OPENAI_API_KEY ou GEMINI_API_KEY).
  2. Définissez éventuellement votre modèle préféré :
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-1",
      },
    },
  },
}
  1. Demandez à l’agent : “Génère une image d’une mascotte homard sympathique.”
L’agent appelle automatiquement image_generate. Aucune allowlist d’outils n’est nécessaire — il est activé par défaut lorsqu’un fournisseur est disponible.

Fournisseurs pris en charge

FournisseurModèle par défautPrise en charge de l’éditionClé API
OpenAIgpt-image-1Oui (jusqu’à 5 images)OPENAI_API_KEY
Googlegemini-3.1-flash-image-previewOuiGEMINI_API_KEY ou GOOGLE_API_KEY
falfal-ai/flux/devOuiFAL_KEY
MiniMaximage-01Oui (référence de sujet)MINIMAX_API_KEY ou OAuth MiniMax (minimax-portal)
ComfyUIworkflowOui (1 image, configurée par workflow)COMFY_API_KEY ou COMFY_CLOUD_API_KEY pour le cloud
Vydragrok-imagineNonVYDRA_API_KEY
Utilisez action: "list" pour inspecter les fournisseurs et modèles disponibles à l’exécution :
/tool image_generate action=list

Paramètres de l’outil

ParamètreTypeDescription
promptstringPrompt de génération d’image (requis pour action: "generate")
actionstring"generate" (par défaut) ou "list" pour inspecter les fournisseurs
modelstringSurcharge fournisseur/modèle, par exemple openai/gpt-image-1
imagestringChemin ou URL d’image de référence unique pour le mode édition
imagesstring[]Plusieurs images de référence pour le mode édition (jusqu’à 5)
sizestringIndication de taille : 1024x1024, 1536x1024, 1024x1536, 1024x1792, 1792x1024
aspectRatiostringRatio d’aspect : 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
resolutionstringIndication de résolution : 1K, 2K ou 4K
countnumberNombre d’images à générer (1–4)
filenamestringIndication de nom de fichier de sortie
Tous les fournisseurs ne prennent pas en charge tous les paramètres. Lorsqu’un fournisseur de repli prend en charge une option de géométrie proche au lieu de celle demandée exactement, OpenClaw remappe vers la taille, le ratio d’aspect ou la résolution prise en charge la plus proche avant l’envoi. Les surcharges réellement non prises en charge sont tout de même signalées dans le résultat de l’outil. Les résultats de l’outil signalent les paramètres appliqués. Lorsque OpenClaw remappe la géométrie lors d’un repli de fournisseur, les valeurs renvoyées size, aspectRatio et resolution reflètent ce qui a réellement été envoyé, et details.normalization capture la traduction entre la demande et ce qui a été appliqué.

Configuration

Sélection du modèle

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-1",
        fallbacks: ["google/gemini-3.1-flash-image-preview", "fal/fal-ai/flux/dev"],
      },
    },
  },
}

Ordre de sélection des fournisseurs

Lors de la génération d’une image, OpenClaw essaie les fournisseurs dans cet ordre :
  1. Paramètre model de l’appel d’outil (si l’agent en spécifie un)
  2. imageGenerationModel.primary depuis la configuration
  3. imageGenerationModel.fallbacks dans l’ordre
  4. Détection automatique — utilise uniquement les valeurs par défaut des fournisseurs adossés à une authentification :
    • d’abord le fournisseur par défaut actuel
    • puis les autres fournisseurs de génération d’images enregistrés dans l’ordre des ID de fournisseur
Si un fournisseur échoue (erreur d’authentification, limite de débit, etc.), le candidat suivant est essayé automatiquement. Si tous échouent, l’erreur inclut les détails de chaque tentative. Remarques :
  • La détection automatique tient compte de l’authentification. Une valeur par défaut de fournisseur n’entre dans la liste des candidats que lorsque OpenClaw peut effectivement authentifier ce fournisseur.
  • La détection automatique est activée par défaut. Définissez agents.defaults.mediaGenerationAutoProviderFallback: false si vous voulez que la génération d’images utilise uniquement les entrées explicites model, primary et fallbacks.
  • Utilisez action: "list" pour inspecter les fournisseurs actuellement enregistrés, leurs modèles par défaut et les indications de variables d’environnement d’authentification.

Édition d’image

OpenAI, Google, fal, MiniMax et ComfyUI prennent en charge l’édition d’images de référence. Passez un chemin ou une URL d’image de référence :
"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
OpenAI et Google prennent en charge jusqu’à 5 images de référence via le paramètre images. fal, MiniMax et ComfyUI en prennent en charge 1. La génération d’images MiniMax est disponible via les deux chemins d’authentification MiniMax groupés :
  • minimax/image-01 pour les configurations à clé API
  • minimax-portal/image-01 pour les configurations OAuth

Capacités des fournisseurs

CapacitéOpenAIGooglefalMiniMaxComfyUIVydra
GénérationOui (jusqu’à 4)Oui (jusqu’à 4)Oui (jusqu’à 4)Oui (jusqu’à 9)Oui (sorties définies par workflow)Oui (1)
Édition/référenceOui (jusqu’à 5 images)Oui (jusqu’à 5 images)Oui (1 image)Oui (1 image, réf. sujet)Oui (1 image, configurée par workflow)Non
Contrôle de la tailleOuiOuiOuiNonNonNon
Ratio d’aspectNonOuiOui (génération uniquement)OuiNonNon
Résolution (1K/2K/4K)NonOuiOuiNonNonNon

Voir aussi

  • Vue d’ensemble des outils — tous les outils d’agent disponibles
  • fal — configuration du fournisseur d’images et de vidéo fal
  • ComfyUI — configuration des workflows ComfyUI local et Comfy Cloud
  • Google (Gemini) — configuration du fournisseur d’images Gemini
  • MiniMax — configuration du fournisseur d’images MiniMax
  • OpenAI — configuration du fournisseur OpenAI Images
  • Vydra — configuration de Vydra pour l’image, la vidéo et la parole
  • Référence de configuration — configuration imageGenerationModel
  • Models — configuration des modèles et basculement