Generación de imágenes
La herramienta image_generate permite al agente crear y editar imágenes usando tus proveedores configurados. Las imágenes generadas se entregan automáticamente como archivos multimedia adjuntos en la respuesta del agente.
La herramienta solo aparece cuando al menos un proveedor de generación de imágenes está disponible. Si no ves image_generate en las herramientas de tu agente, configura agents.defaults.imageGenerationModel o establece una clave API de proveedor.
Inicio rápido
- Establece una clave API para al menos un proveedor (por ejemplo
OPENAI_API_KEY o GEMINI_API_KEY).
- Opcionalmente, establece tu modelo preferido:
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-1",
},
},
},
}
- Pídele al agente: “Generate an image of a friendly lobster mascot.”
El agente llama automáticamente a image_generate. No hace falta permitir explícitamente la herramienta: está habilitada de forma predeterminada cuando hay un proveedor disponible.
Proveedores compatibles
| Proveedor | Modelo predeterminado | Compatibilidad de edición | Clave API |
|---|
| OpenAI | gpt-image-1 | Sí (hasta 5 imágenes) | OPENAI_API_KEY |
| Google | gemini-3.1-flash-image-preview | Sí | GEMINI_API_KEY o GOOGLE_API_KEY |
| fal | fal-ai/flux/dev | Sí | FAL_KEY |
| MiniMax | image-01 | Sí (referencia de sujeto) | MINIMAX_API_KEY o MiniMax OAuth (minimax-portal) |
| ComfyUI | workflow | Sí (1 imagen, configurada por workflow) | COMFY_API_KEY o COMFY_CLOUD_API_KEY para la nube |
| Vydra | grok-imagine | No | VYDRA_API_KEY |
Usa action: "list" para inspeccionar los proveedores y modelos disponibles en tiempo de ejecución:
/tool image_generate action=list
Parámetros de la herramienta
| Parámetro | Tipo | Descripción |
|---|
prompt | string | Prompt de generación de imágenes (obligatorio para action: "generate") |
action | string | "generate" (predeterminado) o "list" para inspeccionar proveedores |
model | string | Anulación de proveedor/modelo, por ejemplo openai/gpt-image-1 |
image | string | Ruta o URL de una sola imagen de referencia para modo edición |
images | string[] | Varias imágenes de referencia para modo edición (hasta 5) |
size | string | Sugerencia de tamaño: 1024x1024, 1536x1024, 1024x1536, 1024x1792, 1792x1024 |
aspectRatio | string | Relación de aspecto: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9 |
resolution | string | Sugerencia de resolución: 1K, 2K o 4K |
count | number | Número de imágenes que se deben generar (1–4) |
filename | string | Sugerencia de nombre de archivo de salida |
No todos los proveedores admiten todos los parámetros. Cuando un proveedor de respaldo admite una opción geométrica cercana en lugar de la solicitada exactamente, OpenClaw la reasigna al tamaño, relación de aspecto o resolución compatible más cercana antes del envío. Las anulaciones realmente incompatibles siguen informándose en el resultado de la herramienta.
Los resultados de la herramienta informan de la configuración aplicada. Cuando OpenClaw reasigna la geometría durante el respaldo entre proveedores, los valores devueltos de size, aspectRatio y resolution reflejan lo que realmente se envió, y details.normalization captura la traducción entre lo solicitado y lo aplicado.
Configuración
Selección de modelo
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-1",
fallbacks: ["google/gemini-3.1-flash-image-preview", "fal/fal-ai/flux/dev"],
},
},
},
}
Orden de selección de proveedores
Al generar una imagen, OpenClaw prueba los proveedores en este orden:
- El parámetro
model de la llamada a la herramienta (si el agente especifica uno)
imageGenerationModel.primary desde la configuración
imageGenerationModel.fallbacks en orden
- Detección automática — usa solo valores predeterminados de proveedores respaldados por autenticación:
- primero el proveedor predeterminado actual
- después los proveedores de generación de imágenes registrados restantes en orden por ID de proveedor
Si un proveedor falla (error de autenticación, límite de tasa, etc.), se prueba automáticamente el siguiente candidato. Si todos fallan, el error incluye detalles de cada intento.
Notas:
- La detección automática reconoce el estado de autenticación. Un valor predeterminado de proveedor solo entra en la lista de candidatos
cuando OpenClaw puede autenticar realmente ese proveedor.
- La detección automática está habilitada de forma predeterminada. Establece
agents.defaults.mediaGenerationAutoProviderFallback: false si quieres que la generación de imágenes
use solo las entradas explícitas model, primary y fallbacks.
- Usa
action: "list" para inspeccionar los proveedores actualmente registrados, sus
modelos predeterminados y las pistas de variables de entorno de autenticación.
Edición de imágenes
OpenAI, Google, fal, MiniMax y ComfyUI admiten la edición de imágenes de referencia. Pasa una ruta o URL de imagen de referencia:
"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
OpenAI y Google admiten hasta 5 imágenes de referencia mediante el parámetro images. fal, MiniMax y ComfyUI admiten 1.
La generación de imágenes de MiniMax está disponible a través de ambas rutas de autenticación MiniMax incluidas:
minimax/image-01 para configuraciones con clave API
minimax-portal/image-01 para configuraciones con OAuth
Capacidades del proveedor
| Capacidad | OpenAI | Google | fal | MiniMax | ComfyUI | Vydra |
|---|
| Generar | Sí (hasta 4) | Sí (hasta 4) | Sí (hasta 4) | Sí (hasta 9) | Sí (salidas definidas por workflow) | Sí (1) |
| Edición/referencia | Sí (hasta 5 imágenes) | Sí (hasta 5 imágenes) | Sí (1 imagen) | Sí (1 imagen, ref. de sujeto) | Sí (1 imagen, configurada por workflow) | No |
| Control de tamaño | Sí | Sí | Sí | No | No | No |
| Relación de aspecto | No | Sí | Sí (solo generar) | Sí | No | No |
| Resolución (1K/2K/4K) | No | Sí | Sí | No | No | No |
Relacionado
- Resumen de herramientas — todas las herramientas de agente disponibles
- fal — configuración del proveedor de imágenes y video de fal
- ComfyUI — configuración de workflows locales de ComfyUI y Comfy Cloud
- Google (Gemini) — configuración del proveedor de imágenes Gemini
- MiniMax — configuración del proveedor de imágenes MiniMax
- OpenAI — configuración del proveedor OpenAI Images
- Vydra — configuración de imagen, video y voz de Vydra
- Referencia de configuración — configuración
imageGenerationModel
- Models — configuración de modelos y conmutación por error