Generowanie obrazów
Narzędzie image_generate pozwala agentowi tworzyć i edytować obrazy przy użyciu skonfigurowanych providerów. Wygenerowane obrazy są automatycznie dostarczane jako załączniki multimedialne w odpowiedzi agenta.
Narzędzie pojawia się tylko wtedy, gdy dostępny jest co najmniej jeden provider generowania obrazów. Jeśli nie widzisz image_generate w narzędziach swojego agenta, skonfiguruj agents.defaults.imageGenerationModel albo ustaw klucz API providera.
Szybki start
- Ustaw klucz API dla co najmniej jednego providera (na przykład
OPENAI_API_KEY lub GEMINI_API_KEY).
- Opcjonalnie ustaw preferowany model:
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-1",
},
},
},
}
- Poproś agenta: “Wygeneruj obraz przyjaznej maskotki homara.”
Agent wywoła image_generate automatycznie. Nie trzeba dodawać go do listy dozwolonych narzędzi — jest domyślnie włączone, gdy provider jest dostępny.
Obsługiwani providerzy
| Provider | Model domyślny | Obsługa edycji | Klucz API |
|---|
| OpenAI | gpt-image-1 | Tak (do 5 obrazów) | OPENAI_API_KEY |
| Google | gemini-3.1-flash-image-preview | Tak | GEMINI_API_KEY lub GOOGLE_API_KEY |
| fal | fal-ai/flux/dev | Tak | FAL_KEY |
| MiniMax | image-01 | Tak (referencja obiektu) | MINIMAX_API_KEY lub OAuth MiniMax (minimax-portal) |
| ComfyUI | workflow | Tak (1 obraz, konfigurowany przez workflow) | COMFY_API_KEY lub COMFY_CLOUD_API_KEY dla chmury |
| Vydra | grok-imagine | Nie | VYDRA_API_KEY |
Użyj action: "list", aby sprawdzić dostępnych providerów i modele w runtime:
/tool image_generate action=list
Parametry narzędzia
| Parametr | Typ | Opis |
|---|
prompt | string | Prompt do generowania obrazu (wymagany dla action: "generate") |
action | string | "generate" (domyślnie) lub "list" do sprawdzenia providerów |
model | string | Nadpisanie providera/modelu, np. openai/gpt-image-1 |
image | string | Ścieżka lub URL pojedynczego obrazu referencyjnego dla trybu edycji |
images | string[] | Wiele obrazów referencyjnych dla trybu edycji (do 5) |
size | string | Wskazówka rozmiaru: 1024x1024, 1536x1024, 1024x1536, 1024x1792, 1792x1024 |
aspectRatio | string | Współczynnik proporcji: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9 |
resolution | string | Wskazówka rozdzielczości: 1K, 2K lub 4K |
count | number | Liczba obrazów do wygenerowania (1–4) |
filename | string | Wskazówka nazwy pliku wyjściowego |
Nie wszyscy providerzy obsługują wszystkie parametry. Gdy fallback provider obsługuje zbliżoną opcję geometrii zamiast dokładnie żądanej, OpenClaw przed wysłaniem mapuje ją na najbliższy obsługiwany rozmiar, współczynnik proporcji lub rozdzielczość. Naprawdę nieobsługiwane nadpisania są nadal raportowane w wyniku narzędzia.
Wyniki narzędzia raportują zastosowane ustawienia. Gdy OpenClaw mapuje geometrię podczas fallbacku providera, zwracane wartości size, aspectRatio i resolution odzwierciedlają to, co faktycznie zostało wysłane, a details.normalization rejestruje translację od wartości żądanej do zastosowanej.
Konfiguracja
Wybór modelu
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-1",
fallbacks: ["google/gemini-3.1-flash-image-preview", "fal/fal-ai/flux/dev"],
},
},
},
}
Kolejność wyboru providera
Podczas generowania obrazu OpenClaw próbuje providerów w tej kolejności:
- Parametr
model z wywołania narzędzia (jeśli agent go określi)
imageGenerationModel.primary z configu
imageGenerationModel.fallbacks w podanej kolejności
- Auto-detection — używa tylko domyślnych providerów wspartych auth:
- najpierw bieżący provider domyślny
- następnie pozostali zarejestrowani providerzy generowania obrazów w kolejności identyfikatorów providerów
Jeśli provider zawiedzie (błąd auth, limit szybkości itd.), automatycznie próbowany jest kolejny kandydat. Jeśli zawiodą wszystkie, błąd zawiera szczegóły każdej próby.
Uwagi:
- Auto-detection uwzględnia auth. Provider domyślny trafia na listę kandydatów
tylko wtedy, gdy OpenClaw może rzeczywiście uwierzytelnić tego providera.
- Auto-detection jest domyślnie włączone. Ustaw
agents.defaults.mediaGenerationAutoProviderFallback: false, jeśli chcesz, aby generowanie obrazów
używało tylko jawnych wpisów model, primary i fallbacks.
- Użyj
action: "list", aby sprawdzić aktualnie zarejestrowanych providerów, ich
modele domyślne oraz wskazówki dotyczące zmiennych środowiskowych auth.
Edycja obrazów
OpenAI, Google, fal, MiniMax i ComfyUI obsługują edycję obrazów referencyjnych. Przekaż ścieżkę lub URL obrazu referencyjnego:
"Wygeneruj akwarelową wersję tego zdjęcia" + image: "/path/to/photo.jpg"
OpenAI i Google obsługują do 5 obrazów referencyjnych przez parametr images. fal, MiniMax i ComfyUI obsługują 1.
Generowanie obrazów MiniMax jest dostępne przez obie dołączone ścieżki auth MiniMax:
minimax/image-01 dla konfiguracji z kluczem API
minimax-portal/image-01 dla konfiguracji OAuth
Możliwości providerów
| Możliwość | OpenAI | Google | fal | MiniMax | ComfyUI | Vydra |
|---|
| Generowanie | Tak (do 4) | Tak (do 4) | Tak (do 4) | Tak (do 9) | Tak (wyjścia definiowane przez workflow) | Tak (1) |
| Edycja/referencja | Tak (do 5 obrazów) | Tak (do 5 obrazów) | Tak (1 obraz) | Tak (1 obraz, referencja obiektu) | Tak (1 obraz, konfigurowany przez workflow) | Nie |
| Kontrola rozmiaru | Tak | Tak | Tak | Nie | Nie | Nie |
| Współczynnik proporcji | Nie | Tak | Tak (tylko generowanie) | Tak | Nie | Nie |
| Rozdzielczość (1K/2K/4K) | Nie | Tak | Tak | Nie | Nie | Nie |
Powiązane
- Tools Overview — wszystkie dostępne narzędzia agenta
- fal — konfiguracja providera obrazów i wideo fal
- ComfyUI — konfiguracja lokalnego workflow ComfyUI i Comfy Cloud
- Google (Gemini) — konfiguracja providera obrazów Gemini
- MiniMax — konfiguracja providera obrazów MiniMax
- OpenAI — konfiguracja providera OpenAI Images
- Vydra — konfiguracja obrazów, wideo i mowy Vydra
- Configuration Reference — konfiguracja
imageGenerationModel
- Models — konfiguracja modeli i failover