Перейти до основного вмісту

Генерація зображень

Інструмент image_generate дає агенту змогу створювати й редагувати зображення за допомогою ваших налаштованих провайдерів. Згенеровані зображення автоматично доставляються як медіавкладення у відповіді агента.
Інструмент з’являється лише тоді, коли доступний принаймні один провайдер генерації зображень. Якщо ви не бачите image_generate в інструментах свого агента, налаштуйте agents.defaults.imageGenerationModel або задайте API-ключ провайдера.

Швидкий старт

  1. Задайте API-ключ принаймні для одного провайдера, наприклад OPENAI_API_KEY або GEMINI_API_KEY.
  2. За потреби задайте бажану модель:
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-1",
      },
    },
  },
}
  1. Попросіть агента: “Згенеруй зображення дружнього маскота-лобстера.”
Агент автоматично викликає image_generate. Додавати інструмент до allowlist не потрібно — він увімкнений за замовчуванням, коли доступний провайдер.

Підтримувані провайдери

ПровайдерМодель за замовчуваннямПідтримка редагуванняAPI-ключ
OpenAIgpt-image-1Так (до 5 зображень)OPENAI_API_KEY
Googlegemini-3.1-flash-image-previewТакGEMINI_API_KEY або GOOGLE_API_KEY
falfal-ai/flux/devТакFAL_KEY
MiniMaximage-01Так (посилання на об’єкт)MINIMAX_API_KEY або MiniMax OAuth (minimax-portal)
ComfyUIworkflowТак (1 зображення, налаштовується workflow)COMFY_API_KEY або COMFY_CLOUD_API_KEY для хмари
Vydragrok-imagineНіVYDRA_API_KEY
Використайте action: "list", щоб переглянути доступні провайдери та моделі під час виконання:
/tool image_generate action=list

Параметри інструмента

ПараметрТипОпис
promptstringПромпт для генерації зображення (обов’язковий для action: "generate")
actionstring"generate" (типово) або "list" для перегляду провайдерів
modelstringПеревизначення провайдера/моделі, наприклад openai/gpt-image-1
imagestringШлях або URL одного еталонного зображення для режиму редагування
imagesstring[]Кілька еталонних зображень для режиму редагування (до 5)
sizestringПідказка щодо розміру: 1024x1024, 1536x1024, 1024x1536, 1024x1792, 1792x1024
aspectRatiostringСпіввідношення сторін: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
resolutionstringПідказка щодо роздільної здатності: 1K, 2K або 4K
countnumberКількість зображень для генерації (1–4)
filenamestringПідказка щодо імені вихідного файла
Не всі провайдери підтримують усі параметри. Коли резервний провайдер підтримує близький варіант геометрії замість точно запитаного, OpenClaw перед надсиланням зіставляє запит із найближчим підтримуваним розміром, співвідношенням сторін або роздільною здатністю. Справді непідтримувані перевизначення все одно відображаються в результаті інструмента. Результати інструмента містять застосовані налаштування. Коли OpenClaw зіставляє геометрію під час переходу на резервного провайдера, повернуті значення size, aspectRatio і resolution відображають те, що було фактично надіслано, а details.normalization фіксує перетворення від запитаних значень до застосованих.

Налаштування

Вибір моделі

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-1",
        fallbacks: ["google/gemini-3.1-flash-image-preview", "fal/fal-ai/flux/dev"],
      },
    },
  },
}

Порядок вибору провайдера

Під час генерації зображення OpenClaw пробує провайдери в такому порядку:
  1. Параметр model з виклику інструмента (якщо агент його вказує)
  2. imageGenerationModel.primary із конфігурації
  3. imageGenerationModel.fallbacks у заданому порядку
  4. Автовиявлення — використовує лише типові значення провайдерів, підкріплені автентифікацією:
    • спочатку поточний типовий провайдер
    • далі решта зареєстрованих провайдерів генерації зображень у порядку їхніх ідентифікаторів
Якщо провайдер завершується помилкою (помилка автентифікації, обмеження швидкості тощо), автоматично пробується наступний кандидат. Якщо всі спроби невдалі, помилка містить подробиці кожної спроби. Примітки:
  • Автовиявлення враховує доступну автентифікацію. Типовий провайдер потрапляє до списку кандидатів лише тоді, коли OpenClaw справді може автентифікувати цей провайдер.
  • Автовиявлення ввімкнене за замовчуванням. Задайте agents.defaults.mediaGenerationAutoProviderFallback: false, якщо хочете, щоб генерація зображень використовувала лише явно задані записи model, primary і fallbacks.
  • Використайте action: "list", щоб переглянути наразі зареєстровані провайдери, їхні типові моделі та підказки щодо змінних середовища для автентифікації.

Редагування зображень

OpenAI, Google, fal, MiniMax і ComfyUI підтримують редагування еталонних зображень. Передайте шлях або URL еталонного зображення:
"Згенеруй акварельну версію цього фото" + image: "/path/to/photo.jpg"
OpenAI і Google підтримують до 5 еталонних зображень через параметр images. fal, MiniMax і ComfyUI підтримують 1. Генерація зображень MiniMax доступна через обидва вбудовані шляхи автентифікації MiniMax:
  • minimax/image-01 для налаштувань з API-ключем
  • minimax-portal/image-01 для налаштувань з OAuth

Можливості провайдерів

МожливістьOpenAIGooglefalMiniMaxComfyUIVydra
ГенераціяТак (до 4)Так (до 4)Так (до 4)Так (до 9)Так (кількість виходів визначається workflow)Так (1)
Редагування/еталонТак (до 5 зображень)Так (до 5 зображень)Так (1 зображення)Так (1 зображення, посилання на об’єкт)Так (1 зображення, налаштовується workflow)Ні
Керування розміромТакТакТакНіНіНі
Співвідношення сторінНіТакТак (лише генерація)ТакНіНі
Роздільна здатність (1K/2K/4K)НіТакТакНіНіНі

Пов’язане

  • Огляд інструментів — усі доступні інструменти агента
  • fal — налаштування провайдера зображень і відео fal
  • ComfyUI — налаштування локального ComfyUI і Comfy Cloud workflow
  • Google (Gemini) — налаштування провайдера зображень Gemini
  • MiniMax — налаштування провайдера зображень MiniMax
  • OpenAI — налаштування провайдера OpenAI Images
  • Vydra — налаштування зображень, відео й мовлення Vydra
  • Довідник із конфігурації — конфігурація imageGenerationModel
  • Моделі — налаштування моделей і відмовостійкість