الانتقال إلى المحتوى الرئيسي

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

تتيح أداة image_generate للوكيل إنشاء الصور وتحريرها باستخدام الموفرين الذين قمت بتكوينهم. تُسلَّم الصور المُنشأة تلقائيًا كمرفقات وسائط في رد الوكيل.
لا تظهر الأداة إلا عند توفر موفر واحد على الأقل لتوليد الصور. إذا لم ترَ image_generate ضمن أدوات وكيلك، فقم بتكوين agents.defaults.imageGenerationModel، أو إعداد مفتاح API لأحد الموفرين، أو تسجيل الدخول باستخدام OpenAI Codex OAuth.

البدء السريع

1

تكوين المصادقة

عيّن مفتاح API لموفر واحد على الأقل (على سبيل المثال OPENAI_API_KEY، GEMINI_API_KEY، OPENROUTER_API_KEY) أو سجّل الدخول باستخدام OpenAI Codex OAuth.
2

اختيار نموذج افتراضي (اختياري)

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
      },
    },
  },
}
يستخدم Codex OAuth مرجع النموذج نفسه openai/gpt-image-2. عند تكوين ملف تعريف OAuth باسم openai-codex، يوجّه OpenClaw طلبات الصور عبر ملف تعريف OAuth هذا بدلًا من تجربة OPENAI_API_KEY أولًا. يؤدي تكوين models.providers.openai الصريح (مفتاح API، أو عنوان URL أساسي مخصص/Azure) إلى الرجوع إلى مسار OpenAI Images API المباشر.
3

اسأل الوكيل

“أنشئ صورة لتميمة روبوت ودودة.”يستدعي الوكيل image_generate تلقائيًا. لا حاجة إلى قائمة سماح للأدوات - فهي مفعّلة افتراضيًا عند توفر موفر.
بالنسبة إلى نقاط نهاية LAN المتوافقة مع OpenAI مثل LocalAI، احتفظ بقيمة models.providers.openai.baseUrl المخصصة وفعّلها صراحة باستخدام browser.ssrfPolicy.dangerouslyAllowPrivateNetwork: true. تظل نقاط نهاية الصور الخاصة والداخلية محظورة افتراضيًا.

المسارات الشائعة

الهدفمرجع النموذجالمصادقة
توليد صور OpenAI مع فوترة APIopenai/gpt-image-2OPENAI_API_KEY
توليد صور OpenAI باستخدام مصادقة اشتراك Codexopenai/gpt-image-2OpenAI Codex OAuth
OpenAI لخلفيات شفافة PNG/WebPopenai/gpt-image-1.5OPENAI_API_KEY أو OpenAI Codex OAuth
توليد صور DeepInfradeepinfra/black-forest-labs/FLUX-1-schnellDEEPINFRA_API_KEY
توليد صور OpenRouteropenrouter/google/gemini-3.1-flash-image-previewOPENROUTER_API_KEY
توليد صور LiteLLMlitellm/gpt-image-2LITELLM_API_KEY
توليد صور Google Geminigoogle/gemini-3.1-flash-image-previewGEMINI_API_KEY أو GOOGLE_API_KEY
تتعامل أداة image_generate نفسها مع التحويل من نص إلى صورة وتحرير الصور المرجعية. استخدم image لمرجع واحد أو images لعدة مراجع. تُمرَّر تلميحات الإخراج التي يدعمها الموفر مثل quality وoutputFormat و background عند توفرها، ويُبلَّغ عنها على أنها مُتجاهلة عندما لا يدعمها الموفر. دعم الخلفية الشفافة المضمّن خاص بـ OpenAI؛ وقد يظل موفرون آخرون يحافظون على قناة ألفا في PNG إذا كان نظامهم الخلفي يُصدرها.

الموفرون المدعومون

الموفرالنموذج الافتراضيدعم التحريرالمصادقة
ComfyUIworkflowنعم (صورة واحدة، مكوّنة عبر سير العمل)COMFY_API_KEY أو COMFY_CLOUD_API_KEY للسحابة
DeepInfrablack-forest-labs/FLUX-1-schnellنعم (صورة واحدة)DEEPINFRA_API_KEY
falfal-ai/flux/devنعم (حدود خاصة بالنموذج)FAL_KEY
Googlegemini-3.1-flash-image-previewنعمGEMINI_API_KEY أو GOOGLE_API_KEY
LiteLLMgpt-image-2نعم (حتى 5 صور إدخال)LITELLM_API_KEY
MiniMaximage-01نعم (مرجع للموضوع)MINIMAX_API_KEY أو MiniMax OAuth (minimax-portal)
OpenAIgpt-image-2نعم (حتى 4 صور)OPENAI_API_KEY أو OpenAI Codex OAuth
OpenRoutergoogle/gemini-3.1-flash-image-previewنعم (حتى 5 صور إدخال)OPENROUTER_API_KEY
Vydragrok-imagineلاVYDRA_API_KEY
xAIgrok-imagine-imageنعم (حتى 5 صور)XAI_API_KEY
استخدم action: "list" لفحص الموفرين والنماذج المتاحة في وقت التشغيل:
/tool image_generate action=list

قدرات الموفرين

القدرةComfyUIDeepInfrafalGoogleMiniMaxOpenAIVydraxAI
التوليد (العدد الأقصى)محدد بسير العمل4449414
التحرير / المرجعصورة واحدة (سير العمل)صورة واحدةFlux: 1؛ GPT: 10؛ NB2: 14حتى 5 صورصورة واحدة (مرجع الموضوع)حتى 5 صور-حتى 5 صور
التحكم في الحجم--حتى 4K--
نسبة الأبعاد----
الدقة (1K/2K/4K)-----1K, 2K

معاملات الأداة

prompt
string
مطلوب
مطالبة توليد الصورة. مطلوبة لـ action: "generate".
action
"generate" | "list"
افتراضي:"generate"
استخدم "list" لفحص الموفرين والنماذج المتاحة في وقت التشغيل.
model
string
تجاوز الموفر/النموذج (مثل openai/gpt-image-2). استخدم openai/gpt-image-1.5 لخلفيات OpenAI الشفافة.
image
string
مسار صورة مرجعية واحدة أو عنوان URL لوضع التحرير.
images
string[]
عدة صور مرجعية لوضع التحرير (حتى 5 لدى الموفرين الداعمين).
size
string
تلميح الحجم: 1024x1024، 1536x1024، 1024x1536، 2048x2048، 3840x2160.
aspectRatio
string
نسبة الأبعاد: 1:1، 2:3، 3:2، 3:4، 4:3، 4:5، 5:4، 9:16، 16:9، 21:9.
resolution
"1K" | "2K" | "4K"
تلميح الدقة.
quality
"low" | "medium" | "high" | "auto"
تلميح الجودة عندما يدعمه الموفر.
outputFormat
"png" | "jpeg" | "webp"
تلميح تنسيق الإخراج عندما يدعمه الموفر.
background
"transparent" | "opaque" | "auto"
تلميح الخلفية عندما يدعمه الموفر. استخدم transparent مع outputFormat: "png" أو "webp" للموفرين القادرين على الشفافية.
count
number
عدد الصور المراد توليدها (1-4).
timeoutMs
number
مهلة اختيارية لطلب الموفر بالمللي ثانية. عندما يستدعي Codex image_generate عبر الأدوات الديناميكية، تظل هذه القيمة لكل استدعاء تتجاوز القيمة الافتراضية المكوّنة وتُحدَّد بسقف 600000 ms.
filename
string
تلميح اسم ملف الإخراج.
openai
object
تلميحات خاصة بـ OpenAI فقط: background وmoderation وoutputCompression وuser.
لا يدعم كل الموفرين جميع المعاملات. عندما يدعم موفر احتياطي خيار هندسة قريبًا بدلًا من الخيار المطلوب بالضبط، يعيد OpenClaw التخطيط إلى أقرب حجم أو نسبة أبعاد أو دقة مدعومة قبل الإرسال. تُسقط تلميحات الإخراج غير المدعومة لدى الموفرين الذين لا يعلنون دعمها ويُبلَّغ عنها في نتيجة الأداة. تعرض نتائج الأداة الإعدادات المطبقة؛ ويلتقط details.normalization أي ترجمة من المطلوب إلى المطبق.

التكوين

اختيار النموذج

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
        fallbacks: [
          "openrouter/google/gemini-3.1-flash-image-preview",
          "google/gemini-3.1-flash-image-preview",
          "fal/fal-ai/flux/dev",
        ],
      },
    },
  },
}

ترتيب اختيار الموفر

يحاول OpenClaw استخدام الموفرين بهذا الترتيب:
  1. معامل model من استدعاء الأداة (إذا حدده الوكيل).
  2. imageGenerationModel.primary من التكوين.
  3. imageGenerationModel.fallbacks بالترتيب.
  4. الاكتشاف التلقائي - افتراضيات الموفرين المدعومة بالمصادقة فقط:
    • الموفر الافتراضي الحالي أولًا؛
    • بقية موفري توليد الصور المسجلين بترتيب معرف الموفر.
إذا فشل أحد الموفرين (خطأ مصادقة، حد معدل، إلخ)، تُجرَّب المرشحات المكوّنة التالية تلقائيًا. إذا فشلت جميعها، يتضمن الخطأ تفاصيل من كل محاولة.
يحاول تجاوز model لكل استدعاء ذلك الموفر/النموذج فقط ولا يواصل إلى الموفرين الأساسي/الاحتياطي المكوّنين أو الموفرين المكتشفين تلقائيًا.
لا يدخل افتراضي الموفر إلى قائمة المرشحين إلا عندما يستطيع OpenClaw مصادقة ذلك الموفر فعليًا. عيّن agents.defaults.mediaGenerationAutoProviderFallback: false لاستخدام إدخالات model وprimary وfallbacks الصريحة فقط.
عيّن agents.defaults.imageGenerationModel.timeoutMs لأنظمة الصور الخلفية البطيئة. يتجاوز معامل الأداة timeoutMs لكل استدعاء القيمة الافتراضية المكوّنة. تحترم استدعاءات الأدوات الديناميكية في Codex ميزانية المهلة نفسها، ضمن حد جسر الأدوات الديناميكية الأقصى في OpenClaw وهو 600000 ms.
استخدم action: "list" لفحص الموفرين المسجلين حاليًا، ونماذجهم الافتراضية، وتلميحات متغيرات بيئة المصادقة.

تحرير الصور

يدعم OpenAI وOpenRouter وGoogle وDeepInfra وfal وMiniMax وComfyUI وxAI تحرير الصور المرجعية. مرّر مسار صورة مرجعية أو عنوان URL:
"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
OpenAI وOpenRouter وGoogle وxAI تدعم ما يصل إلى 5 صور مرجعية عبر معامل images. يدعم fal صورة مرجعية واحدة لـ Flux image-to-image، وما يصل إلى 10 لتعديلات GPT Image 2، وما يصل إلى 14 لتعديلات Nano Banana 2. يدعم MiniMax وComfyUI صورة واحدة.

تعمّقات في المزوّدين

يستخدم توليد الصور في OpenAI افتراضيًا openai/gpt-image-2. إذا كان ملف تعريف OAuth لـ openai-codex مهيأ، يعيد OpenClaw استخدام ملف تعريف OAuth نفسه المستخدم بواسطة نماذج دردشة اشتراك Codex ويرسل طلب الصورة عبر واجهة Codex Responses الخلفية. تُحوّل عناوين URL الأساسية القديمة لـ Codex مثل https://chatgpt.com/backend-api إلى الصيغة القياسية https://chatgpt.com/backend-api/codex لطلبات الصور. لا يعود OpenClaw بصمت إلى OPENAI_API_KEY لذلك الطلب - لفرض التوجيه المباشر عبر OpenAI Images API، هيّئ models.providers.openai صراحةً باستخدام مفتاح API أو عنوان URL أساسي مخصص أو نقطة نهاية Azure.لا يزال بالإمكان تحديد نماذج openai/gpt-image-1.5 وopenai/gpt-image-1 وopenai/gpt-image-1-mini صراحةً. استخدم gpt-image-1.5 لمخرجات PNG/WebP ذات الخلفية الشفافة؛ ترفض واجهة API الحالية لـ gpt-image-2 background: "transparent".يدعم gpt-image-2 توليد الصور من النص وتحرير الصور المرجعية عبر أداة image_generate نفسها. يمرّر OpenClaw prompt وcount وsize وquality وoutputFormat والصور المرجعية إلى OpenAI. لا تتلقى OpenAI aspectRatio أو resolution مباشرةً؛ عندما يكون ذلك ممكنًا، يحوّل OpenClaw تلك القيم إلى size مدعوم، وإلا فتبلغ الأداة عنها كتجاوزات متجاهَلة.توجد الخيارات الخاصة بـ OpenAI ضمن كائن openai:
{
  "quality": "low",
  "outputFormat": "jpeg",
  "openai": {
    "background": "opaque",
    "moderation": "low",
    "outputCompression": 60,
    "user": "end-user-42"
  }
}
يقبل openai.background القيم transparent أو opaque أو auto؛ تتطلب المخرجات الشفافة outputFormat بقيمة png أو webp ونموذج صور OpenAI قادرًا على الشفافية. يوجّه OpenClaw طلبات الخلفية الشفافة الافتراضية لـ gpt-image-2 إلى gpt-image-1.5. ينطبق openai.outputCompression على مخرجات JPEG/WebP.تلميح background في المستوى الأعلى محايد بين المزوّدين، ويُربط حاليًا بحقل طلب background نفسه في OpenAI عند تحديد مزوّد OpenAI. المزوّدون الذين لا يصرّحون بدعم الخلفية يعيدونه في ignoredOverrides بدلًا من تلقي المعامل غير المدعوم.لتوجيه توليد الصور في OpenAI عبر نشر Azure OpenAI بدلًا من api.openai.com، راجع نقاط نهاية Azure OpenAI.
يستخدم توليد الصور في OpenRouter مفتاح OPENROUTER_API_KEY نفسه ويُوجَّه عبر واجهة API لصور إكمالات الدردشة في OpenRouter. حدّد نماذج صور OpenRouter باستخدام البادئة openrouter/:
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openrouter/google/gemini-3.1-flash-image-preview",
      },
    },
  },
}
يمرّر OpenClaw prompt وcount والصور المرجعية وتلميحات aspectRatio / resolution المتوافقة مع Gemini إلى OpenRouter. تشمل اختصارات نماذج صور OpenRouter المدمجة الحالية google/gemini-3.1-flash-image-preview و google/gemini-3-pro-image-preview وopenai/gpt-5.4-image-2. استخدم action: "list" لمعرفة ما يعرّضه Plugin المهيأ لديك.
يتوفر توليد الصور في MiniMax عبر مساري مصادقة MiniMax المدمجين:
  • minimax/image-01 لإعدادات مفتاح API
  • minimax-portal/image-01 لإعدادات OAuth
يستخدم مزوّد xAI المدمج /v1/images/generations للطلبات القائمة على الموجه فقط، و/v1/images/edits عند وجود image أو images.
  • النماذج: xai/grok-imagine-image، xai/grok-imagine-image-pro
  • العدد: ما يصل إلى 4
  • المراجع: image واحدة أو ما يصل إلى خمس images
  • نسب الأبعاد: 1:1، 16:9، 9:16، 4:3، 3:4، 2:3، 3:2
  • الدقات: 1K، 2K
  • المخرجات: تُعاد كمرفقات صور يديرها OpenClaw
يتعمد OpenClaw عدم تعريض quality أو mask أو user الأصلية في xAI أو نسب الأبعاد الإضافية الأصلية فقط إلى أن توجد هذه عناصر التحكم في عقد image_generate المشترك بين المزوّدين.

أمثلة

/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1
تتوفر رايتا --output-format و--background نفسهما في openclaw infer image edit؛ تظل --openai-background اسمًا بديلًا خاصًا بـ OpenAI. لا يصرّح المزوّدون المدمجون غير OpenAI حاليًا بتحكم صريح في الخلفية، لذلك يُبلغ عن background: "transparent" كتجاوز متجاهَل لهم.

ذو صلة

  • نظرة عامة على الأدوات - جميع أدوات الوكيل المتاحة
  • ComfyUI - إعداد سير عمل ComfyUI المحلي وComfy Cloud
  • fal - إعداد مزوّد الصور والفيديو fal
  • Google (Gemini) - إعداد مزوّد صور Gemini
  • MiniMax - إعداد مزوّد صور MiniMax
  • OpenAI - إعداد مزوّد OpenAI Images
  • Vydra - إعداد الصور والفيديو والكلام في Vydra
  • xAI - إعداد صور وفيديو وبحث وتنفيذ كود وTTS في Grok
  • مرجع التكوين - تكوين imageGenerationModel
  • النماذج - تكوين النماذج والتجاوز عند الفشل