الانتقال إلى المحتوى الرئيسي

Google (Gemini)

يوفر Plugin Google إمكانية الوصول إلى نماذج Gemini عبر Google AI Studio، بالإضافة إلى إنشاء الصور، وفهم الوسائط (الصور/الصوت/الفيديو)، وتحويل النص إلى كلام، والبحث على الويب عبر Gemini Grounding.
  • المزوّد: google
  • المصادقة: GEMINI_API_KEY أو GOOGLE_API_KEY
  • API: Google Gemini API
  • مزوّد بديل: google-gemini-cli (OAuth)

البدء

اختر طريقة المصادقة المفضلة لديك واتبع خطوات الإعداد.
الأفضل لـ: الوصول القياسي إلى Gemini API عبر Google AI Studio.
1

تشغيل الإعداد الأولي

openclaw onboard --auth-choice gemini-api-key
أو مرّر المفتاح مباشرة:
openclaw onboard --non-interactive \
  --mode local \
  --auth-choice gemini-api-key \
  --gemini-api-key "$GEMINI_API_KEY"
2

تعيين نموذج افتراضي

{
  agents: {
    defaults: {
      model: { primary: "google/gemini-3.1-pro-preview" },
    },
  },
}
3

التحقق من أن النموذج متاح

openclaw models list --provider google
يُقبل متغيرا البيئة GEMINI_API_KEY وGOOGLE_API_KEY كلاهما. استخدم أيًّا منهما لديك مُعدًّا بالفعل.

الإمكانات

الإمكانيةمدعومة
إكمالات الدردشةنعم
إنشاء الصورنعم
إنشاء الموسيقىنعم
تحويل النص إلى كلامنعم
فهم الصورنعم
نسخ الصوت إلى نصنعم
فهم الفيديونعم
البحث على الويب (Grounding)نعم
التفكير/الاستدلالنعم (Gemini 3.1+)
نماذج Gemma 4نعم
تدعم نماذج Gemma 4 (مثل gemma-4-26b-a4b-it) وضع التفكير. يعيد OpenClaw كتابة thinkingBudget إلى قيمة Google thinkingLevel مدعومة لـ Gemma 4. ويؤدي ضبط التفكير على off إلى إبقاء التفكير معطّلًا بدلًا من تعيينه إلى MINIMAL.

إنشاء الصور

يستخدم مزوّد إنشاء الصور المضمّن google افتراضيًا google/gemini-3.1-flash-image-preview.
  • يدعم أيضًا google/gemini-3-pro-image-preview
  • الإنشاء: حتى 4 صور لكل طلب
  • وضع التحرير: مفعّل، مع ما يصل إلى 5 صور إدخال
  • عناصر التحكّم في الأبعاد: size وaspectRatio وresolution
لاستخدام Google كمزوّد الصور الافتراضي:
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "google/gemini-3.1-flash-image-preview",
      },
    },
  },
}
راجع إنشاء الصور للاطلاع على معاملات الأداة المشتركة، واختيار المزوّد، وسلوك تجاوز الفشل.

إنشاء الفيديو

يسجّل Plugin ‏google المضمّن أيضًا إنشاء الفيديو عبر الأداة المشتركة video_generate.
  • نموذج الفيديو الافتراضي: google/veo-3.1-fast-generate-preview
  • الأوضاع: نص إلى فيديو، وصورة إلى فيديو، وتدفقات مرجعية لفيديو واحد
  • يدعم aspectRatio وresolution وaudio
  • الحد الحالي للمدة: من 4 إلى 8 ثوانٍ
لاستخدام Google كمزوّد الفيديو الافتراضي:
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "google/veo-3.1-fast-generate-preview",
      },
    },
  },
}
راجع إنشاء الفيديو للاطلاع على معاملات الأداة المشتركة، واختيار المزوّد، وسلوك تجاوز الفشل.

إنشاء الموسيقى

يسجّل Plugin ‏google المضمّن أيضًا إنشاء الموسيقى عبر الأداة المشتركة music_generate.
  • نموذج الموسيقى الافتراضي: google/lyria-3-clip-preview
  • يدعم أيضًا google/lyria-3-pro-preview
  • عناصر التحكّم في الطلب: lyrics وinstrumental
  • تنسيق الإخراج: mp3 افتراضيًا، بالإضافة إلى wav على google/lyria-3-pro-preview
  • مدخلات مرجعية: حتى 10 صور
  • يتم فصل التشغيلات المعتمدة على الجلسات عبر تدفق المهمة/الحالة المشترك، بما في ذلك action: "status"
لاستخدام Google كمزوّد الموسيقى الافتراضي:
{
  agents: {
    defaults: {
      musicGenerationModel: {
        primary: "google/lyria-3-clip-preview",
      },
    },
  },
}
راجع إنشاء الموسيقى للاطلاع على معاملات الأداة المشتركة، واختيار المزوّد، وسلوك تجاوز الفشل.

تحويل النص إلى كلام

يستخدم مزوّد الكلام المضمّن google مسار Gemini API لتحويل النص إلى كلام مع gemini-3.1-flash-tts-preview.
  • الصوت الافتراضي: Kore
  • المصادقة: messages.tts.providers.google.apiKey أو models.providers.google.apiKey أو GEMINI_API_KEY أو GOOGLE_API_KEY
  • الإخراج: WAV لمرفقات TTS العادية، وPCM لـ Talk/الهاتف
  • إخراج الملاحظات الصوتية الأصلي: غير مدعوم على مسار Gemini API هذا لأن API يعيد PCM بدلًا من Opus
لاستخدام Google كمزوّد TTS الافتراضي:
{
  messages: {
    tts: {
      auto: "always",
      provider: "google",
      providers: {
        google: {
          model: "gemini-3.1-flash-tts-preview",
          voiceName: "Kore",
        },
      },
    },
  },
}
يقبل Gemini API TTS وسومًا صوتية تعبيرية بين أقواس مربعة في النص، مثل [whispers] أو [laughs]. ولإبقاء الوسوم خارج رد الدردشة المرئي مع إرسالها إلى TTS، ضعها داخل كتلة [[tts:text]]...[[/tts:text]]:
إليك نص الرد النظيف.

[[tts:text]][whispers] إليك النسخة المنطوقة.[[/tts:text]]
يُعد مفتاح API من Google Cloud Console والمقيّد بـ Gemini API صالحًا لهذا المزوّد. هذا ليس مسار Cloud Text-to-Speech API المنفصل.

الإعدادات المتقدمة

بالنسبة لتشغيلات Gemini API المباشرة (api: "google-generative-ai")، يقوم OpenClaw بتمرير معرّف cachedContent مضبوط إلى طلبات Gemini.
  • اضبط معاملات لكل نموذج أو معاملات عامة باستخدام cachedContent أو الصيغة القديمة cached_content
  • إذا وُجد الاثنان، فستكون الأولوية لـ cachedContent
  • مثال على القيمة: cachedContents/prebuilt-context
  • يتم توحيد استخدام إصابة الذاكرة المؤقتة في Gemini إلى cacheRead في OpenClaw من قيمة cachedContentTokenCount القادمة من المصدر
{
  agents: {
    defaults: {
      models: {
        "google/gemini-2.5-pro": {
          params: {
            cachedContent: "cachedContents/prebuilt-context",
          },
        },
      },
    },
  },
}
عند استخدام مزوّد OAuth ‏google-gemini-cli، يقوم OpenClaw بتوحيد مخرجات JSON من CLI كما يلي:
  • يأتي نص الرد من الحقل response في JSON الخاص بـ CLI.
  • يعود الاستخدام إلى stats عندما يترك CLI الحقل usage فارغًا.
  • يتم توحيد stats.cached إلى cacheRead في OpenClaw.
  • إذا كان stats.input مفقودًا، يستنتج OpenClaw رموز الإدخال من stats.input_tokens - stats.cached.
إذا كان Gateway يعمل كخدمة daemon ‏(launchd/systemd)، فتأكد من أن GEMINI_API_KEY متاح لتلك العملية (على سبيل المثال في ~/.openclaw/.env أو عبر env.shellEnv).

ذو صلة

اختيار النموذج

اختيار المزوّدين، ومراجع النماذج، وسلوك تجاوز الفشل.

إنشاء الصور

معاملات أداة الصور المشتركة واختيار المزوّد.

إنشاء الفيديو

معاملات أداة الفيديو المشتركة واختيار المزوّد.

إنشاء الموسيقى

معاملات أداة الموسيقى المشتركة واختيار المزوّد.