يوفّر Google Plugin إمكانية الوصول إلى نماذج Gemini عبر Google AI Studio، إضافةً إلى توليد الصور، وفهم الوسائط (الصور/الصوت/الفيديو)، وتحويل النص إلى كلام، والبحث على الويب عبر Gemini Grounding.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- المزوّد:
google - المصادقة:
GEMINI_API_KEYأوGOOGLE_API_KEY - API: Google Gemini API
- خيار وقت التشغيل: المزوّد/النموذج
agentRuntime.id: "google-gemini-cli"يعيد استخدام Gemini CLI OAuth مع إبقاء مراجع النماذج معيارية بصيغةgoogle/*.
البدء
اختر طريقة المصادقة المفضلة لديك واتبع خطوات الإعداد.- مفتاح API
- Gemini CLI (OAuth)
القدرات
| القدرة | مدعومة |
|---|---|
| إكمالات المحادثة | نعم |
| توليد الصور | نعم |
| توليد الموسيقى | نعم |
| تحويل النص إلى كلام | نعم |
| الصوت الفوري | نعم (Google Live API) |
| فهم الصور | نعم |
| تفريغ الصوت | نعم |
| فهم الفيديو | نعم |
| البحث على الويب (Grounding) | نعم |
| التفكير/الاستدلال | نعم (Gemini 2.5+ / Gemini 3+) |
| نماذج Gemma 4 | نعم |
البحث على الويب
يستخدم مزوّد البحث على الويبgemini المضمّن تأريض Gemini Google Search.
اضبط مفتاح بحث مخصصًا ضمن plugins.entries.google.config.webSearch،
أو دعه يعيد استخدام models.providers.google.apiKey بعد GEMINI_API_KEY:
webSearch.apiKey المخصص، ثم GEMINI_API_KEY،
ثم models.providers.google.apiKey. يُعد webSearch.baseUrl اختياريًا
وموجودًا لوكلاء المشغلين أو نقاط نهاية Gemini API المتوافقة؛ وعند حذفه،
يعيد بحث الويب في Gemini استخدام models.providers.google.baseUrl. راجع
بحث Gemini لمعرفة سلوك الأداة الخاص بالمزوّد.
توليد الصور
يعتمد مزوّد توليد الصورgoogle المضمّن افتراضيًا على
google/gemini-3.1-flash-image-preview.
- يدعم أيضًا
google/gemini-3-pro-image-preview - التوليد: حتى 4 صور لكل طلب
- وضع التحرير: مفعّل، حتى 5 صور إدخال
- عناصر التحكم الهندسية:
sizeوaspectRatioوresolution
راجع توليد الصور لمعرفة معلمات الأداة المشتركة، واختيار المزوّد، وسلوك تجاوز الفشل.
توليد الفيديو
يسجّل Google Plugin المضمّن أيضًا توليد الفيديو عبر أداةvideo_generate المشتركة.
- نموذج الفيديو الافتراضي:
google/veo-3.1-fast-generate-preview - الأوضاع: تحويل النص إلى فيديو، وتحويل الصورة إلى فيديو، وتدفقات مرجع فيديو واحد
- يدعم
aspectRatio(16:9و9:16) وresolution(720Pو1080P)؛ لا يدعم Veo إخراج الصوت حاليًا - المدد المدعومة: 4 أو 6 أو 8 ثوانٍ (تُقرّب القيم الأخرى إلى أقرب قيمة مسموح بها)
راجع توليد الفيديو لمعرفة معلمات الأداة المشتركة، واختيار المزوّد، وسلوك تجاوز الفشل.
توليد الموسيقى
يسجّل Google Plugin المضمّن أيضًا توليد الموسيقى عبر أداةmusic_generate المشتركة.
- نموذج الموسيقى الافتراضي:
google/lyria-3-clip-preview - يدعم أيضًا
google/lyria-3-pro-preview - عناصر التحكم في الموجه:
lyricsوinstrumental - تنسيق الإخراج:
mp3افتراضيًا، بالإضافة إلىwavعلىgoogle/lyria-3-pro-preview - مدخلات مرجعية: حتى 10 صور
- تنفصل عمليات التشغيل المدعومة بالجلسات عبر تدفق المهمة/الحالة المشترك، بما في ذلك
action: "status"
راجع توليد الموسيقى لمعرفة معلمات الأداة المشتركة، واختيار المزوّد، وسلوك تجاوز الفشل.
تحويل النص إلى كلام
يستخدم مزوّد الكلامgoogle المضمّن مسار TTS في Gemini API مع
gemini-3.1-flash-tts-preview.
- الصوت الافتراضي:
Kore - المصادقة:
messages.tts.providers.google.apiKeyأوmodels.providers.google.apiKeyأوGEMINI_API_KEYأوGOOGLE_API_KEY - الإخراج: WAV لمرفقات TTS العادية، وOpus لأهداف الملاحظات الصوتية، وPCM لـ Talk/الهاتف
- إخراج الملاحظات الصوتية: يُغلّف Google PCM كـ WAV ويُحوّل إلى Opus بتردد 48 كيلوهرتز باستخدام
ffmpeg
generateContent المكتملة. للحصول على محادثات منطوقة بأدنى زمن استجابة، استخدم
مزوّد الصوت الفوري من Google المدعوم بـ Gemini Live API بدلًا من TTS الدفعي.
لاستخدام Google كمزوّد TTS الافتراضي:
audioProfile لإضافة موجه أسلوب قابل لإعادة الاستخدام قبل النص المنطوق. اضبط
speakerName عندما يشير نص الموجه إلى متحدث مسمّى.
يقبل Gemini API TTS أيضًا وسومًا صوتية تعبيرية بين أقواس مربعة في النص،
مثل [whispers] أو [laughs]. لإبقاء الوسوم خارج رد المحادثة المرئي
مع إرسالها إلى TTS، ضعها داخل كتلة [[tts:text]]...[[/tts:text]]:
يصلح مفتاح Google Cloud Console API المقيد بـ Gemini API لهذا
المزوّد. هذا ليس مسار Cloud Text-to-Speech API المنفصل.
الصوت الفوري
يسجّل Google Plugin المضمّن مزوّد صوت فوري مدعومًا بـ Gemini Live API لجسور الصوت الخلفية مثل Voice Call وGoogle Meet.| الإعداد | مسار الإعدادات | الافتراضي |
|---|---|---|
| النموذج | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| الصوت | ...google.voice | Kore |
| درجة الحرارة | ...google.temperature | (غير معيّن) |
| حساسية بدء VAD | ...google.startSensitivity | (غير معيّن) |
| حساسية انتهاء VAD | ...google.endSensitivity | (غير معيّن) |
| مدة الصمت | ...google.silenceDurationMs | (غير معيّن) |
| معالجة النشاط | ...google.activityHandling | افتراضي Google، start-of-activity-interrupts |
| تغطية الدور | ...google.turnCoverage | افتراضي Google، only-activity |
| تعطيل VAD التلقائي | ...google.automaticActivityDetectionDisabled | false |
| استئناف الجلسة | ...google.sessionResumption | true |
| ضغط السياق | ...google.contextWindowCompression | true |
| مفتاح API | ...google.apiKey | يعود احتياطيًا إلى models.providers.google.apiKey أو GEMINI_API_KEY أو GOOGLE_API_KEY |
تستخدم Google Live API صوتًا ثنائي الاتجاه واستدعاء الدوال عبر WebSocket.
يوائم OpenClaw صوت جسر الهاتف/Meet مع تدفق Gemini Live API بتنسيق PCM
ويبقي استدعاءات الأدوات على عقد الصوت المشترك في الوقت الفعلي. اترك
temperature
غير معيّن ما لم تكن تحتاج إلى تغييرات في أخذ العينات؛ إذ يحذف OpenClaw القيم غير الموجبة
لأن Google Live يمكن أن يعيد نصوصًا منسوخة بلا صوت عند temperature: 0.
يتم تفعيل النسخ الصوتي في Gemini API بدون languageCodes؛ إذ ترفض حزمة SDK الحالية من Google
تلميحات رموز اللغة في مسار API هذا.تدعم واجهة Control UI Talk جلسات Google Live في المتصفح باستخدام رموز مقيدة صالحة لاستخدام واحد.
يمكن لموفري الصوت في الوقت الفعلي الخاصين بالخلفية فقط العمل أيضًا عبر نقل الترحيل العام في
Gateway، مما يبقي بيانات اعتماد المزوّد على Gateway.
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts.
يغطي اختبار الدخان أيضًا مسارات خلفية OpenAI وWebRTC؛ إذ ينشئ جزء Google شكل رمز Live API
المقيد نفسه الذي تستخدمه Control UI Talk، ويفتح نقطة نهاية WebSocket في المتصفح،
ويرسل حمولة الإعداد الأولية، وينتظر
setupComplete.
الإعدادات المتقدمة
Direct Gemini cache reuse
Direct Gemini cache reuse
في عمليات تشغيل Gemini API المباشرة (
api: "google-generative-ai")، يمرر OpenClaw
مقبض cachedContent المهيّأ إلى طلبات Gemini.- هيّئ معاملات على مستوى النموذج أو عالميًا باستخدام
cachedContentأوcached_contentالقديم - إذا وُجدا معًا، تكون الأولوية لـ
cachedContent - قيمة مثال:
cachedContents/prebuilt-context - يتم توحيد استخدام إصابة ذاكرة التخزين المؤقت في Gemini إلى
cacheReadفي OpenClaw منcachedContentTokenCountفي المصدر الأعلى
Gemini CLI JSON usage notes
Gemini CLI JSON usage notes
عند استخدام موفّر OAuth
google-gemini-cli، يوحّد OpenClaw
مخرجات CLI بصيغة JSON كما يلي:- يأتي نص الرد من حقل
responseفي JSON الخاص بـ CLI. - يعود الاستخدام احتياطيًا إلى
statsعندما يترك CLI قيمةusageفارغة. - يتم توحيد
stats.cachedإلىcacheReadفي OpenClaw. - إذا كان
stats.inputمفقودًا، يستنتج OpenClaw رموز الإدخال منstats.input_tokens - stats.cached.
Environment and daemon setup
Environment and daemon setup
إذا كان Gateway يعمل كخدمة daemon (launchd/systemd)، فتأكد من أن
GEMINI_API_KEY
متاح لتلك العملية (على سبيل المثال، في ~/.openclaw/.env أو عبر
env.shellEnv).ذات صلة
Model selection
اختيار المزوّدين ومراجع النماذج وسلوك تجاوز الفشل.
Image generation
معاملات أداة الصور المشتركة واختيار المزوّد.
Video generation
معاملات أداة الفيديو المشتركة واختيار المزوّد.
Music generation
معاملات أداة الموسيقى المشتركة واختيار المزوّد.