Le Plugin Google donne accès aux modèles Gemini via Google AI Studio, ainsi qu’à la génération d’images, à la compréhension des médias (image/audio/vidéo), à la synthèse vocale et à la recherche web via Gemini Grounding.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Fournisseur :
google - Authentification :
GEMINI_API_KEYouGOOGLE_API_KEY - API : API Google Gemini
- Option d’exécution : provider/model
agentRuntime.id: "google-gemini-cli"réutilise l’OAuth de Gemini CLI tout en conservant les références de modèle canoniques sous la formegoogle/*.
Bien démarrer
Choisissez votre méthode d’authentification préférée et suivez les étapes de configuration.- API key
- Gemini CLI (OAuth)
Capacités
| Capacité | Pris en charge |
|---|---|
| Complétions de chat | Oui |
| Génération d’images | Oui |
| Génération de musique | Oui |
| Synthèse vocale | Oui |
| Voix en temps réel | Oui (Google Live API) |
| Compréhension d’images | Oui |
| Transcription audio | Oui |
| Compréhension vidéo | Oui |
| Recherche web (Grounding) | Oui |
| Réflexion/raisonnement | Oui (Gemini 2.5+ / Gemini 3+) |
| Modèles Gemma 4 | Oui |
Recherche web
Le fournisseur de recherche webgemini intégré utilise l’ancrage Google Search de Gemini.
Configurez une clé de recherche dédiée sous plugins.entries.google.config.webSearch,
ou laissez-le réutiliser models.providers.google.apiKey après GEMINI_API_KEY :
webSearch.apiKey dédié, puis GEMINI_API_KEY,
puis models.providers.google.apiKey. webSearch.baseUrl est facultatif et
existe pour les proxys d’opérateur ou les points de terminaison compatibles avec l’API Gemini ; lorsqu’il est omis,
la recherche web Gemini réutilise models.providers.google.baseUrl. Consultez
Recherche Gemini pour le comportement de l’outil propre au fournisseur.
Génération d’images
Le fournisseur de génération d’imagesgoogle intégré utilise par défaut
google/gemini-3.1-flash-image-preview.
- Prend aussi en charge
google/gemini-3-pro-image-preview - Génération : jusqu’à 4 images par requête
- Mode édition : activé, jusqu’à 5 images d’entrée
- Contrôles de géométrie :
size,aspectRatioetresolution
Consultez Génération d’images pour les paramètres d’outil partagés, la sélection du fournisseur et le comportement de bascule.
Génération vidéo
Le Plugingoogle intégré enregistre également la génération vidéo via l’outil partagé
video_generate.
- Modèle vidéo par défaut :
google/veo-3.1-fast-generate-preview - Modes : texte vers vidéo, image vers vidéo et flux de référence à vidéo unique
- Prend en charge
aspectRatio(16:9,9:16) etresolution(720P,1080P) ; la sortie audio n’est pas prise en charge par Veo aujourd’hui - Durées prises en charge : 4, 6 ou 8 secondes (les autres valeurs sont ramenées à la valeur autorisée la plus proche)
Consultez Génération vidéo pour les paramètres d’outil partagés, la sélection du fournisseur et le comportement de bascule.
Génération de musique
Le Plugingoogle intégré enregistre également la génération de musique via l’outil partagé
music_generate.
- Modèle musical par défaut :
google/lyria-3-clip-preview - Prend aussi en charge
google/lyria-3-pro-preview - Contrôles de prompt :
lyricsetinstrumental - Format de sortie :
mp3par défaut, pluswavsurgoogle/lyria-3-pro-preview - Entrées de référence : jusqu’à 10 images
- Les exécutions adossées à une session se détachent via le flux partagé de tâche/statut, y compris
action: "status"
Consultez Génération de musique pour les paramètres d’outil partagés, la sélection du fournisseur et le comportement de bascule.
Synthèse vocale
Le fournisseur vocalgoogle intégré utilise le chemin TTS de l’API Gemini avec
gemini-3.1-flash-tts-preview.
- Voix par défaut :
Kore - Authentification :
messages.tts.providers.google.apiKey,models.providers.google.apiKey,GEMINI_API_KEYouGOOGLE_API_KEY - Sortie : WAV pour les pièces jointes TTS classiques, Opus pour les cibles de notes vocales, PCM pour Talk/téléphonie
- Sortie de note vocale : le PCM Google est enveloppé en WAV et transcodé en Opus 48 kHz avec
ffmpeg
generateContent terminée. Pour les conversations parlées à latence minimale, utilisez le
fournisseur de voix en temps réel Google adossé à l’API Gemini Live plutôt que la TTS
par lots.
Pour utiliser Google comme fournisseur TTS par défaut :
audioProfile pour préfixer le texte prononcé avec un prompt de style réutilisable. Définissez
speakerName lorsque le texte de votre prompt fait référence à un locuteur nommé.
Gemini API TTS accepte également des balises audio expressives entre crochets dans le texte,
comme [whispers] ou [laughs]. Pour éviter que les balises n’apparaissent dans la réponse de chat visible
tout en les envoyant à TTS, placez-les dans un bloc [[tts:text]]...[[/tts:text]] :
Une clé d’API Google Cloud Console limitée à l’API Gemini est valide pour ce
fournisseur. Il ne s’agit pas du chemin séparé de l’API Cloud Text-to-Speech.
Voix en temps réel
Le Plugingoogle intégré enregistre un fournisseur de voix en temps réel adossé à
l’API Gemini Live pour les ponts audio backend tels que Voice Call et Google Meet.
| Paramètre | Chemin de configuration | Par défaut |
|---|---|---|
| Modèle | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| Voix | ...google.voice | Kore |
| Température | ...google.temperature | (non défini) |
| Sensibilité de début VAD | ...google.startSensitivity | (non défini) |
| Sensibilité de fin VAD | ...google.endSensitivity | (non défini) |
| Durée de silence | ...google.silenceDurationMs | (non défini) |
| Gestion de l’activité | ...google.activityHandling | Valeur par défaut de Google, start-of-activity-interrupts |
| Couverture du tour | ...google.turnCoverage | Valeur par défaut de Google, only-activity |
| Désactiver le VAD automatique | ...google.automaticActivityDetectionDisabled | false |
| Reprise de session | ...google.sessionResumption | true |
| Compression du contexte | ...google.contextWindowCompression | true |
| Clé d’API | ...google.apiKey | Se rabat sur models.providers.google.apiKey, GEMINI_API_KEY ou GOOGLE_API_KEY |
L’API Google Live utilise l’audio bidirectionnel et l’appel de fonctions via un WebSocket.
OpenClaw adapte l’audio du pont téléphonie/Meet au flux PCM Live API de Gemini et
conserve les appels d’outils sur le contrat vocal realtime partagé. Laissez
temperature
non défini, sauf si vous avez besoin de modifier l’échantillonnage ; OpenClaw omet les valeurs non positives
parce que Google Live peut renvoyer des transcriptions sans audio pour temperature: 0.
La transcription Gemini API est activée sans languageCodes ; le SDK Google actuel
rejette les indications de code de langue sur ce chemin d’API.Control UI Talk prend en charge les sessions de navigateur Google Live avec des jetons contraints à usage unique.
Les fournisseurs vocaux realtime backend uniquement peuvent également passer par le transport de relais générique
du Gateway, qui conserve les identifiants du fournisseur sur le Gateway.
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts.
Le smoke couvre également les chemins backend/WebRTC OpenAI ; la partie Google émet la même
forme de jeton Live API contraint que celle utilisée par Control UI Talk, ouvre le point de terminaison
WebSocket du navigateur, envoie la charge utile de configuration initiale et attend
setupComplete.
Configuration avancée
Réutilisation directe du cache Gemini
Réutilisation directe du cache Gemini
Pour les exécutions directes de l’API Gemini (
api: "google-generative-ai"), OpenClaw
transmet un handle cachedContent configuré aux requêtes Gemini.- Configurez les paramètres par modèle ou globaux avec
cachedContentou l’anciencached_content - Si les deux sont présents,
cachedContentl’emporte - Exemple de valeur :
cachedContents/prebuilt-context - L’utilisation des cache hits Gemini est normalisée dans
cacheReadOpenClaw depuiscachedContentTokenCounten amont
Notes d’utilisation JSON de Gemini CLI
Notes d’utilisation JSON de Gemini CLI
Lors de l’utilisation du fournisseur OAuth
google-gemini-cli, OpenClaw normalise
la sortie JSON de la CLI comme suit :- Le texte de réponse provient du champ
responsedu JSON de la CLI. - L’utilisation se rabat sur
statslorsque la CLI laisseusagevide. stats.cachedest normalisé danscacheReadOpenClaw.- Si
stats.inputest absent, OpenClaw déduit les jetons d’entrée depuisstats.input_tokens - stats.cached.
Configuration de l’environnement et du démon
Configuration de l’environnement et du démon
Si le Gateway s’exécute comme un démon (launchd/systemd), assurez-vous que
GEMINI_API_KEY
est disponible pour ce processus (par exemple dans ~/.openclaw/.env ou via
env.shellEnv).Connexe
Sélection de modèle
Choix des fournisseurs, des références de modèle et du comportement de basculement.
Génération d’images
Paramètres d’outil d’image partagés et sélection du fournisseur.
Génération de vidéos
Paramètres d’outil vidéo partagés et sélection du fournisseur.
Génération de musique
Paramètres d’outil de musique partagés et sélection du fournisseur.