El plugin de Google proporciona acceso a los modelos Gemini a través de Google AI Studio, además de generación de imágenes, comprensión de medios (imagen/audio/video), texto a voz y búsqueda web mediante Gemini Grounding.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Proveedor:
google - Autenticación:
GEMINI_API_KEYoGOOGLE_API_KEY - API: Google Gemini API
- Opción de Runtime: proveedor/modelo
agentRuntime.id: "google-gemini-cli"reutiliza OAuth de Gemini CLI mientras conserva las referencias de modelo canónicas comogoogle/*.
Primeros pasos
Elige tu método de autenticación preferido y sigue los pasos de configuración.- Clave de API
- Gemini CLI (OAuth)
Capacidades
| Capacidad | Compatible |
|---|---|
| Completados de chat | Sí |
| Generación de imágenes | Sí |
| Generación de música | Sí |
| Texto a voz | Sí |
| Voz en tiempo real | Sí (Google Live API) |
| Comprensión de imágenes | Sí |
| Transcripción de audio | Sí |
| Comprensión de video | Sí |
| Búsqueda web (Grounding) | Sí |
| Pensamiento/razonamiento | Sí (Gemini 2.5+ / Gemini 3+) |
| Modelos Gemma 4 | Sí |
Búsqueda web
El proveedor de búsqueda webgemini incluido usa grounding de Gemini Google Search.
Configura una clave de búsqueda dedicada en plugins.entries.google.config.webSearch,
o deja que reutilice models.providers.google.apiKey después de GEMINI_API_KEY:
webSearch.apiKey dedicado, luego GEMINI_API_KEY,
luego models.providers.google.apiKey. webSearch.baseUrl es opcional y
existe para proxies de operadores o endpoints compatibles de Gemini API; cuando se omite,
la búsqueda web de Gemini reutiliza models.providers.google.baseUrl. Consulta
Búsqueda de Gemini para el comportamiento de la herramienta específico del proveedor.
Generación de imágenes
El proveedor de generación de imágenesgoogle incluido usa de forma predeterminada
google/gemini-3.1-flash-image-preview.
- También admite
google/gemini-3-pro-image-preview - Generación: hasta 4 imágenes por solicitud
- Modo de edición: habilitado, hasta 5 imágenes de entrada
- Controles de geometría:
size,aspectRatioyresolution
Consulta Generación de imágenes para los parámetros compartidos de herramientas, la selección de proveedor y el comportamiento de conmutación por error.
Generación de video
El Plugingoogle incluido también registra la generación de video mediante la herramienta compartida
video_generate.
- Modelo de video predeterminado:
google/veo-3.1-fast-generate-preview - Modos: texto a video, imagen a video y flujos de referencia de un solo video
- Admite
aspectRatio(16:9,9:16) yresolution(720P,1080P); Veo no admite salida de audio actualmente - Duraciones admitidas: 4, 6 u 8 segundos (otros valores se ajustan al valor permitido más cercano)
Consulta Generación de video para los parámetros compartidos de herramientas, la selección de proveedor y el comportamiento de conmutación por error.
Generación de música
El Plugingoogle incluido también registra la generación de música mediante la herramienta compartida
music_generate.
- Modelo de música predeterminado:
google/lyria-3-clip-preview - También admite
google/lyria-3-pro-preview - Controles de prompt:
lyricseinstrumental - Formato de salida:
mp3de forma predeterminada, además dewavengoogle/lyria-3-pro-preview - Entradas de referencia: hasta 10 imágenes
- Las ejecuciones respaldadas por sesión se desacoplan mediante el flujo compartido de tarea/estado, incluido
action: "status"
Consulta Generación de música para los parámetros compartidos de herramientas, la selección de proveedor y el comportamiento de conmutación por error.
Texto a voz
El proveedor de vozgoogle incluido usa la ruta TTS de Gemini API con
gemini-3.1-flash-tts-preview.
- Voz predeterminada:
Kore - Autenticación:
messages.tts.providers.google.apiKey,models.providers.google.apiKey,GEMINI_API_KEYoGOOGLE_API_KEY - Salida: WAV para adjuntos TTS normales, Opus para destinos de notas de voz, PCM para Talk/telefonía
- Salida de nota de voz: el PCM de Google se encapsula como WAV y se transcodifica a Opus de 48 kHz con
ffmpeg
generateContent completada. Para conversaciones habladas con la menor latencia, usa el
proveedor de voz en tiempo real de Google respaldado por Gemini Live API en lugar de TTS
por lotes.
Para usar Google como proveedor TTS predeterminado:
audioProfile para anteponer un prompt de estilo reutilizable antes del texto hablado. Define
speakerName cuando el texto de tu prompt se refiera a un hablante con nombre.
Gemini API TTS también acepta etiquetas de audio expresivas entre corchetes en el texto,
como [whispers] o [laughs]. Para mantener las etiquetas fuera de la respuesta visible del chat
mientras se envían a TTS, colócalas dentro de un bloque [[tts:text]]...[[/tts:text]]:
Una clave de API de Google Cloud Console restringida a Gemini API es válida para este
proveedor. Esta no es la ruta separada de Cloud Text-to-Speech API.
Voz en tiempo real
El Plugingoogle incluido registra un proveedor de voz en tiempo real respaldado por
Gemini Live API para puentes de audio de backend como Voice Call y Google Meet.
| Ajuste | Ruta de configuración | Valor predeterminado |
|---|---|---|
| Modelo | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| Voz | ...google.voice | Kore |
| Temperatura | ...google.temperature | (sin definir) |
| Sensibilidad de inicio de VAD | ...google.startSensitivity | (sin definir) |
| Sensibilidad de fin de VAD | ...google.endSensitivity | (sin definir) |
| Duración del silencio | ...google.silenceDurationMs | (sin definir) |
| Manejo de actividad | ...google.activityHandling | Predeterminado de Google, start-of-activity-interrupts |
| Cobertura de turno | ...google.turnCoverage | Predeterminado de Google, only-activity |
| Desactivar VAD automático | ...google.automaticActivityDetectionDisabled | false |
| Reanudación de sesión | ...google.sessionResumption | true |
| Compresión de contexto | ...google.contextWindowCompression | true |
| Clave de API | ...google.apiKey | Recurre a models.providers.google.apiKey, GEMINI_API_KEY o GOOGLE_API_KEY |
Google Live API usa audio bidireccional y llamadas a funciones a través de un WebSocket.
OpenClaw adapta el audio del puente de telefonía/Meet al flujo PCM Live API de Gemini y
mantiene las llamadas a herramientas en el contrato de voz en tiempo real compartido. Deja
temperature
sin definir salvo que necesites cambios de muestreo; OpenClaw omite los valores no positivos
porque Google Live puede devolver transcripciones sin audio con temperature: 0.
La transcripción de Gemini API se habilita sin languageCodes; el SDK actual de Google
rechaza las sugerencias de código de idioma en esta ruta de API.Control UI Talk admite sesiones de navegador de Google Live con tokens restringidos
de un solo uso. Los proveedores de voz en tiempo real solo de backend también pueden ejecutarse a través del transporte
de retransmisión genérico del Gateway, que mantiene las credenciales del proveedor en el Gateway.
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts.
La prueba smoke también cubre rutas de backend/WebRTC de OpenAI; el tramo de Google emite la misma
forma de token restringido de Live API que usa Control UI Talk, abre el endpoint
WebSocket del navegador, envía la carga inicial de configuración y espera
setupComplete.
Configuración avanzada
Direct Gemini cache reuse
Direct Gemini cache reuse
Para ejecuciones directas de Gemini API (
api: "google-generative-ai"), OpenClaw
pasa un identificador cachedContent configurado a las solicitudes de Gemini.- Configura parámetros por modelo o globales con
cachedContento el heredadocached_content - Si ambos están presentes,
cachedContenttiene prioridad - Valor de ejemplo:
cachedContents/prebuilt-context - El uso de aciertos de caché de Gemini se normaliza en
cacheReadde OpenClaw desde elcachedContentTokenCountascendente
Gemini CLI JSON usage notes
Gemini CLI JSON usage notes
Al usar el proveedor OAuth
google-gemini-cli, OpenClaw normaliza
la salida JSON de la CLI de la siguiente manera:- El texto de respuesta proviene del campo
responsedel JSON de la CLI. - El uso recurre a
statscuando la CLI dejausagevacío. stats.cachedse normaliza encacheReadde OpenClaw.- Si falta
stats.input, OpenClaw deriva los tokens de entrada destats.input_tokens - stats.cached.
Environment and daemon setup
Environment and daemon setup
Si el Gateway se ejecuta como daemon (launchd/systemd), asegúrate de que
GEMINI_API_KEY
esté disponible para ese proceso (por ejemplo, en ~/.openclaw/.env o mediante
env.shellEnv).Relacionado
Model selection
Elegir proveedores, referencias de modelo y comportamiento de conmutación por error.
Image generation
Parámetros compartidos de la herramienta de imagen y selección de proveedor.
Video generation
Parámetros compartidos de la herramienta de video y selección de proveedor.
Music generation
Parámetros compartidos de la herramienta de música y selección de proveedor.