O Plugin Google fornece acesso aos modelos Gemini por meio do Google AI Studio, além de geração de imagens, compreensão de mídia (imagem/áudio/vídeo), conversão de texto em fala e pesquisa na web via Gemini Grounding.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Provedor:
google - Autenticação:
GEMINI_API_KEYouGOOGLE_API_KEY - API: Google Gemini API
- Opção de runtime: provedor/modelo
agentRuntime.id: "google-gemini-cli"reutiliza o OAuth do Gemini CLI, mantendo as refs de modelo canônicas comogoogle/*.
Primeiros passos
Escolha seu método de autenticação preferido e siga as etapas de configuração.- API key
- Gemini CLI (OAuth)
Capacidades
| Capacidade | Compatível |
|---|---|
| Conclusões de chat | Sim |
| Geração de imagens | Sim |
| Geração de música | Sim |
| Conversão de texto em fala | Sim |
| Voz em tempo real | Sim (Google Live API) |
| Compreensão de imagens | Sim |
| Transcrição de áudio | Sim |
| Compreensão de vídeo | Sim |
| Pesquisa na web (Grounding) | Sim |
| Pensamento/raciocínio | Sim (Gemini 2.5+ / Gemini 3+) |
| Modelos Gemma 4 | Sim |
Pesquisa na web
O provedor de pesquisa na webgemini incluído usa grounding do Google Search no Gemini.
Configure uma chave de pesquisa dedicada em plugins.entries.google.config.webSearch,
ou permita que ele reutilize models.providers.google.apiKey após GEMINI_API_KEY:
webSearch.apiKey dedicado, depois GEMINI_API_KEY,
depois models.providers.google.apiKey. webSearch.baseUrl é opcional e
existe para proxies de operadores ou endpoints compatíveis da Gemini API; quando omitido,
a pesquisa na web do Gemini reutiliza models.providers.google.baseUrl. Consulte
Pesquisa Gemini para o comportamento da ferramenta específico do provedor.
Geração de imagens
O provedor de geração de imagensgoogle incluído usa como padrão
google/gemini-3.1-flash-image-preview.
- Também oferece suporte a
google/gemini-3-pro-image-preview - Gerar: até 4 imagens por solicitação
- Modo de edição: habilitado, até 5 imagens de entrada
- Controles de geometria:
size,aspectRatioeresolution
Consulte Geração de imagens para parâmetros compartilhados da ferramenta, seleção de provedor e comportamento de failover.
Geração de vídeo
O Plugingoogle incluído também registra geração de vídeo por meio da ferramenta compartilhada
video_generate.
- Modelo de vídeo padrão:
google/veo-3.1-fast-generate-preview - Modos: fluxos de texto para vídeo, imagem para vídeo e referência de vídeo único
- Oferece suporte a
aspectRatio(16:9,9:16) eresolution(720P,1080P); saída de áudio não é compatível com Veo atualmente - Durações compatíveis: 4, 6 ou 8 segundos (outros valores se ajustam ao valor permitido mais próximo)
Consulte Geração de vídeo para parâmetros compartilhados da ferramenta, seleção de provedor e comportamento de failover.
Geração de música
O Plugingoogle incluído também registra geração de música por meio da ferramenta compartilhada
music_generate.
- Modelo de música padrão:
google/lyria-3-clip-preview - Também oferece suporte a
google/lyria-3-pro-preview - Controles de prompt:
lyricseinstrumental - Formato de saída:
mp3por padrão, além dewavemgoogle/lyria-3-pro-preview - Entradas de referência: até 10 imagens
- Execuções com sessão destacam-se por meio do fluxo compartilhado de tarefa/status, incluindo
action: "status"
Consulte Geração de música para parâmetros compartilhados da ferramenta, seleção de provedor e comportamento de failover.
Conversão de texto em fala
O provedor de falagoogle incluído usa o caminho de TTS da Gemini API com
gemini-3.1-flash-tts-preview.
- Voz padrão:
Kore - Autenticação:
messages.tts.providers.google.apiKey,models.providers.google.apiKey,GEMINI_API_KEYouGOOGLE_API_KEY - Saída: WAV para anexos TTS comuns, Opus para destinos de nota de voz, PCM para Talk/telefonia
- Saída de nota de voz: o PCM do Google é encapsulado como WAV e transcodificado para Opus de 48 kHz com
ffmpeg
generateContent concluída. Para conversas faladas com a menor latência, use o
provedor de voz em tempo real do Google apoiado pela Gemini Live API em vez de TTS
em lote.
Para usar Google como provedor de TTS padrão:
audioProfile para prefixar um prompt de estilo reutilizável antes do texto falado. Defina
speakerName quando o texto do prompt fizer referência a um falante nomeado.
O TTS da Gemini API também aceita tags de áudio expressivas entre colchetes no texto,
como [whispers] ou [laughs]. Para manter tags fora da resposta visível do chat
enquanto as envia ao TTS, coloque-as dentro de um bloco [[tts:text]]...[[/tts:text]]:
Uma chave de API do Google Cloud Console restrita à Gemini API é válida para este
provedor. Este não é o caminho separado da Cloud Text-to-Speech API.
Voz em tempo real
O Plugingoogle incluído registra um provedor de voz em tempo real apoiado pela
Gemini Live API para pontes de áudio de backend, como Voice Call e Google Meet.
| Configuração | Caminho de configuração | Padrão |
|---|---|---|
| Modelo | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| Voz | ...google.voice | Kore |
| Temperatura | ...google.temperature | (não definido) |
| Sensibilidade de início VAD | ...google.startSensitivity | (não definido) |
| Sensibilidade de fim VAD | ...google.endSensitivity | (não definido) |
| Duração do silêncio | ...google.silenceDurationMs | (não definido) |
| Tratamento de atividade | ...google.activityHandling | Padrão do Google, start-of-activity-interrupts |
| Cobertura do turno | ...google.turnCoverage | Padrão do Google, only-activity |
| Desativar VAD automático | ...google.automaticActivityDetectionDisabled | false |
| Retomada de sessão | ...google.sessionResumption | true |
| Compressão de contexto | ...google.contextWindowCompression | true |
| Chave de API | ...google.apiKey | Usa como fallback models.providers.google.apiKey, GEMINI_API_KEY ou GOOGLE_API_KEY |
A Google Live API usa áudio bidirecional e chamada de funções por meio de um WebSocket.
OpenClaw adapta o áudio da ponte de telefonia/Meet ao fluxo PCM da Gemini Live API e
mantém as chamadas de ferramentas no contrato compartilhado de voz em tempo real. Deixe
temperature
não definido, a menos que você precise alterar a amostragem; OpenClaw omite valores não positivos
porque o Google Live pode retornar transcrições sem áudio para temperature: 0.
A transcrição da API Gemini é habilitada sem languageCodes; o SDK atual do Google
rejeita dicas de código de idioma neste caminho de API.Control UI Talk oferece suporte a sessões do Google Live no navegador com tokens de uso único
restritos. Provedores de voz em tempo real somente de backend também podem ser executados pelo transporte
genérico de retransmissão do Gateway, que mantém as credenciais do provedor no Gateway.
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts.
O smoke também cobre caminhos de backend/WebRTC da OpenAI; a etapa do Google emite o mesmo
formato de token restrito da Live API usado pelo Control UI Talk, abre o endpoint
WebSocket do navegador, envia o payload inicial de configuração e aguarda
setupComplete.
Configuração avançada
Reutilização direta do cache Gemini
Reutilização direta do cache Gemini
Para execuções diretas da API Gemini (
api: "google-generative-ai"), OpenClaw
repassa um identificador cachedContent configurado para as solicitações Gemini.- Configure parâmetros por modelo ou globais com
cachedContentou o legadocached_content - Se ambos estiverem presentes,
cachedContentprevalece - Valor de exemplo:
cachedContents/prebuilt-context - O uso de acerto de cache Gemini é normalizado para
cacheReaddo OpenClaw a partir decachedContentTokenCountdo upstream
Notas de uso do JSON do Gemini CLI
Notas de uso do JSON do Gemini CLI
Ao usar o provedor OAuth
google-gemini-cli, OpenClaw normaliza
a saída JSON da CLI da seguinte forma:- O texto de resposta vem do campo
responsedo JSON da CLI. - O uso usa
statscomo fallback quando a CLI deixausagevazio. stats.cachedé normalizado paracacheReaddo OpenClaw.- Se
stats.inputestiver ausente, OpenClaw deriva os tokens de entrada destats.input_tokens - stats.cached.
Configuração de ambiente e daemon
Configuração de ambiente e daemon
Se o Gateway for executado como daemon (launchd/systemd), garanta que
GEMINI_API_KEY
esteja disponível para esse processo (por exemplo, em ~/.openclaw/.env ou via
env.shellEnv).Relacionado
Seleção de modelo
Escolha de provedores, referências de modelo e comportamento de failover.
Geração de imagens
Parâmetros compartilhados da ferramenta de imagem e seleção de provedor.
Geração de vídeo
Parâmetros compartilhados da ferramenta de vídeo e seleção de provedor.
Geração de música
Parâmetros compartilhados da ferramenta de música e seleção de provedor.