Google (Gemini)
O Plugin do Google fornece acesso aos modelos Gemini por meio do Google AI Studio, além de geração de imagens, compreensão de mídia (imagem/áudio/vídeo), conversão de texto em fala e pesquisa na web via Gemini Grounding.- Provedor:
google - Autenticação:
GEMINI_API_KEYouGOOGLE_API_KEY - API: API Google Gemini
- Provedor alternativo:
google-gemini-cli(OAuth)
Primeiros passos
Escolha seu método de autenticação preferido e siga as etapas de configuração.- Chave de API
- Gemini CLI (OAuth)
Capacidades
| Capacidade | Compatível |
|---|---|
| Conclusões de chat | Sim |
| Geração de imagens | Sim |
| Geração de música | Sim |
| Conversão de texto em fala | Sim |
| Compreensão de imagem | Sim |
| Transcrição de áudio | Sim |
| Compreensão de vídeo | Sim |
| Pesquisa na web (Grounding) | Sim |
| Thinking/raciocínio | Sim (Gemini 2.5+ / Gemini 3+) |
| Modelos Gemma 4 | Sim |
Geração de imagens
O provedor incluído de geração de imagensgoogle usa por padrão
google/gemini-3.1-flash-image-preview.
- Também oferece suporte a
google/gemini-3-pro-image-preview - Gerar: até 4 imagens por solicitação
- Modo de edição: habilitado, até 5 imagens de entrada
- Controles de geometria:
size,aspectRatioeresolution
Consulte Image Generation para parâmetros compartilhados da ferramenta, seleção de provedor e comportamento de failover.
Geração de vídeo
O Plugin incluídogoogle também registra geração de vídeo por meio da ferramenta compartilhada
video_generate.
- Modelo de vídeo padrão:
google/veo-3.1-fast-generate-preview - Modos: texto para vídeo, imagem para vídeo e fluxos de referência de vídeo único
- Oferece suporte a
aspectRatio,resolutioneaudio - Limite de duração atual: 4 a 8 segundos
Consulte Video Generation para parâmetros compartilhados da ferramenta, seleção de provedor e comportamento de failover.
Geração de música
O Plugin incluídogoogle também registra geração de música por meio da ferramenta compartilhada
music_generate.
- Modelo de música padrão:
google/lyria-3-clip-preview - Também oferece suporte a
google/lyria-3-pro-preview - Controles de prompt:
lyricseinstrumental - Formato de saída:
mp3por padrão, além dewavemgoogle/lyria-3-pro-preview - Entradas de referência: até 10 imagens
- Execuções com suporte a sessão são desacopladas por meio do fluxo compartilhado de tarefa/status, incluindo
action: "status"
Consulte Music Generation para parâmetros compartilhados da ferramenta, seleção de provedor e comportamento de failover.
Conversão de texto em fala
O provedor de fala incluídogoogle usa o caminho de TTS da API Gemini com
gemini-3.1-flash-tts-preview.
- Voz padrão:
Kore - Autenticação:
messages.tts.providers.google.apiKey,models.providers.google.apiKey,GEMINI_API_KEYouGOOGLE_API_KEY - Saída: WAV para anexos TTS normais, PCM para Talk/telefonia
- Saída nativa de mensagem de voz: não compatível neste caminho da API Gemini porque a API retorna PCM em vez de Opus
[whispers] ou [laughs]. Para manter as tags fora da resposta visível no chat enquanto
as envia para o TTS, coloque-as dentro de um bloco [[tts:text]]...[[/tts:text]]:
Uma chave de API do Google Cloud Console restrita à API Gemini é válida para este
provedor. Este não é o caminho separado da API Cloud Text-to-Speech.
Configuração avançada
Reutilização direta do cache do Gemini
Reutilização direta do cache do Gemini
Para execuções diretas da API Gemini (
api: "google-generative-ai"), o OpenClaw
encaminha um identificador cachedContent configurado para as solicitações do Gemini.- Configure parâmetros por modelo ou globais com
cachedContentou o legadocached_content - Se ambos estiverem presentes,
cachedContentprevalece - Exemplo de valor:
cachedContents/prebuilt-context - O uso de acerto de cache do Gemini é normalizado em
cacheReaddo OpenClaw a partir decachedContentTokenCountdo upstream
Observações sobre uso de JSON do Gemini CLI
Observações sobre uso de JSON do Gemini CLI
Ao usar o provedor OAuth
google-gemini-cli, o OpenClaw normaliza
a saída JSON do CLI da seguinte forma:- O texto da resposta vem do campo
responsedo JSON do CLI. - O uso recorre a
statsquando o CLI deixausagevazio. stats.cachedé normalizado emcacheReaddo OpenClaw.- Se
stats.inputestiver ausente, o OpenClaw deriva os tokens de entrada destats.input_tokens - stats.cached.
Configuração de ambiente e daemon
Configuração de ambiente e daemon
Se o Gateway for executado como um daemon (launchd/systemd), verifique se
GEMINI_API_KEY
está disponível para esse processo (por exemplo, em ~/.openclaw/.env ou via
env.shellEnv).Relacionado
Seleção de modelo
Escolha de provedores, refs de modelo e comportamento de failover.
Geração de imagens
Parâmetros compartilhados da ferramenta de imagem e seleção de provedor.
Geração de vídeo
Parâmetros compartilhados da ferramenta de vídeo e seleção de provedor.
Geração de música
Parâmetros compartilhados da ferramenta de música e seleção de provedor.