Naar hoofdinhoud gaan

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

De Google-Plugin biedt toegang tot Gemini-modellen via Google AI Studio, plus beeldgeneratie, mediabegrip (afbeelding/audio/video), tekst-naar-spraak en webzoekopdrachten via Gemini Grounding.
  • Provider: google
  • Authenticatie: GEMINI_API_KEY of GOOGLE_API_KEY
  • API: Google Gemini API
  • Runtime-optie: agents.defaults.agentRuntime.id: "google-gemini-cli" hergebruikt Gemini CLI OAuth terwijl modelverwijzingen canoniek blijven als google/*.

Aan de slag

Kies je gewenste authenticatiemethode en volg de installatiestappen.
Het beste voor: standaardtoegang tot de Gemini API via Google AI Studio.
1

Onboarding uitvoeren

openclaw onboard --auth-choice gemini-api-key
Of geef de sleutel direct door:
openclaw onboard --non-interactive \
  --mode local \
  --auth-choice gemini-api-key \
  --gemini-api-key "$GEMINI_API_KEY"
2

Een standaardmodel instellen

{
  agents: {
    defaults: {
      model: { primary: "google/gemini-3.1-pro-preview" },
    },
  },
}
3

Controleren of het model beschikbaar is

openclaw models list --provider google
De omgevingsvariabelen GEMINI_API_KEY en GOOGLE_API_KEY worden beide geaccepteerd. Gebruik degene die je al hebt geconfigureerd.

Mogelijkheden

MogelijkheidOndersteund
ChatvoltooiingenJa
BeeldgeneratieJa
MuziekgeneratieJa
Tekst-naar-spraakJa
Realtime spraakJa (Google Live API)
AfbeeldingsbegripJa
AudiotranscriptieJa
VideobegripJa
Webzoekopdracht (Grounding)Ja
Denken/redenerenJa (Gemini 2.5+ / Gemini 3+)
Gemma 4-modellenJa
Gemini 3-modellen gebruiken thinkingLevel in plaats van thinkingBudget. OpenClaw koppelt redeneerinstellingen van Gemini 3, Gemini 3.1 en de gemini-*-latest-alias aan thinkingLevel, zodat standaardruns/runs met lage latentie geen uitgeschakelde thinkingBudget-waarden verzenden./think adaptive behoudt de dynamische denksemantiek van Google in plaats van een vast OpenClaw-niveau te kiezen. Gemini 3 en Gemini 3.1 laten een vaste thinkingLevel weg, zodat Google het niveau kan kiezen; Gemini 2.5 verzendt Googles dynamische sentinel thinkingBudget: -1.Gemma 4-modellen (bijvoorbeeld gemma-4-26b-a4b-it) ondersteunen denkmodus. OpenClaw herschrijft thinkingBudget naar een ondersteund Google-thinkingLevel voor Gemma 4. Als denken op off wordt ingesteld, blijft denken uitgeschakeld in plaats van te worden gekoppeld aan MINIMAL.

Beeldgeneratie

De meegeleverde google-provider voor beeldgeneratie gebruikt standaard google/gemini-3.1-flash-image-preview.
  • Ondersteunt ook google/gemini-3-pro-image-preview
  • Genereren: maximaal 4 afbeeldingen per aanvraag
  • Bewerkmodus: ingeschakeld, maximaal 5 invoerafbeeldingen
  • Geometrie-instellingen: size, aspectRatio en resolution
Google als standaardprovider voor afbeeldingen gebruiken:
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "google/gemini-3.1-flash-image-preview",
      },
    },
  },
}
Zie Beeldgeneratie voor gedeelde toolparameters, providerselectie en failovergedrag.

Videogeneratie

De meegeleverde google-Plugin registreert ook videogeneratie via de gedeelde video_generate-tool.
  • Standaardvideomodel: google/veo-3.1-fast-generate-preview
  • Modi: tekst-naar-video, afbeelding-naar-video en referentieflows met één video
  • Ondersteunt aspectRatio, resolution en audio
  • Huidige duurklem: 4 tot 8 seconden
Google als standaardprovider voor video gebruiken:
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "google/veo-3.1-fast-generate-preview",
      },
    },
  },
}
Zie Videogeneratie voor gedeelde toolparameters, providerselectie en failovergedrag.

Muziekgeneratie

De meegeleverde google-Plugin registreert ook muziekgeneratie via de gedeelde music_generate-tool.
  • Standaardmuziekmodel: google/lyria-3-clip-preview
  • Ondersteunt ook google/lyria-3-pro-preview
  • Promptinstellingen: lyrics en instrumental
  • Uitvoerindeling: standaard mp3, plus wav op google/lyria-3-pro-preview
  • Referentie-invoer: maximaal 10 afbeeldingen
  • Sessieondersteunde runs worden losgekoppeld via de gedeelde taak-/statusflow, inclusief action: "status"
Google als standaardprovider voor muziek gebruiken:
{
  agents: {
    defaults: {
      musicGenerationModel: {
        primary: "google/lyria-3-clip-preview",
      },
    },
  },
}
Zie Muziekgeneratie voor gedeelde toolparameters, providerselectie en failovergedrag.

Tekst-naar-spraak

De meegeleverde google-spraakprovider gebruikt het Gemini API TTS-pad met gemini-3.1-flash-tts-preview.
  • Standaardstem: Kore
  • Authenticatie: messages.tts.providers.google.apiKey, models.providers.google.apiKey, GEMINI_API_KEY of GOOGLE_API_KEY
  • Uitvoer: WAV voor gewone TTS-bijlagen, Opus voor spraaknotitiedoelen, PCM voor Talk/telefonie
  • Spraaknotitie-uitvoer: Google PCM wordt verpakt als WAV en getranscodeerd naar 48 kHz Opus met ffmpeg
Google als standaard-TTS-provider gebruiken:
{
  messages: {
    tts: {
      auto: "always",
      provider: "google",
      providers: {
        google: {
          model: "gemini-3.1-flash-tts-preview",
          voiceName: "Kore",
          audioProfile: "Speak professionally with a calm tone.",
        },
      },
    },
  },
}
Gemini API TTS gebruikt prompts in natuurlijke taal voor stijlregeling. Stel audioProfile in om een herbruikbare stijlprompt vóór de uitgesproken tekst te plaatsen. Stel speakerName in wanneer je prompttekst naar een genoemde spreker verwijst. Gemini API TTS accepteert ook expressieve audiotags tussen vierkante haken in de tekst, zoals [whispers] of [laughs]. Om tags uit het zichtbare chatantwoord te houden terwijl ze naar TTS worden verzonden, plaats je ze in een [[tts:text]]...[[/tts:text]]- blok:
Here is the clean reply text.

[[tts:text]][whispers] Here is the spoken version.[[/tts:text]]
Een Google Cloud Console-API-sleutel die is beperkt tot de Gemini API is geldig voor deze provider. Dit is niet het afzonderlijke Cloud Text-to-Speech API-pad.

Realtime spraak

De meegeleverde google-Plugin registreert een realtime spraakprovider die wordt ondersteund door de Gemini Live API voor backend-audiobruggen zoals Voice Call en Google Meet.
InstellingConfiguratiepadStandaard
Modelplugins.entries.voice-call.config.realtime.providers.google.modelgemini-2.5-flash-native-audio-preview-12-2025
Stem...google.voiceKore
Temperatuur...google.temperature(niet ingesteld)
VAD-startgevoeligheid...google.startSensitivity(niet ingesteld)
VAD-eindgevoeligheid...google.endSensitivity(niet ingesteld)
Stilteduur...google.silenceDurationMs(niet ingesteld)
Activiteitsafhandeling...google.activityHandlingGoogle-standaard, start-of-activity-interrupts
Beurtdekking...google.turnCoverageGoogle-standaard, only-activity
Automatische VAD uitschakelen...google.automaticActivityDetectionDisabledfalse
API-sleutel...google.apiKeyValt terug op models.providers.google.apiKey, GEMINI_API_KEY of GOOGLE_API_KEY
Voorbeeldconfiguratie voor Voice Call realtime:
{
  plugins: {
    entries: {
      "voice-call": {
        enabled: true,
        config: {
          realtime: {
            enabled: true,
            provider: "google",
            providers: {
              google: {
                model: "gemini-2.5-flash-native-audio-preview-12-2025",
                voice: "Kore",
                activityHandling: "start-of-activity-interrupts",
                turnCoverage: "only-activity",
              },
            },
          },
        },
      },
    },
  },
}
Google Live API gebruikt bidirectionele audio en functieaanroepen via een WebSocket. OpenClaw past audio van telefonie-/Meet-bruggen aan de PCM Live API-stream van Gemini aan en houdt toolaanroepen op het gedeelde realtime spraakcontract. Laat temperature uitgeschakeld tenzij je samplingwijzigingen nodig hebt; OpenClaw laat niet-positieve waarden weg omdat Google Live transcripties zonder audio kan retourneren voor temperature: 0. Gemini API-transcriptie is ingeschakeld zonder languageCodes; de huidige Google SDK weigert taalcodehints op dit API-pad.
Control UI Talk ondersteunt Google Live-browsersessies met beperkte tokens voor eenmalig gebruik. Backend-only realtime spraakproviders kunnen ook via het generieke Gateway-relaytransport lopen, waardoor providerreferenties op de Gateway blijven.
Voer voor liveverificatie door maintainers OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts uit. De Google-tak maakt dezelfde beperkte Live API-tokenvorm aan die door Control UI Talk wordt gebruikt, opent het browser-WebSocket-eindpunt, verzendt de initiële set-up-payload en wacht op setupComplete.

Geavanceerde configuratie

Voor directe Gemini API-runs (api: "google-generative-ai") geeft OpenClaw een geconfigureerde cachedContent-handle door aan Gemini-verzoeken.
  • Configureer per-model- of globale parameters met cachedContent of verouderd cached_content
  • Als beide aanwezig zijn, wint cachedContent
  • Voorbeeldwaarde: cachedContents/prebuilt-context
  • Gemini-cachehitgebruik wordt genormaliseerd naar OpenClaw cacheRead vanuit upstream cachedContentTokenCount
{
  agents: {
    defaults: {
      models: {
        "google/gemini-2.5-pro": {
          params: {
            cachedContent: "cachedContents/prebuilt-context",
          },
        },
      },
    },
  },
}
Bij gebruik van de google-gemini-cli OAuth-provider normaliseert OpenClaw de CLI JSON-uitvoer als volgt:
  • Antwoordtekst komt uit het CLI JSON-veld response.
  • Gebruik valt terug op stats wanneer de CLI usage leeg laat.
  • stats.cached wordt genormaliseerd naar OpenClaw cacheRead.
  • Als stats.input ontbreekt, leidt OpenClaw invoertokens af uit stats.input_tokens - stats.cached.
Als de Gateway als daemon draait (launchd/systemd), zorg er dan voor dat GEMINI_API_KEY beschikbaar is voor dat proces (bijvoorbeeld in ~/.openclaw/.env of via env.shellEnv).

Gerelateerd

Modelselectie

Providers, modelrefs en failovergedrag kiezen.

Afbeeldingsgeneratie

Gedeelde parameters voor afbeeldingstools en providerselectie.

Videogeneratie

Gedeelde parameters voor videotools en providerselectie.

Muziekgeneratie

Gedeelde parameters voor muziektools en providerselectie.