Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

Das Google-Plugin bietet Zugriff auf Gemini-Modelle über Google AI Studio sowie Bildgenerierung, Medienverständnis (Bild/Audio/Video), Text-to-Speech und Websuche über Gemini Grounding.
  • Provider: google
  • Authentifizierung: GEMINI_API_KEY oder GOOGLE_API_KEY
  • API: Google Gemini API
  • Laufzeitoption: Provider/Modell agentRuntime.id: "google-gemini-cli" verwendet Gemini CLI OAuth wieder, während Modellreferenzen kanonisch als google/* bleiben.

Erste Schritte

Wählen Sie Ihre bevorzugte Authentifizierungsmethode und folgen Sie den Einrichtungsschritten.
Am besten für: Standardzugriff auf die Gemini API über Google AI Studio.
1

Onboarding ausführen

openclaw onboard --auth-choice gemini-api-key
Oder übergeben Sie den Schlüssel direkt:
openclaw onboard --non-interactive \
  --mode local \
  --auth-choice gemini-api-key \
  --gemini-api-key "$GEMINI_API_KEY"
2

Standardmodell festlegen

{
  agents: {
    defaults: {
      model: { primary: "google/gemini-3.1-pro-preview" },
    },
  },
}
3

Prüfen, ob das Modell verfügbar ist

openclaw models list --provider google
Die Umgebungsvariablen GEMINI_API_KEY und GOOGLE_API_KEY werden beide akzeptiert. Verwenden Sie diejenige, die Sie bereits konfiguriert haben.

Fähigkeiten

FähigkeitUnterstützt
Chat-VervollständigungenJa
BildgenerierungJa
MusikgenerierungJa
Text-to-SpeechJa
Echtzeit-SpracheJa (Google Live API)
BildverständnisJa
AudiotranskriptionJa
VideoverständnisJa
Websuche (Grounding)Ja
Denken/ReasoningJa (Gemini 2.5+ / Gemini 3+)
Gemma 4-ModelleJa

Websuche

Der gebündelte gemini-Provider für Websuche verwendet Gemini Google Search Grounding. Konfigurieren Sie einen dedizierten Suchschlüssel unter plugins.entries.google.config.webSearch, oder lassen Sie ihn nach GEMINI_API_KEY models.providers.google.apiKey wiederverwenden:
{
  plugins: {
    entries: {
      google: {
        config: {
          webSearch: {
            apiKey: "AIza...", // optional if GEMINI_API_KEY or models.providers.google.apiKey is set
            baseUrl: "https://generativelanguage.googleapis.com/v1beta", // falls back to models.providers.google.baseUrl
            model: "gemini-2.5-flash",
          },
        },
      },
    },
  },
}
Die Priorität für Anmeldedaten ist zuerst dediziertes webSearch.apiKey, dann GEMINI_API_KEY, dann models.providers.google.apiKey. webSearch.baseUrl ist optional und existiert für Betreiber-Proxys oder kompatible Gemini API-Endpunkte; wenn es ausgelassen wird, verwendet die Gemini-Websuche models.providers.google.baseUrl wieder. Siehe Gemini-Suche für das Provider-spezifische Toolverhalten.
Gemini 3-Modelle verwenden thinkingLevel statt thinkingBudget. OpenClaw ordnet Reasoning-Steuerungen für Gemini 3, Gemini 3.1 und gemini-*-latest-Aliase thinkingLevel zu, damit Standardläufe und Läufe mit geringer Latenz keine deaktivierten thinkingBudget-Werte senden./think adaptive behält Googles dynamische Denksemantik bei, statt ein festes OpenClaw-Level zu wählen. Gemini 3 und Gemini 3.1 lassen ein festes thinkingLevel aus, damit Google das Level wählen kann; Gemini 2.5 sendet Googles dynamischen Sentinel thinkingBudget: -1.Gemma 4-Modelle (zum Beispiel gemma-4-26b-a4b-it) unterstützen den Denkmodus. OpenClaw schreibt thinkingBudget für Gemma 4 in ein unterstütztes Google-thinkingLevel um. Wenn Denken auf off gesetzt wird, bleibt Denken deaktiviert, statt auf MINIMAL abgebildet zu werden.

Bildgenerierung

Der gebündelte google-Provider für Bildgenerierung verwendet standardmäßig google/gemini-3.1-flash-image-preview.
  • Unterstützt auch google/gemini-3-pro-image-preview
  • Generieren: bis zu 4 Bilder pro Anfrage
  • Bearbeitungsmodus: aktiviert, bis zu 5 Eingabebilder
  • Geometriesteuerungen: size, aspectRatio und resolution
So verwenden Sie Google als Standard-Provider für Bilder:
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "google/gemini-3.1-flash-image-preview",
      },
    },
  },
}
Siehe Bildgenerierung für gemeinsame Toolparameter, Provider-Auswahl und Failover-Verhalten.

Videogenerierung

Das gebündelte google-Plugin registriert außerdem Videogenerierung über das gemeinsame Tool video_generate.
  • Standard-Videomodell: google/veo-3.1-fast-generate-preview
  • Modi: Text-zu-Video, Bild-zu-Video und Einzelvideo-Referenz-Flows
  • Unterstützt aspectRatio (16:9, 9:16) und resolution (720P, 1080P); Audioausgabe wird von Veo derzeit nicht unterstützt
  • Unterstützte Dauern: 4, 6 oder 8 Sekunden (andere Werte werden auf den nächstgelegenen zulässigen Wert gesetzt)
So verwenden Sie Google als Standard-Provider für Videos:
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "google/veo-3.1-fast-generate-preview",
      },
    },
  },
}
Siehe Videogenerierung für gemeinsame Toolparameter, Provider-Auswahl und Failover-Verhalten.

Musikgenerierung

Das gebündelte google-Plugin registriert außerdem Musikgenerierung über das gemeinsame Tool music_generate.
  • Standard-Musikmodell: google/lyria-3-clip-preview
  • Unterstützt auch google/lyria-3-pro-preview
  • Prompt-Steuerungen: lyrics und instrumental
  • Ausgabeformat: standardmäßig mp3, außerdem wav auf google/lyria-3-pro-preview
  • Referenzeingaben: bis zu 10 Bilder
  • Sitzungsbasierte Läufe werden über den gemeinsamen Aufgaben-/Status-Flow entkoppelt, einschließlich action: "status"
So verwenden Sie Google als Standard-Provider für Musik:
{
  agents: {
    defaults: {
      musicGenerationModel: {
        primary: "google/lyria-3-clip-preview",
      },
    },
  },
}
Siehe Musikgenerierung für gemeinsame Toolparameter, Provider-Auswahl und Failover-Verhalten.

Text-to-Speech

Der gebündelte google-Sprach-Provider verwendet den Gemini API-TTS-Pfad mit gemini-3.1-flash-tts-preview.
  • Standardstimme: Kore
  • Authentifizierung: messages.tts.providers.google.apiKey, models.providers.google.apiKey, GEMINI_API_KEY oder GOOGLE_API_KEY
  • Ausgabe: WAV für reguläre TTS-Anhänge, Opus für Sprachnotiz-Ziele, PCM für Talk/Telefonie
  • Sprachnotiz-Ausgabe: Google PCM wird als WAV verpackt und mit ffmpeg in 48-kHz-Opus transkodiert
Googles Batch-Gemini-TTS-Pfad gibt generiertes Audio in der abgeschlossenen generateContent-Antwort zurück. Verwenden Sie für gesprochene Unterhaltungen mit geringster Latenz den Google-Echtzeit-Sprach-Provider, der auf der Gemini Live API basiert, statt Batch- TTS. So verwenden Sie Google als Standard-TTS-Provider:
{
  messages: {
    tts: {
      auto: "always",
      provider: "google",
      providers: {
        google: {
          model: "gemini-3.1-flash-tts-preview",
          voiceName: "Kore",
          audioProfile: "Speak professionally with a calm tone.",
        },
      },
    },
  },
}
Gemini API TTS verwendet natürlichsprachliche Prompts zur Stilsteuerung. Setzen Sie audioProfile, um dem gesprochenen Text einen wiederverwendbaren Stil-Prompt voranzustellen. Setzen Sie speakerName, wenn Ihr Prompt-Text auf einen benannten Sprecher verweist. Gemini API TTS akzeptiert außerdem ausdrucksstarke Audio-Tags in eckigen Klammern im Text, wie [whispers] oder [laughs]. Um Tags aus der sichtbaren Chat-Antwort herauszuhalten, sie aber an TTS zu senden, platzieren Sie sie in einem [[tts:text]]...[[/tts:text]]- Block:
Here is the clean reply text.

[[tts:text]][whispers] Here is the spoken version.[[/tts:text]]
Ein auf die Gemini API beschränkter API-Schlüssel aus der Google Cloud Console ist für diesen Provider gültig. Dies ist nicht der separate Cloud Text-to-Speech API-Pfad.

Echtzeit-Sprache

Das gebündelte google-Plugin registriert einen Echtzeit-Sprach-Provider, der auf der Gemini Live API für Backend-Audio-Bridges wie Voice Call und Google Meet basiert.
EinstellungKonfigurationspfadStandard
Modellplugins.entries.voice-call.config.realtime.providers.google.modelgemini-2.5-flash-native-audio-preview-12-2025
Stimme...google.voiceKore
Temperatur...google.temperature(nicht gesetzt)
VAD-Startempfindlichkeit...google.startSensitivity(nicht gesetzt)
VAD-Endempfindlichkeit...google.endSensitivity(nicht gesetzt)
Stilledauer...google.silenceDurationMs(nicht gesetzt)
Aktivitätsbehandlung...google.activityHandlingGoogle-Standard, start-of-activity-interrupts
Turn-Abdeckung...google.turnCoverageGoogle-Standard, only-activity
Automatische VAD deaktivieren...google.automaticActivityDetectionDisabledfalse
Sitzungsfortsetzung...google.sessionResumptiontrue
Kontextkomprimierung...google.contextWindowCompressiontrue
API-Schlüssel...google.apiKeyFällt auf models.providers.google.apiKey, GEMINI_API_KEY oder GOOGLE_API_KEY zurück
Beispiel für die Realtime-Konfiguration von Voice Call:
{
  plugins: {
    entries: {
      "voice-call": {
        enabled: true,
        config: {
          realtime: {
            enabled: true,
            provider: "google",
            providers: {
              google: {
                model: "gemini-2.5-flash-native-audio-preview-12-2025",
                voice: "Kore",
                activityHandling: "start-of-activity-interrupts",
                turnCoverage: "only-activity",
              },
            },
          },
        },
      },
    },
  },
}
Google Live API verwendet bidirektionales Audio und Function Calling über einen WebSocket. OpenClaw passt Audio aus Telefonie-/Meet-Bridges an Geminis PCM-Live-API-Stream an und hält Tool-Aufrufe auf dem gemeinsamen Realtime-Voice-Vertrag. Lassen Sie temperature nicht gesetzt, sofern Sie keine Sampling-Änderungen benötigen; OpenClaw lässt nicht positive Werte aus, weil Google Live bei temperature: 0 Transkripte ohne Audio zurückgeben kann. Die Transkription der Gemini API ist ohne languageCodes aktiviert; das aktuelle Google SDK lehnt Sprachcode-Hinweise auf diesem API-Pfad ab.
Control UI Talk unterstützt Google Live-Browsersitzungen mit eingeschränkten Einmal- Tokens. Realtime-Voice-Provider, die nur im Backend laufen, können auch über den generischen Gateway-Relay-Transport ausgeführt werden, der Provider-Anmeldedaten auf dem Gateway belässt.
Für die Live-Verifikation durch Maintainer führen Sie OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts aus. Der Smoke-Test deckt auch OpenAI-Backend-/WebRTC-Pfade ab; der Google-Abschnitt erstellt dieselbe eingeschränkte Live-API-Token-Form, die von Control UI Talk verwendet wird, öffnet den Browser- WebSocket-Endpunkt, sendet die anfängliche Setup-Nutzlast und wartet auf setupComplete.

Erweiterte Konfiguration

Für direkte Gemini-API-Läufe (api: "google-generative-ai") leitet OpenClaw ein konfiguriertes cachedContent-Handle an Gemini-Anfragen weiter.
  • Konfigurieren Sie Parameter pro Modell oder global entweder mit cachedContent oder dem alten cached_content
  • Wenn beide vorhanden sind, hat cachedContent Vorrang
  • Beispielwert: cachedContents/prebuilt-context
  • Die Gemini-Cache-Hit-Nutzung wird aus dem Upstream-cachedContentTokenCount in OpenClaw cacheRead normalisiert
{
  agents: {
    defaults: {
      models: {
        "google/gemini-2.5-pro": {
          params: {
            cachedContent: "cachedContents/prebuilt-context",
          },
        },
      },
    },
  },
}
Bei Verwendung des OAuth-Providers google-gemini-cli normalisiert OpenClaw die CLI-JSON-Ausgabe wie folgt:
  • Antworttext stammt aus dem CLI-JSON-Feld response.
  • Die Nutzung fällt auf stats zurück, wenn die CLI usage leer lässt.
  • stats.cached wird in OpenClaw cacheRead normalisiert.
  • Wenn stats.input fehlt, leitet OpenClaw Eingabe-Token aus stats.input_tokens - stats.cached ab.
Wenn der Gateway als Daemon ausgeführt wird (launchd/systemd), stellen Sie sicher, dass GEMINI_API_KEY für diesen Prozess verfügbar ist (zum Beispiel in ~/.openclaw/.env oder über env.shellEnv).

Verwandte Themen

Modellauswahl

Provider, Modellreferenzen und Failover-Verhalten auswählen.

Bildgenerierung

Gemeinsame Bild-Tool-Parameter und Provider-Auswahl.

Videogenerierung

Gemeinsame Video-Tool-Parameter und Provider-Auswahl.

Musikgenerierung

Gemeinsame Musik-Tool-Parameter und Provider-Auswahl.