Das Google-Plugin bietet Zugriff auf Gemini-Modelle über Google AI Studio sowie Bildgenerierung, Medienverständnis (Bild/Audio/Video), Text-to-Speech und Websuche über Gemini Grounding.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Provider:
google - Authentifizierung:
GEMINI_API_KEYoderGOOGLE_API_KEY - API: Google Gemini API
- Laufzeitoption: Provider/Modell
agentRuntime.id: "google-gemini-cli"verwendet Gemini CLI OAuth wieder, während Modellreferenzen kanonisch alsgoogle/*bleiben.
Erste Schritte
Wählen Sie Ihre bevorzugte Authentifizierungsmethode und folgen Sie den Einrichtungsschritten.- API-Schlüssel
- Gemini CLI (OAuth)
Fähigkeiten
| Fähigkeit | Unterstützt |
|---|---|
| Chat-Vervollständigungen | Ja |
| Bildgenerierung | Ja |
| Musikgenerierung | Ja |
| Text-to-Speech | Ja |
| Echtzeit-Sprache | Ja (Google Live API) |
| Bildverständnis | Ja |
| Audiotranskription | Ja |
| Videoverständnis | Ja |
| Websuche (Grounding) | Ja |
| Denken/Reasoning | Ja (Gemini 2.5+ / Gemini 3+) |
| Gemma 4-Modelle | Ja |
Websuche
Der gebündeltegemini-Provider für Websuche verwendet Gemini Google Search Grounding.
Konfigurieren Sie einen dedizierten Suchschlüssel unter plugins.entries.google.config.webSearch,
oder lassen Sie ihn nach GEMINI_API_KEY models.providers.google.apiKey wiederverwenden:
webSearch.apiKey, dann GEMINI_API_KEY,
dann models.providers.google.apiKey. webSearch.baseUrl ist optional und
existiert für Betreiber-Proxys oder kompatible Gemini API-Endpunkte; wenn es ausgelassen wird,
verwendet die Gemini-Websuche models.providers.google.baseUrl wieder. Siehe
Gemini-Suche für das Provider-spezifische Toolverhalten.
Bildgenerierung
Der gebündeltegoogle-Provider für Bildgenerierung verwendet standardmäßig
google/gemini-3.1-flash-image-preview.
- Unterstützt auch
google/gemini-3-pro-image-preview - Generieren: bis zu 4 Bilder pro Anfrage
- Bearbeitungsmodus: aktiviert, bis zu 5 Eingabebilder
- Geometriesteuerungen:
size,aspectRatioundresolution
Siehe Bildgenerierung für gemeinsame Toolparameter, Provider-Auswahl und Failover-Verhalten.
Videogenerierung
Das gebündeltegoogle-Plugin registriert außerdem Videogenerierung über das gemeinsame
Tool video_generate.
- Standard-Videomodell:
google/veo-3.1-fast-generate-preview - Modi: Text-zu-Video, Bild-zu-Video und Einzelvideo-Referenz-Flows
- Unterstützt
aspectRatio(16:9,9:16) undresolution(720P,1080P); Audioausgabe wird von Veo derzeit nicht unterstützt - Unterstützte Dauern: 4, 6 oder 8 Sekunden (andere Werte werden auf den nächstgelegenen zulässigen Wert gesetzt)
Siehe Videogenerierung für gemeinsame Toolparameter, Provider-Auswahl und Failover-Verhalten.
Musikgenerierung
Das gebündeltegoogle-Plugin registriert außerdem Musikgenerierung über das gemeinsame
Tool music_generate.
- Standard-Musikmodell:
google/lyria-3-clip-preview - Unterstützt auch
google/lyria-3-pro-preview - Prompt-Steuerungen:
lyricsundinstrumental - Ausgabeformat: standardmäßig
mp3, außerdemwavaufgoogle/lyria-3-pro-preview - Referenzeingaben: bis zu 10 Bilder
- Sitzungsbasierte Läufe werden über den gemeinsamen Aufgaben-/Status-Flow entkoppelt, einschließlich
action: "status"
Siehe Musikgenerierung für gemeinsame Toolparameter, Provider-Auswahl und Failover-Verhalten.
Text-to-Speech
Der gebündeltegoogle-Sprach-Provider verwendet den Gemini API-TTS-Pfad mit
gemini-3.1-flash-tts-preview.
- Standardstimme:
Kore - Authentifizierung:
messages.tts.providers.google.apiKey,models.providers.google.apiKey,GEMINI_API_KEYoderGOOGLE_API_KEY - Ausgabe: WAV für reguläre TTS-Anhänge, Opus für Sprachnotiz-Ziele, PCM für Talk/Telefonie
- Sprachnotiz-Ausgabe: Google PCM wird als WAV verpackt und mit
ffmpegin 48-kHz-Opus transkodiert
generateContent-Antwort zurück. Verwenden Sie für gesprochene Unterhaltungen mit geringster Latenz den
Google-Echtzeit-Sprach-Provider, der auf der Gemini Live API basiert, statt Batch-
TTS.
So verwenden Sie Google als Standard-TTS-Provider:
audioProfile, um dem gesprochenen Text einen wiederverwendbaren Stil-Prompt voranzustellen. Setzen Sie
speakerName, wenn Ihr Prompt-Text auf einen benannten Sprecher verweist.
Gemini API TTS akzeptiert außerdem ausdrucksstarke Audio-Tags in eckigen Klammern im Text,
wie [whispers] oder [laughs]. Um Tags aus der sichtbaren Chat-Antwort
herauszuhalten, sie aber an TTS zu senden, platzieren Sie sie in einem [[tts:text]]...[[/tts:text]]-
Block:
Ein auf die Gemini API beschränkter API-Schlüssel aus der Google Cloud Console ist für diesen
Provider gültig. Dies ist nicht der separate Cloud Text-to-Speech API-Pfad.
Echtzeit-Sprache
Das gebündeltegoogle-Plugin registriert einen Echtzeit-Sprach-Provider, der auf der
Gemini Live API für Backend-Audio-Bridges wie Voice Call und Google Meet basiert.
| Einstellung | Konfigurationspfad | Standard |
|---|---|---|
| Modell | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| Stimme | ...google.voice | Kore |
| Temperatur | ...google.temperature | (nicht gesetzt) |
| VAD-Startempfindlichkeit | ...google.startSensitivity | (nicht gesetzt) |
| VAD-Endempfindlichkeit | ...google.endSensitivity | (nicht gesetzt) |
| Stilledauer | ...google.silenceDurationMs | (nicht gesetzt) |
| Aktivitätsbehandlung | ...google.activityHandling | Google-Standard, start-of-activity-interrupts |
| Turn-Abdeckung | ...google.turnCoverage | Google-Standard, only-activity |
| Automatische VAD deaktivieren | ...google.automaticActivityDetectionDisabled | false |
| Sitzungsfortsetzung | ...google.sessionResumption | true |
| Kontextkomprimierung | ...google.contextWindowCompression | true |
| API-Schlüssel | ...google.apiKey | Fällt auf models.providers.google.apiKey, GEMINI_API_KEY oder GOOGLE_API_KEY zurück |
Google Live API verwendet bidirektionales Audio und Function Calling über einen WebSocket.
OpenClaw passt Audio aus Telefonie-/Meet-Bridges an Geminis PCM-Live-API-Stream an und
hält Tool-Aufrufe auf dem gemeinsamen Realtime-Voice-Vertrag. Lassen Sie
temperature
nicht gesetzt, sofern Sie keine Sampling-Änderungen benötigen; OpenClaw lässt nicht positive Werte aus,
weil Google Live bei temperature: 0 Transkripte ohne Audio zurückgeben kann.
Die Transkription der Gemini API ist ohne languageCodes aktiviert; das aktuelle Google
SDK lehnt Sprachcode-Hinweise auf diesem API-Pfad ab.Control UI Talk unterstützt Google Live-Browsersitzungen mit eingeschränkten Einmal-
Tokens. Realtime-Voice-Provider, die nur im Backend laufen, können auch über den generischen
Gateway-Relay-Transport ausgeführt werden, der Provider-Anmeldedaten auf dem Gateway belässt.
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts aus.
Der Smoke-Test deckt auch OpenAI-Backend-/WebRTC-Pfade ab; der Google-Abschnitt erstellt dieselbe
eingeschränkte Live-API-Token-Form, die von Control UI Talk verwendet wird, öffnet den Browser-
WebSocket-Endpunkt, sendet die anfängliche Setup-Nutzlast und wartet auf
setupComplete.
Erweiterte Konfiguration
Direkte Wiederverwendung des Gemini-Cache
Direkte Wiederverwendung des Gemini-Cache
Für direkte Gemini-API-Läufe (
api: "google-generative-ai") leitet OpenClaw
ein konfiguriertes cachedContent-Handle an Gemini-Anfragen weiter.- Konfigurieren Sie Parameter pro Modell oder global entweder mit
cachedContentoder dem altencached_content - Wenn beide vorhanden sind, hat
cachedContentVorrang - Beispielwert:
cachedContents/prebuilt-context - Die Gemini-Cache-Hit-Nutzung wird aus dem Upstream-
cachedContentTokenCountin OpenClawcacheReadnormalisiert
Nutzungshinweise für Gemini CLI JSON
Nutzungshinweise für Gemini CLI JSON
Bei Verwendung des OAuth-Providers
google-gemini-cli normalisiert OpenClaw
die CLI-JSON-Ausgabe wie folgt:- Antworttext stammt aus dem CLI-JSON-Feld
response. - Die Nutzung fällt auf
statszurück, wenn die CLIusageleer lässt. stats.cachedwird in OpenClawcacheReadnormalisiert.- Wenn
stats.inputfehlt, leitet OpenClaw Eingabe-Token ausstats.input_tokens - stats.cachedab.
Umgebungs- und Daemon-Einrichtung
Umgebungs- und Daemon-Einrichtung
Wenn der Gateway als Daemon ausgeführt wird (launchd/systemd), stellen Sie sicher, dass
GEMINI_API_KEY
für diesen Prozess verfügbar ist (zum Beispiel in ~/.openclaw/.env oder über
env.shellEnv).Verwandte Themen
Modellauswahl
Provider, Modellreferenzen und Failover-Verhalten auswählen.
Bildgenerierung
Gemeinsame Bild-Tool-Parameter und Provider-Auswahl.
Videogenerierung
Gemeinsame Video-Tool-Parameter und Provider-Auswahl.
Musikgenerierung
Gemeinsame Musik-Tool-Parameter und Provider-Auswahl.