Plugin Google надає доступ до моделей Gemini через Google AI Studio, а також генерацію зображень, розуміння медіа (зображення/аудіо/відео), перетворення тексту на мовлення та вебпошук через Gemini Grounding.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Провайдер:
google - Автентифікація:
GEMINI_API_KEYабоGOOGLE_API_KEY - API: Google Gemini API
- Параметр середовища виконання: provider/model
agentRuntime.id: "google-gemini-cli"повторно використовує OAuth Gemini CLI, зберігаючи посилання на моделі канонічними якgoogle/*.
Початок роботи
Виберіть бажаний метод автентифікації та виконайте кроки налаштування.- Ключ API
- Gemini CLI (OAuth)
Можливості
| Можливість | Підтримується |
|---|---|
| Завершення чату | Так |
| Генерація зображень | Так |
| Генерація музики | Так |
| Перетворення тексту на мовлення | Так |
| Голос у реальному часі | Так (Google Live API) |
| Розуміння зображень | Так |
| Транскрибування аудіо | Так |
| Розуміння відео | Так |
| Вебпошук (Grounding) | Так |
| Мислення/міркування | Так (Gemini 2.5+ / Gemini 3+) |
| Моделі Gemma 4 | Так |
Вебпошук
Вбудований провайдер вебпошукуgemini використовує grounding Google Search у Gemini.
Налаштуйте окремий ключ пошуку в plugins.entries.google.config.webSearch,
або дозвольте повторно використати models.providers.google.apiKey після GEMINI_API_KEY:
webSearch.apiKey, потім GEMINI_API_KEY,
потім models.providers.google.apiKey. webSearch.baseUrl є необов’язковим і
існує для операторських проксі або сумісних кінцевих точок Gemini API; якщо його опущено,
вебпошук Gemini повторно використовує models.providers.google.baseUrl. Див.
Пошук Gemini щодо поведінки інструмента, специфічної для провайдера.
Генерація зображень
Вбудований провайдер генерації зображеньgoogle за замовчуванням використовує
google/gemini-3.1-flash-image-preview.
- Також підтримує
google/gemini-3-pro-image-preview - Генерація: до 4 зображень на запит
- Режим редагування: увімкнено, до 5 вхідних зображень
- Елементи керування геометрією:
size,aspectRatioіresolution
Див. Генерація зображень щодо спільних параметрів інструмента, вибору провайдера та поведінки аварійного перемикання.
Генерація відео
Вбудований Plugingoogle також реєструє генерацію відео через спільний
інструмент video_generate.
- Модель відео за замовчуванням:
google/veo-3.1-fast-generate-preview - Режими: текст-у-відео, зображення-у-відео та потоки з посиланням на одне відео
- Підтримує
aspectRatio(16:9,9:16) іresolution(720P,1080P); виведення аудіо наразі не підтримується Veo - Підтримувані тривалості: 4, 6 або 8 секунд (інші значення округлюються до найближчого дозволеного значення)
Див. Генерація відео щодо спільних параметрів інструмента, вибору провайдера та поведінки аварійного перемикання.
Генерація музики
Вбудований Plugingoogle також реєструє генерацію музики через спільний
інструмент music_generate.
- Модель музики за замовчуванням:
google/lyria-3-clip-preview - Також підтримує
google/lyria-3-pro-preview - Елементи керування промптом:
lyricsіinstrumental - Формат виводу:
mp3за замовчуванням, плюсwavуgoogle/lyria-3-pro-preview - Вхідні посилання: до 10 зображень
- Запуски на основі сесії від’єднуються через спільний потік завдань/статусу, зокрема
action: "status"
Див. Генерація музики щодо спільних параметрів інструмента, вибору провайдера та поведінки аварійного перемикання.
Перетворення тексту на мовлення
Вбудований мовленнєвий провайдерgoogle використовує шлях TTS Gemini API з
gemini-3.1-flash-tts-preview.
- Голос за замовчуванням:
Kore - Автентифікація:
messages.tts.providers.google.apiKey,models.providers.google.apiKey,GEMINI_API_KEYабоGOOGLE_API_KEY - Вивід: WAV для звичайних вкладень TTS, Opus для цілей голосових нотаток, PCM для Talk/телефонії
- Вивід голосових нотаток: Google PCM обгортається як WAV і транскодується у 48 кГц Opus за допомогою
ffmpeg
generateContent. Для розмов із мовленням із найнижчою затримкою використовуйте
провайдера голосу Google у реальному часі на основі Gemini Live API замість пакетного
TTS.
Щоб використовувати Google як провайдера TTS за замовчуванням:
audioProfile, щоб додавати багаторазовий промпт стилю перед озвучуваним текстом. Установіть
speakerName, коли текст промпта посилається на названого мовця.
Gemini API TTS також приймає виразні аудіотеги у квадратних дужках у тексті,
як-от [whispers] або [laughs]. Щоб теги не потрапляли до видимої відповіді чату,
але надсилалися до TTS, помістіть їх у блок [[tts:text]]...[[/tts:text]]:
Ключ API Google Cloud Console, обмежений Gemini API, є дійсним для цього
провайдера. Це не окремий шлях Cloud Text-to-Speech API.
Голос у реальному часі
Вбудований Plugingoogle реєструє провайдера голосу в реальному часі на основі
Gemini Live API для бекенд-мостів аудіо, таких як Voice Call і Google Meet.
| Налаштування | Шлях конфігурації | Типове значення |
|---|---|---|
| Модель | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| Голос | ...google.voice | Kore |
| Температура | ...google.temperature | (не задано) |
| Чутливість початку VAD | ...google.startSensitivity | (не задано) |
| Чутливість завершення VAD | ...google.endSensitivity | (не задано) |
| Тривалість тиші | ...google.silenceDurationMs | (не задано) |
| Обробка активності | ...google.activityHandling | типове значення Google, start-of-activity-interrupts |
| Покриття репліки | ...google.turnCoverage | типове значення Google, only-activity |
| Вимкнути автоматичний VAD | ...google.automaticActivityDetectionDisabled | false |
| Відновлення сеансу | ...google.sessionResumption | true |
| Стиснення контексту | ...google.contextWindowCompression | true |
| API-ключ | ...google.apiKey | Повертається до models.providers.google.apiKey, GEMINI_API_KEY або GOOGLE_API_KEY |
Google Live API використовує двоспрямоване аудіо та виклики функцій через WebSocket.
OpenClaw адаптує аудіо телефонії/моста Meet до PCM-потоку Gemini Live API і
зберігає виклики інструментів у спільному realtime-контракті голосу. Залиште
temperature
незаданим, якщо вам не потрібні зміни семплювання; OpenClaw пропускає недодатні значення,
оскільки Google Live може повертати транскрипти без аудіо для temperature: 0.
Транскрибування Gemini API увімкнено без languageCodes; поточний Google
SDK відхиляє підказки кодів мов у цьому шляху API.Control UI Talk підтримує браузерні сеанси Google Live з обмеженими одноразовими
токенами. Realtime-провайдери голосу, що працюють лише на бекенді, також можуть виконуватися через загальний
ретрансляційний транспорт Gateway, який зберігає облікові дані провайдера на Gateway.
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts.
Smoke також покриває шляхи бекенду OpenAI/WebRTC; гілка Google створює ту саму
форму обмеженого токена Live API, яку використовує Control UI Talk, відкриває браузерну
кінцеву точку WebSocket, надсилає початкове setup-навантаження та очікує на
setupComplete.
Розширена конфігурація
Direct Gemini cache reuse
Direct Gemini cache reuse
Для прямих запусків Gemini API (
api: "google-generative-ai") OpenClaw
передає налаштований дескриптор cachedContent до запитів Gemini.- Налаштуйте параметри для окремої моделі або глобальні параметри за допомогою
cachedContentчи застарілогоcached_content - Якщо присутні обидва, перевагу має
cachedContent - Приклад значення:
cachedContents/prebuilt-context - Використання cache-hit Gemini нормалізується в OpenClaw
cacheReadз upstreamcachedContentTokenCount
Gemini CLI JSON usage notes
Gemini CLI JSON usage notes
Під час використання OAuth-провайдера
google-gemini-cli OpenClaw нормалізує
JSON-вивід CLI так:- Текст відповіді береться з поля CLI JSON
response. - Використання повертається до
stats, коли CLI залишаєusageпорожнім. stats.cachedнормалізується в OpenClawcacheRead.- Якщо
stats.inputвідсутній, OpenClaw виводить вхідні токени зstats.input_tokens - stats.cached.
Environment and daemon setup
Environment and daemon setup
Якщо Gateway працює як демон (launchd/systemd), переконайтеся, що
GEMINI_API_KEY
доступний цьому процесу (наприклад, у ~/.openclaw/.env або через
env.shellEnv).Пов’язане
Model selection
Вибір провайдерів, посилань на моделі та поведінки failover.
Image generation
Спільні параметри інструмента зображень і вибір провайдера.
Video generation
Спільні параметри інструмента відео та вибір провайдера.
Music generation
Спільні параметри інструмента музики та вибір провайдера.