Google(Gemini)
Google Pluginは、Google AI Studioを通じたGeminiモデルへのアクセスに加えて、 Gemini Groundingによる画像生成、メディア理解(画像/音声/動画)、テキスト読み上げ、Web検索を提供します。- Provider:
google - 認証:
GEMINI_API_KEYまたはGOOGLE_API_KEY - API: Google Gemini API
- 代替Provider:
google-gemini-cli(OAuth)
はじめに
希望する認証方法を選び、セットアップ手順に従ってください。- API key
- Gemini CLI (OAuth)
機能
| 機能 | サポート状況 |
|---|---|
| チャット補完 | はい |
| 画像生成 | はい |
| 音楽生成 | はい |
| テキスト読み上げ | はい |
| 画像理解 | はい |
| 音声文字起こし | はい |
| 動画理解 | はい |
| Web検索(Grounding) | はい |
| Thinking/reasoning | はい(Gemini 3.1+) |
| Gemma 4モデル | はい |
画像生成
バンドルされたgoogle 画像生成Providerのデフォルトは
google/gemini-3.1-flash-image-preview です。
google/gemini-3-pro-image-previewもサポート- 生成: リクエストごとに最大4枚
- 編集モード: 有効、最大5枚の入力画像に対応
- ジオメトリ制御:
size、aspectRatio、resolution
共通のツールパラメーター、Provider選択、フェイルオーバー動作については、画像生成を参照してください。
動画生成
バンドルされたgoogle Pluginは、共有の
video_generate ツールを通じて動画生成も登録します。
- デフォルト動画モデル:
google/veo-3.1-fast-generate-preview - モード: text-to-video、image-to-video、single-video referenceフロー
aspectRatio、resolution、audioをサポート- 現在の時間制限: 4〜8秒
共通のツールパラメーター、Provider選択、フェイルオーバー動作については、動画生成を参照してください。
音楽生成
バンドルされたgoogle Pluginは、共有の
music_generate ツールを通じて音楽生成も登録します。
- デフォルト音楽モデル:
google/lyria-3-clip-preview google/lyria-3-pro-previewもサポート- プロンプト制御:
lyricsとinstrumental - 出力形式: デフォルトで
mp3、google/lyria-3-pro-previewではwavも対応 - 参照入力: 最大10枚の画像
- セッションに裏打ちされた実行は、
action: "status"を含む共有のタスク/ステータスフローを通じて分離されます
共通のツールパラメーター、Provider選択、フェイルオーバー動作については、音楽生成を参照してください。
テキスト読み上げ
バンドルされたgoogle 音声Providerは、Gemini APIのTTSパスで
gemini-3.1-flash-tts-preview を使用します。
- デフォルト音声:
Kore - 認証:
messages.tts.providers.google.apiKey、models.providers.google.apiKey、GEMINI_API_KEY、またはGOOGLE_API_KEY - 出力: 通常のTTS添付ではWAV、Talk/電話向けではPCM
- ネイティブなボイスノート出力: APIがOpusではなくPCMを返すため、このGemini APIパスでは非対応
[whispers] や [laughs] のような表現付きの角括弧音声タグをテキスト内で受け付けます。
タグを表示されるチャット返信から除外しつつ
TTSに送るには、[[tts:text]]...[[/tts:text]] ブロック内に入れてください。
Gemini APIのみに制限されたGoogle Cloud Console APIキーは、この
Providerで有効です。これは別個のCloud Text-to-Speech APIパスではありません。
高度な設定
Geminiキャッシュの直接再利用
Geminiキャッシュの直接再利用
直接のGemini API実行(
api: "google-generative-ai")では、OpenClawは
設定された cachedContent ハンドルをGeminiリクエストにそのまま渡します。- モデルごと、またはグローバルのparamsで
cachedContentまたは旧来のcached_contentを設定できます - 両方ある場合は、
cachedContentが優先されます - 値の例:
cachedContents/prebuilt-context - Geminiのキャッシュヒット使用量は、上流の
cachedContentTokenCountから OpenClawのcacheReadに正規化されます
Gemini CLI JSON使用時の注意
Gemini CLI JSON使用時の注意
google-gemini-cli OAuth Providerを使用する場合、OpenClawは
CLIのJSON出力を次のように正規化します。- 返信テキストはCLI JSONの
responseフィールドから取得します。 - CLIが
usageを空のままにした場合、使用量はstatsにフォールバックします。 stats.cachedはOpenClawのcacheReadに正規化されます。stats.inputがない場合、OpenClawはstats.input_tokens - stats.cachedから入力トークン数を導出します。
環境とデーモンのセットアップ
環境とデーモンのセットアップ
Gatewayがデーモン(launchd/systemd)として動作する場合は、
GEMINI_API_KEY
がそのプロセスで利用可能であることを確認してください(たとえば ~/.openclaw/.env または
env.shellEnv 内)。関連
モデル選択
Provider、モデル参照、フェイルオーバー動作の選び方。
画像生成
共通の画像ツールパラメーターとProvider選択。
動画生成
共通の動画ツールパラメーターとProvider選択。
音楽生成
共通の音楽ツールパラメーターとProvider選択。