メインコンテンツへスキップ

Google(Gemini)

Google Pluginは、Google AI Studioを通じたGeminiモデルへのアクセスに加えて、 Gemini Groundingによる画像生成、メディア理解(画像/音声/動画)、テキスト読み上げ、Web検索を提供します。
  • Provider: google
  • 認証: GEMINI_API_KEY または GOOGLE_API_KEY
  • API: Google Gemini API
  • 代替Provider: google-gemini-cli(OAuth)

はじめに

希望する認証方法を選び、セットアップ手順に従ってください。
最適な用途: Google AI Studioを通じた標準的なGemini APIアクセス。
1

オンボーディングを実行

openclaw onboard --auth-choice gemini-api-key
または、キーを直接渡します。
openclaw onboard --non-interactive \
  --mode local \
  --auth-choice gemini-api-key \
  --gemini-api-key "$GEMINI_API_KEY"
2

デフォルトモデルを設定

{
  agents: {
    defaults: {
      model: { primary: "google/gemini-3.1-pro-preview" },
    },
  },
}
3

モデルが利用可能であることを確認

openclaw models list --provider google
環境変数 GEMINI_API_KEYGOOGLE_API_KEY はどちらも使用できます。すでに設定済みのものを使ってください。

機能

機能サポート状況
チャット補完はい
画像生成はい
音楽生成はい
テキスト読み上げはい
画像理解はい
音声文字起こしはい
動画理解はい
Web検索(Grounding)はい
Thinking/reasoningはい(Gemini 3.1+)
Gemma 4モデルはい
Gemma 4モデル(たとえば gemma-4-26b-a4b-it)はthinking modeをサポートします。OpenClawは Gemma 4向けに thinkingBudget をサポートされているGoogleの thinkingLevel に 書き換えます。thinkingを off に設定すると、MINIMAL にマッピングせずに thinking無効のまま維持されます。

画像生成

バンドルされた google 画像生成Providerのデフォルトは google/gemini-3.1-flash-image-preview です。
  • google/gemini-3-pro-image-preview もサポート
  • 生成: リクエストごとに最大4枚
  • 編集モード: 有効、最大5枚の入力画像に対応
  • ジオメトリ制御: sizeaspectRatioresolution
Googleをデフォルトの画像Providerとして使用するには、次のようにします。
{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "google/gemini-3.1-flash-image-preview",
      },
    },
  },
}
共通のツールパラメーター、Provider選択、フェイルオーバー動作については、画像生成を参照してください。

動画生成

バンドルされた google Pluginは、共有の video_generate ツールを通じて動画生成も登録します。
  • デフォルト動画モデル: google/veo-3.1-fast-generate-preview
  • モード: text-to-video、image-to-video、single-video referenceフロー
  • aspectRatioresolutionaudio をサポート
  • 現在の時間制限: 4〜8秒
Googleをデフォルトの動画Providerとして使用するには、次のようにします。
{
  agents: {
    defaults: {
      videoGenerationModel: {
        primary: "google/veo-3.1-fast-generate-preview",
      },
    },
  },
}
共通のツールパラメーター、Provider選択、フェイルオーバー動作については、動画生成を参照してください。

音楽生成

バンドルされた google Pluginは、共有の music_generate ツールを通じて音楽生成も登録します。
  • デフォルト音楽モデル: google/lyria-3-clip-preview
  • google/lyria-3-pro-preview もサポート
  • プロンプト制御: lyricsinstrumental
  • 出力形式: デフォルトで mp3google/lyria-3-pro-preview では wav も対応
  • 参照入力: 最大10枚の画像
  • セッションに裏打ちされた実行は、action: "status" を含む共有のタスク/ステータスフローを通じて分離されます
Googleをデフォルトの音楽Providerとして使用するには、次のようにします。
{
  agents: {
    defaults: {
      musicGenerationModel: {
        primary: "google/lyria-3-clip-preview",
      },
    },
  },
}
共通のツールパラメーター、Provider選択、フェイルオーバー動作については、音楽生成を参照してください。

テキスト読み上げ

バンドルされた google 音声Providerは、Gemini APIのTTSパスで gemini-3.1-flash-tts-preview を使用します。
  • デフォルト音声: Kore
  • 認証: messages.tts.providers.google.apiKeymodels.providers.google.apiKeyGEMINI_API_KEY、または GOOGLE_API_KEY
  • 出力: 通常のTTS添付ではWAV、Talk/電話向けではPCM
  • ネイティブなボイスノート出力: APIがOpusではなくPCMを返すため、このGemini APIパスでは非対応
GoogleをデフォルトのTTS Providerとして使用するには、次のようにします。
{
  messages: {
    tts: {
      auto: "always",
      provider: "google",
      providers: {
        google: {
          model: "gemini-3.1-flash-tts-preview",
          voiceName: "Kore",
        },
      },
    },
  },
}
Gemini API TTSは、[whispers][laughs] のような表現付きの角括弧音声タグをテキスト内で受け付けます。 タグを表示されるチャット返信から除外しつつ TTSに送るには、[[tts:text]]...[[/tts:text]] ブロック内に入れてください。
ここに整形済みの返信テキストがあります。

[[tts:text]][whispers] こちらが読み上げ版です。[[/tts:text]]
Gemini APIのみに制限されたGoogle Cloud Console APIキーは、この Providerで有効です。これは別個のCloud Text-to-Speech APIパスではありません。

高度な設定

直接のGemini API実行(api: "google-generative-ai")では、OpenClawは 設定された cachedContent ハンドルをGeminiリクエストにそのまま渡します。
  • モデルごと、またはグローバルのparamsで cachedContent または旧来の cached_content を設定できます
  • 両方ある場合は、cachedContent が優先されます
  • 値の例: cachedContents/prebuilt-context
  • Geminiのキャッシュヒット使用量は、上流の cachedContentTokenCount から OpenClawの cacheRead に正規化されます
{
  agents: {
    defaults: {
      models: {
        "google/gemini-2.5-pro": {
          params: {
            cachedContent: "cachedContents/prebuilt-context",
          },
        },
      },
    },
  },
}
google-gemini-cli OAuth Providerを使用する場合、OpenClawは CLIのJSON出力を次のように正規化します。
  • 返信テキストはCLI JSONの response フィールドから取得します。
  • CLIが usage を空のままにした場合、使用量は stats にフォールバックします。
  • stats.cached はOpenClawの cacheRead に正規化されます。
  • stats.input がない場合、OpenClawは stats.input_tokens - stats.cached から入力トークン数を導出します。
Gatewayがデーモン(launchd/systemd)として動作する場合は、GEMINI_API_KEY がそのプロセスで利用可能であることを確認してください(たとえば ~/.openclaw/.env または env.shellEnv 内)。

関連

モデル選択

Provider、モデル参照、フェイルオーバー動作の選び方。

画像生成

共通の画像ツールパラメーターとProvider選択。

動画生成

共通の動画ツールパラメーターとProvider選択。

音楽生成

共通の音楽ツールパラメーターとProvider選択。