Plugin Google ให้การเข้าถึงโมเดล Gemini ผ่าน Google AI Studio รวมถึง การสร้างภาพ ความเข้าใจสื่อ (ภาพ/เสียง/วิดีโอ), การแปลงข้อความเป็นเสียง และการค้นเว็บผ่าน Gemini GroundingDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
- ผู้ให้บริการ:
google - การยืนยันตัวตน:
GEMINI_API_KEYหรือGOOGLE_API_KEY - API: Google Gemini API
- ตัวเลือกรันไทม์: ผู้ให้บริการ/โมเดล
agentRuntime.id: "google-gemini-cli"ใช้ Gemini CLI OAuth ซ้ำ โดยยังคงการอ้างอิงโมเดลให้เป็นมาตรฐานในรูปแบบgoogle/*
เริ่มต้นใช้งาน
เลือกวิธีการยืนยันตัวตนที่คุณต้องการ แล้วทำตามขั้นตอนการตั้งค่า- API key
- Gemini CLI (OAuth)
ความสามารถ
| ความสามารถ | รองรับ |
|---|---|
| การเติมเต็มแชต | ใช่ |
| การสร้างภาพ | ใช่ |
| การสร้างเพลง | ใช่ |
| การแปลงข้อความเป็นเสียง | ใช่ |
| เสียงแบบเรียลไทม์ | ใช่ (Google Live API) |
| ความเข้าใจภาพ | ใช่ |
| การถอดเสียงจากเสียง | ใช่ |
| ความเข้าใจวิดีโอ | ใช่ |
| การค้นเว็บ (Grounding) | ใช่ |
| การคิด/การให้เหตุผล | ใช่ (Gemini 2.5+ / Gemini 3+) |
| โมเดล Gemma 4 | ใช่ |
การค้นเว็บ
ผู้ให้บริการค้นเว็บgemini ที่รวมมาด้วยใช้การ Grounding ของ Gemini Google Search
กำหนดค่าคีย์ค้นหาเฉพาะภายใต้ plugins.entries.google.config.webSearch
หรือให้ใช้ models.providers.google.apiKey ซ้ำหลังจาก GEMINI_API_KEY:
webSearch.apiKey เฉพาะก่อน จากนั้น GEMINI_API_KEY
แล้วจึง models.providers.google.apiKey webSearch.baseUrl เป็นตัวเลือก และ
มีไว้สำหรับพร็อกซีของผู้ปฏิบัติงานหรือปลายทาง Gemini API ที่เข้ากันได้ เมื่อเว้นไว้
การค้นเว็บ Gemini จะใช้ models.providers.google.baseUrl ซ้ำ ดู
การค้นหา Gemini สำหรับพฤติกรรมเครื่องมือเฉพาะผู้ให้บริการ
การสร้างภาพ
ผู้ให้บริการสร้างภาพgoogle ที่รวมมาด้วยมีค่าเริ่มต้นเป็น
google/gemini-3.1-flash-image-preview
- รองรับ
google/gemini-3-pro-image-previewด้วย - สร้าง: สูงสุด 4 ภาพต่อคำขอ
- โหมดแก้ไข: เปิดใช้งาน สูงสุด 5 ภาพอินพุต
- การควบคุมเรขาคณิต:
size,aspectRatioและresolution
ดู การสร้างภาพ สำหรับพารามิเตอร์เครื่องมือที่ใช้ร่วมกัน การเลือกผู้ให้บริการ และพฤติกรรมเฟลโอเวอร์
การสร้างวิดีโอ
Plugingoogle ที่รวมมาด้วยยังลงทะเบียนการสร้างวิดีโอผ่านเครื่องมือที่ใช้ร่วมกัน
video_generate
- โมเดลวิดีโอเริ่มต้น:
google/veo-3.1-fast-generate-preview - โหมด: ข้อความเป็นวิดีโอ, ภาพเป็นวิดีโอ และโฟลว์อ้างอิงวิดีโอเดียว
- รองรับ
aspectRatio(16:9,9:16) และresolution(720P,1080P); เอาต์พุตเสียงยังไม่รองรับโดย Veo ในปัจจุบัน - ระยะเวลาที่รองรับ: 4, 6 หรือ 8 วินาที (ค่าอื่นจะปรับไปยังค่าที่อนุญาตซึ่งใกล้ที่สุด)
ดู การสร้างวิดีโอ สำหรับพารามิเตอร์เครื่องมือที่ใช้ร่วมกัน การเลือกผู้ให้บริการ และพฤติกรรมเฟลโอเวอร์
การสร้างเพลง
Plugingoogle ที่รวมมาด้วยยังลงทะเบียนการสร้างเพลงผ่านเครื่องมือที่ใช้ร่วมกัน
music_generate
- โมเดลเพลงเริ่มต้น:
google/lyria-3-clip-preview - รองรับ
google/lyria-3-pro-previewด้วย - การควบคุมพรอมป์:
lyricsและinstrumental - รูปแบบเอาต์พุต: ค่าเริ่มต้นคือ
mp3และมีwavบนgoogle/lyria-3-pro-preview - อินพุตอ้างอิง: สูงสุด 10 ภาพ
- การรันที่มีเซสชันรองรับจะแยกการทำงานผ่านโฟลว์งาน/สถานะที่ใช้ร่วมกัน รวมถึง
action: "status"
ดู การสร้างเพลง สำหรับพารามิเตอร์เครื่องมือที่ใช้ร่วมกัน การเลือกผู้ให้บริการ และพฤติกรรมเฟลโอเวอร์
การแปลงข้อความเป็นเสียง
ผู้ให้บริการเสียงพูดgoogle ที่รวมมาด้วยใช้เส้นทาง Gemini API TTS พร้อม
gemini-3.1-flash-tts-preview
- เสียงเริ่มต้น:
Kore - การยืนยันตัวตน:
messages.tts.providers.google.apiKey,models.providers.google.apiKey,GEMINI_API_KEYหรือGOOGLE_API_KEY - เอาต์พุต: WAV สำหรับไฟล์แนบ TTS ปกติ, Opus สำหรับเป้าหมายข้อความเสียง, PCM สำหรับ Talk/โทรศัพท์
- เอาต์พุตข้อความเสียง: Google PCM ถูกห่อเป็น WAV และแปลงรหัสเป็น Opus 48 kHz ด้วย
ffmpeg
generateContent ที่เสร็จสมบูรณ์ สำหรับการสนทนาพูดที่มีเวลาแฝงต่ำสุด ให้ใช้
ผู้ให้บริการเสียงแบบเรียลไทม์ของ Google ที่รองรับโดย Gemini Live API แทน TTS
แบบแบตช์
หากต้องการใช้ Google เป็นผู้ให้บริการ TTS เริ่มต้น:
audioProfile เพื่อเติมพรอมป์สไตล์ที่ใช้ซ้ำได้ก่อนข้อความที่จะพูด ตั้งค่า
speakerName เมื่อข้อความพรอมป์ของคุณอ้างถึงผู้พูดที่มีชื่อ
Gemini API TTS ยังยอมรับแท็กเสียงในวงเล็บเหลี่ยมที่สื่ออารมณ์ในข้อความ
เช่น [whispers] หรือ [laughs] หากต้องการกันแท็กออกจากคำตอบแชตที่มองเห็น
แต่ยังส่งไปยัง TTS ให้ใส่ไว้ในบล็อก [[tts:text]]...[[/tts:text]]:
API key ของ Google Cloud Console ที่จำกัดเฉพาะ Gemini API ใช้ได้กับ
ผู้ให้บริการนี้ นี่ไม่ใช่เส้นทาง Cloud Text-to-Speech API แยกต่างหาก
เสียงแบบเรียลไทม์
Plugingoogle ที่รวมมาด้วยลงทะเบียนผู้ให้บริการเสียงแบบเรียลไทม์ที่รองรับโดย
Gemini Live API สำหรับบริดจ์เสียงแบ็กเอนด์ เช่น Voice Call และ Google Meet
| การตั้งค่า | พาธการกำหนดค่า | ค่าเริ่มต้น |
|---|---|---|
| โมเดล | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| เสียง | ...google.voice | Kore |
| อุณหภูมิ | ...google.temperature | (ไม่ได้ตั้งค่า) |
| ความไวเริ่มต้นของ VAD | ...google.startSensitivity | (ไม่ได้ตั้งค่า) |
| ความไวสิ้นสุดของ VAD | ...google.endSensitivity | (ไม่ได้ตั้งค่า) |
| ระยะเวลาความเงียบ | ...google.silenceDurationMs | (ไม่ได้ตั้งค่า) |
| การจัดการกิจกรรม | ...google.activityHandling | ค่าเริ่มต้นของ Google, start-of-activity-interrupts |
| การครอบคลุมรอบสนทนา | ...google.turnCoverage | ค่าเริ่มต้นของ Google, only-activity |
| ปิดใช้งาน VAD อัตโนมัติ | ...google.automaticActivityDetectionDisabled | false |
| การกลับมาใช้เซสชันต่อ | ...google.sessionResumption | true |
| การบีบอัดบริบท | ...google.contextWindowCompression | true |
| คีย์ API | ...google.apiKey | สำรองไปใช้ models.providers.google.apiKey, GEMINI_API_KEY หรือ GOOGLE_API_KEY |
Google Live API ใช้เสียงแบบสองทิศทางและการเรียกฟังก์ชันผ่าน WebSocket
OpenClaw ปรับเสียงจากบริดจ์โทรศัพท์/Meet ให้เข้ากับสตรีม PCM Live API ของ Gemini และ
เก็บการเรียกเครื่องมือไว้บนสัญญาเสียงแบบเรียลไทม์ที่ใช้ร่วมกัน ปล่อย
temperature
ไว้โดยไม่ตั้งค่า เว้นแต่คุณต้องเปลี่ยนการสุ่มตัวอย่าง; OpenClaw จะละเว้นค่าที่ไม่เป็นบวก
เพราะ Google Live อาจส่งคืนทรานสคริปต์โดยไม่มีเสียงสำหรับ temperature: 0
การถอดเสียงของ Gemini API เปิดใช้งานโดยไม่มี languageCodes; Google
SDK ปัจจุบันปฏิเสธคำแนะนำรหัสภาษาบนพาธ API นี้Control UI Talk รองรับเซสชันเบราว์เซอร์ Google Live ด้วยโทเค็นแบบใช้ครั้งเดียวที่มีข้อจำกัด
ผู้ให้บริการเสียงแบบเรียลไทม์ที่ทำงานเฉพาะแบ็กเอนด์ยังสามารถทำงานผ่านการขนส่งรีเลย์ทั่วไปของ
Gateway ซึ่งเก็บข้อมูลรับรองของผู้ให้บริการไว้บน Gateway
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts
smoke ยังครอบคลุมพาธแบ็กเอนด์/WebRTC ของ OpenAI ด้วย; ช่วง Google จะออกโทเค็น Live API
แบบมีข้อจำกัดรูปแบบเดียวกับที่ Control UI Talk ใช้ เปิดเอนด์พอยต์ WebSocket
ของเบราว์เซอร์ ส่งเพย์โหลดการตั้งค่าเริ่มต้น และรอ
setupComplete
การกำหนดค่าขั้นสูง
การใช้แคช Gemini โดยตรงซ้ำ
การใช้แคช Gemini โดยตรงซ้ำ
สำหรับการรัน Gemini API โดยตรง (
api: "google-generative-ai"), OpenClaw
ส่งตัวจัดการ cachedContent ที่กำหนดค่าไว้ต่อไปยังคำขอ Gemini- กำหนดค่าพารามิเตอร์ต่อโมเดลหรือแบบส่วนกลางด้วย
cachedContentหรือcached_contentแบบเดิม - หากมีทั้งคู่
cachedContentจะมีผลก่อน - ค่าตัวอย่าง:
cachedContents/prebuilt-context - การใช้งานแคชฮิตของ Gemini ถูกทำให้เป็นมาตรฐานเป็น
cacheReadของ OpenClaw จากcachedContentTokenCountต้นทาง
หมายเหตุการใช้งาน JSON ของ Gemini CLI
หมายเหตุการใช้งาน JSON ของ Gemini CLI
เมื่อใช้ผู้ให้บริการ OAuth
google-gemini-cli, OpenClaw ทำให้
เอาต์พุต JSON ของ CLI เป็นมาตรฐานดังนี้:- ข้อความตอบกลับมาจากฟิลด์
responseใน JSON ของ CLI - การใช้งานจะสำรองไปใช้
statsเมื่อ CLI ปล่อยusageว่างไว้ stats.cachedถูกทำให้เป็นมาตรฐานเป็นcacheReadของ OpenClaw- หากไม่มี
stats.input, OpenClaw จะอนุมานโทเค็นอินพุตจากstats.input_tokens - stats.cached
การตั้งค่าสภาพแวดล้อมและดีมอน
การตั้งค่าสภาพแวดล้อมและดีมอน
หาก Gateway ทำงานเป็นดีมอน (launchd/systemd), ตรวจสอบให้แน่ใจว่า
GEMINI_API_KEY
พร้อมใช้งานสำหรับกระบวนการนั้น (เช่น ใน ~/.openclaw/.env หรือผ่าน
env.shellEnv)ที่เกี่ยวข้อง
การเลือกโมเดล
การเลือกผู้ให้บริการ, การอ้างอิงโมเดล และพฤติกรรมการสลับเมื่อเกิดข้อผิดพลาด
การสร้างรูปภาพ
พารามิเตอร์เครื่องมือรูปภาพที่ใช้ร่วมกันและการเลือกผู้ให้บริการ
การสร้างวิดีโอ
พารามิเตอร์เครื่องมือวิดีโอที่ใช้ร่วมกันและการเลือกผู้ให้บริการ
การสร้างเพลง
พารามิเตอร์เครื่องมือเพลงที่ใช้ร่วมกันและการเลือกผู้ให้บริการ