跳轉到主要內容

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw 可以將傳出的回覆轉換為音訊,支援 14 個語音供應商,並可在 Feishu、Matrix、Telegram 和 WhatsApp 上傳送原生語音訊息,在其他地方傳送音訊附件,以及為電話語音和 Talk 提供 PCM/Ulaw 串流。

快速開始

1

選擇供應商

OpenAI 和 ElevenLabs 是最可靠的託管選項。Microsoft 和 Local CLI 不需要 API 金鑰即可使用。完整清單請參閱供應商矩陣
2

設定 API 金鑰

匯出你的供應商所需的環境變數(例如 OPENAI_API_KEYELEVENLABS_API_KEY)。Microsoft 和 Local CLI 不需要金鑰。
3

在設定中啟用

設定 messages.tts.auto: "always"messages.tts.provider
{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
    },
  },
}
4

在聊天中試用

/tts status 會顯示目前狀態。/tts audio Hello from OpenClaw 會傳送一次性的音訊回覆。
Auto-TTS 預設為關閉。當未設定 messages.tts.provider 時, OpenClaw 會依照登錄自動選取順序,選擇第一個已設定的供應商。

支援的供應商

供應商驗證備註
Azure SpeechAZURE_SPEECH_KEY + AZURE_SPEECH_REGION(也支援 AZURE_SPEECH_API_KEYSPEECH_KEYSPEECH_REGION原生 Ogg/Opus 語音備註輸出和電話語音。
DeepInfraDEEPINFRA_API_KEYOpenAI 相容 TTS。預設為 hexgrad/Kokoro-82M
ElevenLabsELEVENLABS_API_KEYXI_API_KEY語音複製、多語言,並可透過 seed 決定性輸出。
Google GeminiGEMINI_API_KEYGOOGLE_API_KEYGemini API TTS;可透過 promptTemplate: "audio-profile-v1" 感知 persona。
GradiumGRADIUM_API_KEY語音備註和電話語音輸出。
InworldINWORLD_API_KEY串流 TTS API。原生 Opus 語音備註和 PCM 電話語音。
Local CLI執行已設定的本機 TTS 命令。
Microsoft透過 node-edge-tts 使用公開 Edge 神經網路 TTS。盡力提供,不保證 SLA。
MiniMaxMINIMAX_API_KEY(或 Token Plan:MINIMAX_OAUTH_TOKENMINIMAX_CODE_PLAN_KEYMINIMAX_CODING_API_KEYT2A v2 API。預設為 speech-2.8-hd
OpenAIOPENAI_API_KEY也用於自動摘要;支援 persona instructions
OpenRouterOPENROUTER_API_KEY(可重複使用 models.providers.openrouter.apiKey預設模型為 hexgrad/kokoro-82m
VolcengineVOLCENGINE_TTS_API_KEYBYTEPLUS_SEED_SPEECH_API_KEY(舊版 AppID/token:VOLCENGINE_TTS_APPID/_TOKENBytePlus Seed Speech HTTP API。
VydraVYDRA_API_KEY共用的圖片、影片和語音供應商。
xAIXAI_API_KEYxAI 批次 TTS。不支援原生 Opus 語音備註。
Xiaomi MiMoXIAOMI_API_KEY透過 Xiaomi 聊天補全提供 MiMo TTS。
如果設定了多個供應商,會優先使用選定的供應商,其他供應商則作為備援選項。自動摘要會使用 summaryModel(或 agents.defaults.model.primary),因此如果你維持啟用摘要,該供應商也必須完成驗證。
內建的 Microsoft provider 透過 node-edge-tts 使用 Microsoft Edge 的線上神經網路 TTS 服務。這是公開的 Web 服務,沒有已發布的 SLA 或配額 — 請將其視為盡力而為。舊版 provider id edge 會 正規化為 microsoft,而 openclaw doctor --fix 會重寫已保存的 設定;新的設定應一律使用 microsoft

設定

TTS 設定位於 ~/.openclaw/openclaw.json 中的 messages.tts。選擇一個 預設範本,並調整 provider 區塊:
{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          apiKey: "${AZURE_SPEECH_KEY}",
          region: "eastus",
          voice: "en-US-JennyNeural",
          lang: "en-US",
          outputFormat: "audio-24khz-48kbitrate-mono-mp3",
          voiceNoteOutputFormat: "ogg-24khz-16bit-mono-opus",
        },
      },
    },
  },
}

個別代理的語音覆寫

當某個代理應使用不同的 provider、語音、模型、persona 或自動 TTS 模式時, 請使用 agents.list[].tts。代理區塊會深度合併到 messages.tts 之上,因此 provider 認證資訊可以保留在全域 provider 設定中:
{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
      providers: {
        elevenlabs: { apiKey: "${ELEVENLABS_API_KEY}", model: "eleven_multilingual_v2" },
      },
    },
  },
  agents: {
    list: [
      {
        id: "reader",
        tts: {
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL" },
          },
        },
      },
    ],
  },
}
若要釘選個別代理的 persona,請將 agents.list[].tts.persona 與 provider 設定放在一起 — 它只會覆寫該代理的全域 messages.tts.persona 自動回覆、/tts audio/tts statustts 代理工具的優先順序:
  1. messages.tts
  2. 作用中的 agents.list[].tts
  3. 頻道覆寫,當該頻道支援 channels.<channel>.tts
  4. 帳號覆寫,當該頻道傳遞 channels.<channel>.accounts.<id>.tts
  5. 此主機的本機 /tts 偏好設定
  6. 啟用模型驅動指令時的行內 [[tts:...]] 指令
頻道與帳號覆寫使用與 messages.tts 相同的形狀,並會深度合併至較早的層級之上,因此共用提供者憑證可以保留在 messages.tts 中,而頻道或 Bot 帳號只變更語音、模型、persona 或自動模式:
{
  messages: {
    tts: {
      provider: "openai",
      providers: {
        openai: { apiKey: "${OPENAI_API_KEY}", model: "gpt-4o-mini-tts" },
      },
    },
  },
  channels: {
    feishu: {
      accounts: {
        english: {
          tts: {
            providers: {
              openai: { voice: "shimmer" },
            },
          },
        },
      },
    },
  },
}

Persona

persona 是一個穩定的語音身分,可跨提供者以確定性方式套用。它可以偏好某個提供者、定義與提供者無關的提示意圖,並帶有特定提供者的語音、模型、提示範本、種子與語音設定繫結。

最小 persona

{
  messages: {
    tts: {
      auto: "always",
      persona: "narrator",
      personas: {
        narrator: {
          label: "Narrator",
          provider: "elevenlabs",
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL", modelId: "eleven_multilingual_v2" },
          },
        },
      },
    },
  },
}

完整 persona(與提供者無關的提示)

{
  messages: {
    tts: {
      auto: "always",
      persona: "alfred",
      personas: {
        alfred: {
          label: "Alfred",
          description: "Dry, warm British butler narrator.",
          provider: "google",
          fallbackPolicy: "preserve-persona",
          prompt: {
            profile: "A brilliant British butler. Dry, witty, warm, charming, emotionally expressive, never generic.",
            scene: "A quiet late-night study. Close-mic narration for a trusted operator.",
            sampleContext: "The speaker is answering a private technical request with concise confidence and dry warmth.",
            style: "Refined, understated, lightly amused.",
            accent: "British English.",
            pacing: "Measured, with short dramatic pauses.",
            constraints: ["Do not read configuration values aloud.", "Do not explain the persona."],
          },
          providers: {
            google: {
              model: "gemini-3.1-flash-tts-preview",
              voiceName: "Algieba",
              promptTemplate: "audio-profile-v1",
            },
            openai: { model: "gpt-4o-mini-tts", voice: "cedar" },
            elevenlabs: {
              voiceId: "voice_id",
              modelId: "eleven_multilingual_v2",
              seed: 42,
              voiceSettings: {
                stability: 0.65,
                similarityBoost: 0.8,
                style: 0.25,
                useSpeakerBoost: true,
                speed: 0.95,
              },
            },
          },
        },
      },
    },
  },
}

Persona 解析

啟用中的 persona 會以確定性方式選取:
  1. /tts persona <id> 本機偏好設定,如果已設定。
  2. messages.tts.persona,如果已設定。
  3. 無 persona。
提供者選擇會先採用明確設定:
  1. 直接覆寫(CLI、Gateway、Talk、允許的 TTS 指令)。
  2. /tts provider <id> 本機偏好設定。
  3. 啟用中 persona 的 provider
  4. messages.tts.provider
  5. 登錄檔自動選取。
對於每次提供者嘗試,OpenClaw 會依此順序合併設定:
  1. messages.tts.providers.<id>
  2. messages.tts.personas.<persona>.providers.<id>
  3. 可信任的請求覆寫
  4. 允許的模型輸出 TTS 指令覆寫

提供者如何使用 persona 提示

Persona 提示欄位(profilescenesampleContextstyleaccentpacingconstraints)是與提供者無關的。每個提供者會自行決定如何使用它們:
只有在有效的 Google 提供者設定設為 promptTemplate: "audio-profile-v1"personaPrompt 時,才會將 persona 提示欄位包裝在 Gemini TTS 提示結構中。較舊的 audioProfilespeakerName 欄位仍會作為 Google 特定提示文字前置加入。[[tts:text]] 區塊中的內嵌音訊標籤,例如 [whispers][laughs],會保留在 Gemini 逐字稿中;OpenClaw 不會產生這些標籤。
只有在未設定明確的 OpenAI instructions 時,才會將 persona 提示欄位對應到請求的 instructions 欄位。明確的 instructions 一律優先。
只會使用 personas.<id>.providers.<provider> 底下特定提供者的 persona 繫結。除非提供者實作自己的 persona 提示對應,否則會忽略 persona 提示欄位。

備援政策

fallbackPolicy 會控制當 persona 對嘗試的提供者沒有繫結時的行為:
政策行為
preserve-persona預設。 與提供者無關的提示欄位會維持可用;提供者可以使用它們,也可以忽略它們。
provider-defaults該次嘗試的提示準備會省略 persona;提供者會使用其中性預設值,同時繼續備援至其他提供者。
failreasonCode: "not_configured"personaBinding: "missing" 略過該提供者嘗試。仍會嘗試備援提供者。
只有在每個嘗試的提供者都被略過或失敗時,整個 TTS 請求才會失敗。

模型驅動指令

預設情況下,助理可以輸出 [[tts:...]] 指令,針對單一回覆覆寫語音、模型或速度,也可以加上一個選用的 [[tts:text]]...[[/tts:text]] 區塊,用於只應出現在音訊中的表現提示:
Here you go.

[[tts:voiceId=pMsXgVXv3BLzUgSXRplE model=eleven_v3 speed=1.1]]
[[tts:text]](laughs) Read the song once more.[[/tts:text]]
messages.tts.auto"tagged" 時,必須有指令才會觸發音訊。串流區塊交付會在頻道看到文字前,從可見文字中移除指令,即使指令拆分在相鄰區塊中也一樣。 除非 modelOverrides.allowProvider: true,否則會忽略 provider=...。當回覆宣告 provider=... 時,該指令中的其他鍵只會由該提供者解析;不支援的鍵會被移除,並回報為 TTS 指令警告。 可用的指令鍵:
  • provider(已註冊的提供者 ID;需要 allowProvider: true
  • voice / voiceName / voice_name / google_voice / voiceId
  • model / google_model
  • stability, similarityBoost, style, speed, useSpeakerBoost
  • vol / volume(MiniMax 音量,0–10)
  • pitch(MiniMax 整數音高,−12 至 12;小數值會被截斷)
  • emotion(Volcengine 情緒標籤)
  • applyTextNormalization (auto|on|off)
  • languageCode(ISO 639-1)
  • seed
完全停用模型覆寫:
{ messages: { tts: { modelOverrides: { enabled: false } } } }
允許切換提供者,同時保持其他調整項目可設定:
{ messages: { tts: { modelOverrides: { enabled: true, allowProvider: true, allowSeed: false } } } }

斜線命令

單一命令 /tts。在 Discord 上,OpenClaw 也會註冊 /voice,因為 /tts 是 Discord 內建命令 — 文字 /tts ... 仍可運作。
/tts off | on | status
/tts chat on | off | default
/tts latest
/tts provider <id>
/tts persona <id> | off
/tts limit <chars>
/tts summary off
/tts audio <text>
命令需要授權的傳送者(套用允許清單/擁有者規則),且必須啟用 commands.text 或原生命令註冊。
行為備註:
  • /tts on 會將本機 TTS 偏好設定寫入 always/tts off 會將其寫入 off
  • /tts chat on|off|default 會為目前聊天寫入工作階段範圍的自動 TTS 覆寫。
  • /tts persona <id> 會寫入本機 persona 偏好設定;/tts persona off 會清除它。
  • /tts latest 會從目前工作階段逐字稿讀取最新的助理回覆,並將其作為音訊傳送一次。它只會在工作階段項目上儲存該回覆的雜湊,以抑制重複語音傳送。
  • /tts audio 會產生一次性音訊回覆(不會切換開啟 TTS)。
  • limitsummary 會儲存在本機偏好設定中,而不是主要設定。
  • /tts status 會包含最新嘗試的備援診斷 — Fallback: <primary> -> <used>Attempts: ...,以及每次嘗試的詳細資料(provider:outcome(reasonCode) latency)。
  • /status 會在 TTS 啟用時,顯示啟用中的 TTS 模式,以及已設定的提供者、模型、語音和已清理的自訂端點中繼資料。

個別使用者偏好設定

斜線命令會將本機覆寫寫入 prefsPath。預設為 ~/.openclaw/settings/tts.json;可使用 OPENCLAW_TTS_PREFS 環境變數或 messages.tts.prefsPath 覆寫。
儲存欄位效果
auto本機自動 TTS 覆寫(alwaysoff、…)
provider本機主要提供者覆寫
persona本機 persona 覆寫
maxLength摘要閾值(預設 1500 字元)
summarize摘要開關(預設 true
這些會覆寫來自 messages.tts 加上該主機啟用中 agents.list[].tts 區塊的有效設定。

輸出格式(固定)

TTS 語音交付由頻道能力驅動。頻道 Plugin 會公告語音風格 TTS 是否應要求提供者提供原生 voice-note 目標,或保留一般 audio-file 合成,並只將相容輸出標記為可用於語音交付。
  • 支援語音備註的通道:語音備註回覆優先使用 Opus(ElevenLabs 的 opus_48000_64,OpenAI 的 opus)。
    • 48kHz / 64kbps 是語音訊息的良好折衷。
  • Feishu / WhatsApp:當語音備註回覆產生為 MP3/WebM/WAV/M4A 或其他可能的音訊檔時,通道 Plugin 會先使用 ffmpeg 將其轉碼為 48kHz Ogg/Opus,再傳送原生語音訊息。WhatsApp 會透過 Baileys audio 酬載傳送 結果,並使用 ptt: trueaudio/ogg; codecs=opus。如果轉換失敗,Feishu 會收到原始 檔案作為附件;WhatsApp 傳送會失敗,而不是發布不相容的 PTT 酬載。
  • BlueBubbles:會讓供應商合成維持在一般音訊檔路徑;MP3 與 CAF 輸出會被標記為用於 iMessage 語音備忘錄傳遞。
  • 其他通道:MP3(ElevenLabs 的 mp3_44100_128,OpenAI 的 mp3)。
    • 44.1kHz / 128kbps 是語音清晰度的預設平衡。
  • MiniMax:一般音訊附件使用 MP3(speech-2.8-hd 模型,32kHz 取樣率)。對於通道宣告的語音備註目標,當通道宣告支援轉碼時,OpenClaw 會在傳遞前使用 ffmpeg 將 MiniMax MP3 轉碼為 48kHz Opus。
  • Xiaomi MiMo:預設使用 MP3,或在設定時使用 WAV。對於通道宣告的語音備註目標,當通道宣告支援轉碼時,OpenClaw 會在傳遞前使用 ffmpeg 將 Xiaomi 輸出轉碼為 48kHz Opus。
  • 本機 CLI:使用已設定的 outputFormat。語音備註目標會 轉換為 Ogg/Opus,電話語音輸出會使用 ffmpeg 轉換為原始 16 kHz 單聲道 PCM。
  • Google Gemini:Gemini API TTS 會傳回原始 24kHz PCM。OpenClaw 會將其包裝為 WAV 以用於音訊附件,將其轉碼為 48kHz Opus 以用於語音備註目標,並直接傳回 PCM 以用於 Talk/電話語音。
  • Gradium:音訊附件使用 WAV,語音備註目標使用 Opus,電話語音使用 8 kHz 的 ulaw_8000
  • Inworld:一般音訊附件使用 MP3,語音備註目標使用原生 OGG_OPUS,Talk/電話語音使用 22050 Hz 的原始 PCM
  • xAI:預設使用 MP3;responseFormat 可以是 mp3wavpcmmulawalaw。OpenClaw 使用 xAI 的批次 REST TTS 端點並傳回完整的音訊附件;此供應商路徑不使用 xAI 的串流 TTS WebSocket。此路徑不支援原生 Opus 語音備註格式。
  • Microsoft:使用 microsoft.outputFormat(預設為 audio-24khz-48kbitrate-mono-mp3)。
    • 內建傳輸接受 outputFormat,但服務不一定提供所有格式。
    • 輸出格式值遵循 Microsoft Speech 輸出格式(包括 Ogg/WebM Opus)。
    • Telegram sendVoice 接受 OGG/MP3/M4A;如果需要 保證使用 Opus 語音訊息,請使用 OpenAI/ElevenLabs。
    • 如果設定的 Microsoft 輸出格式失敗,OpenClaw 會以 MP3 重試。
OpenAI/ElevenLabs 輸出格式會依通道固定(見上方)。

Auto-TTS 行為

啟用 messages.tts.auto 時,OpenClaw 會:
  • 如果回覆已包含媒體或 MEDIA: 指令,則略過 TTS。
  • 略過非常短的回覆(少於 10 個字元)。
  • 在啟用摘要時,使用 summaryModel(或 agents.defaults.model.primary)摘要長回覆。
  • 將產生的音訊附加到回覆。
  • mode: "final" 中,對串流最終回覆,文字串流完成後仍會傳送僅音訊的 TTS; 產生的媒體會經過與一般回覆附件相同的 通道媒體標準化處理。
如果回覆超過 maxLength 且摘要關閉(或摘要模型沒有 API 金鑰), 音訊會被略過,並傳送一般文字回覆。
Reply -> TTS enabled?
  no  -> send text
  yes -> has media / MEDIA: / short?
          yes -> send text
          no  -> length > limit?
                   no  -> TTS -> attach audio
                   yes -> summary enabled?
                            no  -> send text
                            yes -> summarize -> TTS -> attach audio

依通道區分的輸出格式

目標格式
Feishu / Matrix / Telegram / WhatsApp語音留言回覆偏好使用 Opus(ElevenLabs 的 opus_48000_64,OpenAI 的 opus)。48 kHz / 64 kbps 在清晰度與大小之間取得平衡。
其他頻道MP3(ElevenLabs 的 mp3_44100_128,OpenAI 的 mp3)。44.1 kHz / 128 kbps 是語音預設值。
Talk / 電話語音提供者原生 PCM(Inworld 22050 Hz、Google 24 kHz),或使用 Gradium 的 ulaw_8000 作為電話語音。
各提供者注意事項:
  • Feishu / WhatsApp 轉碼: 當語音留言回覆以 MP3/WebM/WAV/M4A 傳入時,頻道 Plugin 會使用 ffmpeg 轉碼為 48 kHz Ogg/Opus。WhatsApp 透過 Baileys 以 ptt: trueaudio/ogg; codecs=opus 傳送。如果轉換失敗:Feishu 會退回附加原始檔案;WhatsApp 則會傳送失敗,而不是發布不相容的 PTT 酬載。
  • MiniMax / Xiaomi MiMo: 預設 MP3(MiniMax speech-2.8-hd 為 32 kHz);透過 ffmpeg 轉碼為 48 kHz Opus 供語音留言目標使用。
  • 本機 CLI: 使用設定的 outputFormat。語音留言目標會轉換為 Ogg/Opus,電話語音輸出則轉換為原始 16 kHz 單聲道 PCM。
  • Google Gemini: 傳回原始 24 kHz PCM。OpenClaw 會包裝為 WAV 供附件使用、轉碼為 48 kHz Opus 供語音留言目標使用,並直接傳回 PCM 供 Talk/電話語音使用。
  • Inworld: MP3 附件、原生 OGG_OPUS 語音留言、供 Talk/電話語音使用的原始 PCM 22050 Hz。
  • xAI: 預設為 MP3;responseFormat 可為 mp3|wav|pcm|mulaw|alaw。使用 xAI 的批次 REST 端點 — 使用串流 WebSocket TTS。不支援原生 Opus 語音留言格式。
  • Microsoft: 使用 microsoft.outputFormat(預設 audio-24khz-48kbitrate-mono-mp3)。Telegram sendVoice 接受 OGG/MP3/M4A;如果你需要保證 Opus 語音訊息,請使用 OpenAI/ElevenLabs。如果設定的 Microsoft 格式失敗,OpenClaw 會以 MP3 重試。
OpenAI 和 ElevenLabs 輸出格式會依上述各頻道固定。

欄位參考

auto
"off" | "always" | "inbound" | "tagged"
自動 TTS 模式。inbound 只會在收到傳入語音訊息後傳送音訊;tagged 只會在回覆包含 [[tts:...]] 指令或 [[tts:text]] 區塊時傳送音訊。
enabled
boolean
已棄用
舊版切換開關。openclaw doctor --fix 會將此遷移到 auto
mode
"final" | "all"
預設值:"final"
"all" 除了最終回覆外,也包含工具/區塊回覆。
provider
string
語音提供者 ID。未設定時,OpenClaw 會使用登錄檔自動選取順序中的第一個已設定提供者。舊版 provider: "edge" 會由 openclaw doctor --fix 重寫為 "microsoft"
persona
string
來自 personas 的作用中 persona ID。會正規化為小寫。
personas.<id>
object
穩定的口語身分。欄位:labeldescriptionproviderfallbackPolicypromptproviders.<provider>。請參閱 Personas
summaryModel
string
自動摘要使用的低成本模型;預設為 agents.defaults.model.primary。接受 provider/model 或已設定的模型別名。
modelOverrides
object
允許模型發出 TTS 指令。enabled 預設為 trueallowProvider 預設為 false
providers.<id>
object
由提供者擁有的設定,依語音提供者 ID 作為鍵。舊版直接區塊(messages.tts.openai.elevenlabs.microsoft.edge)會由 openclaw doctor --fix 重寫;只提交 messages.tts.providers.<id>
maxTextLength
number
TTS 輸入字元數硬性上限。超過時 /tts audio 會失敗。
timeoutMs
number
請求逾時時間,以毫秒為單位。
prefsPath
string
覆寫本機偏好設定 JSON 路徑(提供者/限制/摘要)。預設 ~/.openclaw/settings/tts.json
apiKey
string
環境變數:AZURE_SPEECH_KEYAZURE_SPEECH_API_KEYSPEECH_KEY
region
string
Azure Speech 區域(例如 eastus)。環境變數:AZURE_SPEECH_REGIONSPEECH_REGION
endpoint
string
選用的 Azure Speech 端點覆寫(別名 baseUrl)。
voice
string
Azure 語音 ShortName。預設 en-US-JennyNeural
lang
string
SSML 語言代碼。預設 en-US
outputFormat
string
標準音訊的 Azure X-Microsoft-OutputFormat。預設 audio-24khz-48kbitrate-mono-mp3
voiceNoteOutputFormat
string
語音留言輸出的 Azure X-Microsoft-OutputFormat。預設 ogg-24khz-16bit-mono-opus
apiKey
string
退回使用 ELEVENLABS_API_KEYXI_API_KEY
model
string
模型 ID(例如 eleven_multilingual_v2eleven_v3)。
voiceId
string
ElevenLabs 語音 ID。
voiceSettings
object
stabilitysimilarityBooststyle(各為 0..1)、useSpeakerBoosttrue|false)、speed0.5..2.01.0 = 正常)。
applyTextNormalization
"auto" | "on" | "off"
文字正規化模式。
languageCode
string
2 個字母的 ISO 639-1(例如 ende)。
seed
number
整數 0..4294967295,用於盡力提供確定性。
baseUrl
string
覆寫 ElevenLabs API 基底 URL。
apiKey
string
退回使用 GEMINI_API_KEY / GOOGLE_API_KEY。如果省略,TTS 可在退回環境變數前重用 models.providers.google.apiKey
model
string
Gemini TTS 模型。預設 gemini-3.1-flash-tts-preview
voiceName
string
Gemini 預建語音名稱。預設 Kore。別名:voice
audioProfile
string
在朗讀文字前加上的自然語言風格提示。
speakerName
string
當你的提示使用具名說話者時,在朗讀文字前加上的選用說話者標籤。
promptTemplate
"audio-profile-v1"
設為 audio-profile-v1,以確定性的 Gemini TTS 提示結構包裝作用中 persona 提示欄位。
personaPrompt
string
附加到範本 Director’s Notes 的 Google 專用額外 persona 提示文字。
baseUrl
string
只接受 https://generativelanguage.googleapis.com
apiKey
string
Env: GRADIUM_API_KEY
baseUrl
string
預設 https://api.gradium.ai
voiceId
string
預設 Emma (YTpq7expH9539ERJ)。
apiKey
string
Env: INWORLD_API_KEY
baseUrl
string
預設 https://api.inworld.ai
modelId
string
預設 inworld-tts-1.5-max。另有:inworld-tts-1.5-miniinworld-tts-1-maxinworld-tts-1
voiceId
string
預設 Sarah
temperature
number
取樣溫度 0..2
command
string
CLI TTS 的本機可執行檔或命令字串。
args
string[]
命令引數。支援 {{Text}}{{OutputPath}}{{OutputDir}}{{OutputBase}} 佔位符。
outputFormat
"mp3" | "opus" | "wav"
預期的 CLI 輸出格式。音訊附件預設為 mp3
timeoutMs
number
命令逾時,以毫秒為單位。預設 120000
cwd
string
選用的命令工作目錄。
env
Record<string, string>
命令的選用環境覆寫。
enabled
boolean
預設值:"true"
允許使用 Microsoft 語音。
voice
string
Microsoft 神經語音名稱(例如 en-US-MichelleNeural)。
lang
string
語言代碼(例如 en-US)。
outputFormat
string
Microsoft 輸出格式。預設 audio-24khz-48kbitrate-mono-mp3。內建的 Edge 支援傳輸不支援所有格式。
rate / pitch / volume
string
百分比字串(例如 +10%-5%)。
saveSubtitles
boolean
將 JSON 字幕寫入音訊檔旁邊。
proxy
string
Microsoft 語音請求的 Proxy URL。
timeoutMs
number
請求逾時覆寫(毫秒)。
edge.*
object
已棄用
舊版別名。執行 openclaw doctor --fix,將持久化設定重寫為 providers.microsoft
apiKey
string
回退至 MINIMAX_API_KEY。透過 MINIMAX_OAUTH_TOKENMINIMAX_CODE_PLAN_KEYMINIMAX_CODING_API_KEY 使用 Token Plan 驗證。
baseUrl
string
預設 https://api.minimax.io。Env: MINIMAX_API_HOST
model
string
預設 speech-2.8-hd。Env: MINIMAX_TTS_MODEL
voiceId
string
預設 English_expressive_narrator。Env: MINIMAX_TTS_VOICE_ID
speed
number
0.5..2.0。預設 1.0
vol
number
(0, 10]。預設 1.0
pitch
number
整數 -12..12。預設 0。小數值會在請求前截斷。
apiKey
string
回退至 OPENAI_API_KEY
model
string
OpenAI TTS 模型 ID(例如 gpt-4o-mini-tts)。
voice
string
語音名稱(例如 alloycedar)。
instructions
string
明確的 OpenAI instructions 欄位。設定後,persona prompt 欄位不會自動對應。
baseUrl
string
覆寫 OpenAI TTS endpoint。解析順序:設定 → OPENAI_TTS_BASE_URLhttps://api.openai.com/v1。非預設值會被視為 OpenAI 相容的 TTS endpoint,因此可接受自訂模型與語音名稱。
apiKey
string
Env: OPENROUTER_API_KEY。可重用 models.providers.openrouter.apiKey
baseUrl
string
預設 https://openrouter.ai/api/v1。舊版 https://openrouter.ai/v1 會被正規化。
model
string
預設 hexgrad/kokoro-82m。別名:modelId
voice
string
預設 af_alloy。別名:voiceId
responseFormat
"mp3" | "pcm"
預設 mp3
speed
number
提供者原生速度覆寫。
apiKey
string
Env: VOLCENGINE_TTS_API_KEYBYTEPLUS_SEED_SPEECH_API_KEY
resourceId
string
預設 seed-tts-1.0。Env: VOLCENGINE_TTS_RESOURCE_ID。當你的專案擁有 TTS 2.0 權益時,請使用 seed-tts-2.0
appKey
string
App key header。預設 aGjiRDfUWi。Env: VOLCENGINE_TTS_APP_KEY
baseUrl
string
覆寫 Seed Speech TTS HTTP endpoint。Env: VOLCENGINE_TTS_BASE_URL
voice
string
語音類型。預設 en_female_anna_mars_bigtts。Env: VOLCENGINE_TTS_VOICE
speedRatio
number
提供者原生速度比例。
emotion
string
提供者原生情緒標籤。
appId / token / cluster
string
已棄用
舊版 Volcengine Speech Console 欄位。Env: VOLCENGINE_TTS_APPIDVOLCENGINE_TTS_TOKENVOLCENGINE_TTS_CLUSTER(預設 volcano_tts)。
apiKey
string
Env: XAI_API_KEY
baseUrl
string
預設 https://api.x.ai/v1。Env: XAI_BASE_URL
voiceId
string
預設 eve。即時語音:araeveleorexsaluna
language
string
BCP-47 語言代碼或 auto。預設 en
responseFormat
"mp3" | "wav" | "pcm" | "mulaw" | "alaw"
預設 mp3
speed
number
提供者原生速度覆寫。
apiKey
string
Env: XIAOMI_API_KEY
baseUrl
string
預設 https://api.xiaomimimo.com/v1。Env: XIAOMI_BASE_URL
model
string
預設 mimo-v2.5-tts。Env: XIAOMI_TTS_MODEL。也支援 mimo-v2-tts
voice
string
預設 mimo_default。Env: XIAOMI_TTS_VOICE
format
"mp3" | "wav"
預設 mp3。Env: XIAOMI_TTS_FORMAT
style
string
選用的自然語言風格指令,作為使用者訊息傳送;不會朗讀。

Agent 工具

tts 工具會將文字轉成語音,並傳回音訊附件用於回覆傳遞。在 Feishu、Matrix、Telegram 和 WhatsApp 上,音訊會以語音訊息傳遞,而不是檔案附件。當 ffmpeg 可用時,Feishu 和 WhatsApp 可在此路徑上轉碼非 Opus 的 TTS 輸出。 WhatsApp 會透過 Baileys 將音訊作為 PTT 語音備註傳送(audio 並帶有 ptt: true),並且會將可見文字與 PTT 音訊分開傳送,因為用戶端不一定能一致地在語音備註上呈現字幕。 此工具接受選用的 channeltimeoutMs 欄位;timeoutMs 是每次呼叫的提供者請求逾時,以毫秒為單位。

Gateway RPC

方法用途
tts.status讀取目前 TTS 狀態與上次嘗試。
tts.enable將本機自動偏好設定為 always
tts.disable將本機自動偏好設定為 off
tts.convert一次性文字 → 音訊。
tts.setProvider設定本機提供者偏好。
tts.setPersona設定本機 persona 偏好。
tts.providers列出已設定的提供者與狀態。

服務連結

相關