Langsung ke konten utama

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw dapat mengonversi balasan keluar menjadi audio di 14 penyedia ucapan dan mengirim pesan suara native di Feishu, Matrix, Telegram, dan WhatsApp, lampiran audio di tempat lain, serta stream PCM/Ulaw untuk telepon dan Talk. TTS adalah separuh keluaran ucapan dari mode stt-tts Talk. Sesi Talk realtime native penyedia menyintesis ucapan di dalam penyedia realtime, bukan memanggil jalur TTS ini, sementara sesi transcription tidak menyintesis respons suara asisten.

Mulai cepat

1

Pilih penyedia

OpenAI dan ElevenLabs adalah opsi hosted yang paling andal. Microsoft dan Local CLI berfungsi tanpa kunci API. Lihat matriks penyedia untuk daftar lengkapnya.
2

Atur kunci API

Ekspor variabel env untuk penyedia Anda (misalnya OPENAI_API_KEY, ELEVENLABS_API_KEY). Microsoft dan Local CLI tidak memerlukan kunci.
3

Aktifkan di konfigurasi

Atur messages.tts.auto: "always" dan messages.tts.provider:
{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
    },
  },
}
4

Coba di chat

/tts status menampilkan status saat ini. /tts audio Hello from OpenClaw mengirim balasan audio sekali pakai.
Auto-TTS nonaktif secara default. Ketika messages.tts.provider belum diatur, OpenClaw memilih penyedia pertama yang dikonfigurasi dalam urutan pilih otomatis registry. Tool agen tts bawaan hanya untuk niat eksplisit: chat biasa tetap berupa teks kecuali pengguna meminta audio, menggunakan /tts, atau mengaktifkan ucapan Auto-TTS/direktif.

Penyedia yang didukung

PenyediaAuthCatatan
Azure SpeechAZURE_SPEECH_KEY + AZURE_SPEECH_REGION (juga AZURE_SPEECH_API_KEY, SPEECH_KEY, SPEECH_REGION)Keluaran catatan suara Ogg/Opus native dan telepon.
DeepInfraDEEPINFRA_API_KEYTTS kompatibel OpenAI. Default ke hexgrad/Kokoro-82M.
ElevenLabsELEVENLABS_API_KEY atau XI_API_KEYKloning suara, multibahasa, deterministik melalui seed; di-stream untuk pemutaran suara Discord.
Google GeminiGEMINI_API_KEY atau GOOGLE_API_KEYTTS batch Gemini API; sadar persona melalui promptTemplate: "audio-profile-v1".
GradiumGRADIUM_API_KEYKeluaran catatan suara dan telepon.
InworldINWORLD_API_KEYAPI TTS streaming. Catatan suara Opus native dan telepon PCM.
Local CLItidak adaMenjalankan perintah TTS lokal yang dikonfigurasi.
Microsofttidak adaTTS neural Edge publik melalui node-edge-tts. Upaya terbaik, tanpa SLA.
MiniMaxMINIMAX_API_KEY (atau Paket Token: MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY, MINIMAX_CODING_API_KEY)API T2A v2. Default ke speech-2.8-hd.
OpenAIOPENAI_API_KEYJuga digunakan untuk ringkasan otomatis; mendukung persona instructions.
OpenRouterOPENROUTER_API_KEY (dapat memakai ulang models.providers.openrouter.apiKey)Model default hexgrad/kokoro-82m.
VolcengineVOLCENGINE_TTS_API_KEY atau BYTEPLUS_SEED_SPEECH_API_KEY (AppID/token lama: VOLCENGINE_TTS_APPID/_TOKEN)API HTTP BytePlus Seed Speech.
VydraVYDRA_API_KEYPenyedia gambar, video, dan ucapan bersama.
xAIXAI_API_KEYTTS batch xAI. Catatan suara Opus native tidak didukung.
Xiaomi MiMoXIAOMI_API_KEYTTS MiMo melalui completion chat Xiaomi.
Jika beberapa penyedia dikonfigurasi, penyedia yang dipilih digunakan terlebih dahulu dan yang lain menjadi opsi fallback. Ringkasan otomatis menggunakan summaryModel (atau agents.defaults.model.primary), sehingga penyedia tersebut juga harus diautentikasi jika Anda tetap mengaktifkan ringkasan.
Penyedia Microsoft bawaan menggunakan layanan TTS neural online Microsoft Edge melalui node-edge-tts. Ini adalah layanan web publik tanpa SLA atau kuota yang dipublikasikan — anggap sebagai upaya terbaik. Id penyedia lama edge dinormalisasi menjadi microsoft dan openclaw doctor --fix menulis ulang konfigurasi persisten; konfigurasi baru harus selalu menggunakan microsoft.

Konfigurasi

Konfigurasi TTS berada di bawah messages.tts dalam ~/.openclaw/openclaw.json. Pilih preset dan sesuaikan blok penyedia:
{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          apiKey: "${AZURE_SPEECH_KEY}",
          region: "eastus",
          voice: "en-US-JennyNeural",
          lang: "en-US",
          outputFormat: "audio-24khz-48kbitrate-mono-mp3",
          voiceNoteOutputFormat: "ogg-24khz-16bit-mono-opus",
        },
      },
    },
  },
}

Penggantian suara per agen

Gunakan agents.list[].tts ketika satu agen harus berbicara dengan penyedia, suara, model, persona, atau mode Auto-TTS yang berbeda. Blok agen melakukan deep merge di atas messages.tts, sehingga kredensial penyedia dapat tetap berada di konfigurasi penyedia global:
{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
      providers: {
        elevenlabs: { apiKey: "${ELEVENLABS_API_KEY}", model: "eleven_multilingual_v2" },
      },
    },
  },
  agents: {
    list: [
      {
        id: "reader",
        tts: {
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL" },
          },
        },
      },
    ],
  },
}
Untuk menetapkan persona per agen, atur agents.list[].tts.persona bersama konfigurasi provider — ini menimpa messages.tts.persona global hanya untuk agen tersebut. Urutan prioritas untuk balasan otomatis, /tts audio, /tts status, dan tool agen tts:
  1. messages.tts
  2. agents.list[].tts aktif
  3. override channel, ketika channel mendukung channels.<channel>.tts
  4. override akun, ketika channel meneruskan channels.<channel>.accounts.<id>.tts
  5. preferensi /tts lokal untuk host ini
  6. direktif inline [[tts:...]] ketika override model diaktifkan
Override channel dan akun menggunakan bentuk yang sama seperti messages.tts dan melakukan deep-merge di atas lapisan sebelumnya, sehingga kredensial provider bersama dapat tetap berada di messages.tts sementara channel atau akun bot hanya mengubah suara, model, persona, atau mode otomatis:
{
  messages: {
    tts: {
      provider: "openai",
      providers: {
        openai: { apiKey: "${OPENAI_API_KEY}", model: "gpt-4o-mini-tts" },
      },
    },
  },
  channels: {
    feishu: {
      accounts: {
        english: {
          tts: {
            providers: {
              openai: { voice: "shimmer" },
            },
          },
        },
      },
    },
  },
}

Persona

Persona adalah identitas lisan stabil yang dapat diterapkan secara deterministik di berbagai provider. Persona dapat mengutamakan satu provider, mendefinisikan intensi prompt yang netral terhadap provider, dan membawa binding khusus provider untuk suara, model, template prompt, seed, dan pengaturan suara.

Persona minimal

{
  messages: {
    tts: {
      auto: "always",
      persona: "narrator",
      personas: {
        narrator: {
          label: "Narrator",
          provider: "elevenlabs",
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL", modelId: "eleven_multilingual_v2" },
          },
        },
      },
    },
  },
}

Persona lengkap (prompt netral provider)

{
  messages: {
    tts: {
      auto: "always",
      persona: "alfred",
      personas: {
        alfred: {
          label: "Alfred",
          description: "Dry, warm British butler narrator.",
          provider: "google",
          fallbackPolicy: "preserve-persona",
          prompt: {
            profile: "A brilliant British butler. Dry, witty, warm, charming, emotionally expressive, never generic.",
            scene: "A quiet late-night study. Close-mic narration for a trusted operator.",
            sampleContext: "The speaker is answering a private technical request with concise confidence and dry warmth.",
            style: "Refined, understated, lightly amused.",
            accent: "British English.",
            pacing: "Measured, with short dramatic pauses.",
            constraints: ["Do not read configuration values aloud.", "Do not explain the persona."],
          },
          providers: {
            google: {
              model: "gemini-3.1-flash-tts-preview",
              voiceName: "Algieba",
              promptTemplate: "audio-profile-v1",
            },
            openai: { model: "gpt-4o-mini-tts", voice: "cedar" },
            elevenlabs: {
              voiceId: "voice_id",
              modelId: "eleven_multilingual_v2",
              seed: 42,
              voiceSettings: {
                stability: 0.65,
                similarityBoost: 0.8,
                style: 0.25,
                useSpeakerBoost: true,
                speed: 0.95,
              },
            },
          },
        },
      },
    },
  },
}

Resolusi persona

Persona aktif dipilih secara deterministik:
  1. preferensi lokal /tts persona <id>, jika diatur.
  2. messages.tts.persona, jika diatur.
  3. Tanpa persona.
Pemilihan provider berjalan dengan prioritas eksplisit:
  1. Override langsung (CLI, Gateway, Talk, direktif TTS yang diizinkan).
  2. preferensi lokal /tts provider <id>.
  3. provider milik persona aktif.
  4. messages.tts.provider.
  5. Pemilihan otomatis registry.
Untuk setiap upaya provider, OpenClaw menggabungkan konfigurasi dalam urutan ini:
  1. messages.tts.providers.<id>
  2. messages.tts.personas.<persona>.providers.<id>
  3. Override permintaan tepercaya
  4. Override direktif TTS yang dipancarkan model dan diizinkan

Cara provider menggunakan prompt persona

Field prompt persona (profile, scene, sampleContext, style, accent, pacing, constraints) bersifat netral terhadap provider. Setiap provider memutuskan cara menggunakannya:
Membungkus field prompt persona dalam struktur prompt TTS Gemini hanya ketika konfigurasi provider Google efektif mengatur promptTemplate: "audio-profile-v1" atau personaPrompt. Field lama audioProfile dan speakerName masih ditambahkan di awal sebagai teks prompt khusus Google. Tag audio inline seperti [whispers] atau [laughs] di dalam blok [[tts:text]] dipertahankan di dalam transkrip Gemini; OpenClaw tidak membuat tag ini.
Memetakan field prompt persona ke field permintaan instructions hanya ketika tidak ada instructions OpenAI eksplisit yang dikonfigurasi. instructions eksplisit selalu menang.
Hanya menggunakan binding persona khusus provider di bawah personas.<id>.providers.<provider>. Field prompt persona diabaikan kecuali provider menerapkan pemetaan prompt-persona sendiri.

Kebijakan fallback

fallbackPolicy mengontrol perilaku ketika persona tidak memiliki binding untuk provider yang dicoba:
KebijakanPerilaku
preserve-personaDefault. Field prompt yang netral terhadap provider tetap tersedia; provider dapat menggunakannya atau mengabaikannya.
provider-defaultsPersona dihilangkan dari persiapan prompt untuk upaya tersebut; provider menggunakan default netralnya sementara fallback ke provider lain berlanjut.
failLewati upaya provider tersebut dengan reasonCode: "not_configured" dan personaBinding: "missing". Provider fallback tetap dicoba.
Seluruh permintaan TTS hanya gagal ketika setiap provider yang dicoba dilewati atau gagal. Pemilihan provider sesi Talk dibatasi pada sesi. Klien Talk sebaiknya memilih id provider, id model, id suara, dan locale dari talk.catalog dan meneruskannya melalui sesi Talk atau permintaan handoff. Membuka sesi suara sebaiknya tidak mengubah messages.tts atau default provider Talk global.

Direktif berbasis model

Secara default, asisten dapat memancarkan direktif [[tts:...]] untuk menimpa suara, model, atau kecepatan untuk satu balasan, plus blok opsional [[tts:text]]...[[/tts:text]] untuk isyarat ekspresif yang seharusnya muncul hanya dalam audio:
Here you go.

[[tts:voiceId=pMsXgVXv3BLzUgSXRplE model=eleven_v3 speed=1.1]]
[[tts:text]](laughs) Read the song once more.[[/tts:text]]
Ketika messages.tts.auto adalah "tagged", direktif diperlukan untuk memicu audio. Pengiriman blok streaming menghapus direktif dari teks yang terlihat sebelum channel melihatnya, bahkan ketika terpisah di blok yang bersebelahan. provider=... diabaikan kecuali modelOverrides.allowProvider: true. Ketika sebuah balasan mendeklarasikan provider=..., key lain dalam direktif tersebut diurai hanya oleh provider tersebut; key yang tidak didukung dihapus dan dilaporkan sebagai peringatan direktif TTS. Key direktif yang tersedia:
  • provider (id provider terdaftar; memerlukan allowProvider: true)
  • voice / voiceName / voice_name / google_voice / voiceId
  • model / google_model
  • stability, similarityBoost, style, speed, useSpeakerBoost
  • vol / volume (volume MiniMax, 0–10)
  • pitch (pitch bilangan bulat MiniMax, −12 hingga 12; nilai pecahan dipotong)
  • emotion (tag emosi Volcengine)
  • applyTextNormalization (auto|on|off)
  • languageCode (ISO 639-1)
  • seed
Nonaktifkan override model sepenuhnya:
{ messages: { tts: { modelOverrides: { enabled: false } } } }
Izinkan pengalihan provider sambil tetap menjaga knob lain dapat dikonfigurasi:
{ messages: { tts: { modelOverrides: { enabled: true, allowProvider: true, allowSeed: false } } } }

Perintah slash

Satu perintah /tts. Di Discord, OpenClaw juga mendaftarkan /voice karena /tts adalah perintah bawaan Discord — teks /tts ... tetap berfungsi.
/tts off | on | status
/tts chat on | off | default
/tts latest
/tts provider <id>
/tts persona <id> | off
/tts limit <chars>
/tts summary off
/tts audio <text>
Perintah memerlukan pengirim yang berwenang (aturan allowlist/pemilik berlaku) dan antara commands.text atau pendaftaran perintah native harus diaktifkan.
Catatan perilaku:
  • /tts on menulis preferensi TTS lokal ke always; /tts off menulisnya ke off.
  • /tts chat on|off|default menulis override TTS otomatis yang dibatasi sesi untuk chat saat ini.
  • /tts persona <id> menulis preferensi persona lokal; /tts persona off menghapusnya.
  • /tts latest membaca balasan asisten terbaru dari transkrip sesi saat ini dan mengirimkannya sebagai audio satu kali. Perintah ini hanya menyimpan hash balasan tersebut pada entri sesi untuk menekan pengiriman suara duplikat.
  • /tts audio menghasilkan balasan audio sekali pakai (tidak mengaktifkan TTS).
  • limit dan summary disimpan di preferensi lokal, bukan konfigurasi utama.
  • /tts status menyertakan diagnostik fallback untuk upaya terbaru — Fallback: <primary> -> <used>, Attempts: ..., dan detail per upaya (provider:outcome(reasonCode) latency).
  • /status menampilkan mode TTS aktif plus provider, model, suara, dan metadata endpoint kustom yang disanitasi ketika TTS diaktifkan.

Preferensi per pengguna

Perintah slash menulis override lokal ke prefsPath. Default-nya adalah ~/.openclaw/settings/tts.json; timpa dengan variabel env OPENCLAW_TTS_PREFS atau messages.tts.prefsPath.
Field tersimpanEfek
autoOverride TTS otomatis lokal (always, off, …)
providerOverride provider utama lokal
personaOverride persona lokal
maxLengthAmbang ringkasan (default 1500 karakter)
summarizeToggle ringkasan (default true)
Ini menimpa konfigurasi efektif dari messages.tts plus blok agents.list[].tts aktif untuk host tersebut.

Format output (tetap)

Pengiriman suara TTS digerakkan oleh kapabilitas channel. Plugin channel mengiklankan apakah TTS bergaya suara harus meminta target voice-note native kepada provider atau mempertahankan sintesis audio-file normal dan hanya menandai output yang kompatibel untuk pengiriman suara.
  • Saluran yang mendukung catatan suara: balasan catatan suara lebih memilih Opus (opus_48000_64 dari ElevenLabs, opus dari OpenAI).
    • 48kHz / 64kbps adalah tradeoff yang baik untuk pesan suara.
  • Feishu / WhatsApp: ketika balasan catatan suara dibuat sebagai MP3/WebM/WAV/M4A atau file audio lain yang kemungkinan sesuai, Plugin saluran mentranskodenya ke 48kHz Ogg/Opus dengan ffmpeg sebelum mengirim pesan suara native. WhatsApp mengirim hasilnya melalui payload audio Baileys dengan ptt: true dan audio/ogg; codecs=opus. Jika konversi gagal, Feishu menerima file asli sebagai lampiran; pengiriman WhatsApp gagal alih-alih memposting payload PTT yang tidak kompatibel.
  • Saluran lain: MP3 (mp3_44100_128 dari ElevenLabs, mp3 dari OpenAI).
    • 44.1kHz / 128kbps adalah keseimbangan default untuk kejernihan ucapan.
  • MiniMax: MP3 (model speech-2.8-hd, laju sampel 32kHz) untuk lampiran audio normal. Untuk target catatan suara yang diiklankan saluran, OpenClaw mentranskode MP3 MiniMax ke Opus 48kHz dengan ffmpeg sebelum pengiriman ketika saluran mengiklankan transcoding.
  • Xiaomi MiMo: MP3 secara default, atau WAV ketika dikonfigurasi. Untuk target catatan suara yang diiklankan saluran, OpenClaw mentranskode output Xiaomi ke Opus 48kHz dengan ffmpeg sebelum pengiriman ketika saluran mengiklankan transcoding.
  • CLI Lokal: menggunakan outputFormat yang dikonfigurasi. Target catatan suara dikonversi ke Ogg/Opus dan output telepon dikonversi ke PCM mono mentah 16 kHz dengan ffmpeg.
  • Google Gemini: TTS Gemini API mengembalikan PCM mentah 24kHz. OpenClaw membungkusnya sebagai WAV untuk lampiran audio, mentranskodenya ke Opus 48kHz untuk target catatan suara, dan mengembalikan PCM langsung untuk Talk/telepon.
  • Gradium: WAV untuk lampiran audio, Opus untuk target catatan suara, dan ulaw_8000 pada 8 kHz untuk telepon.
  • Inworld: MP3 untuk lampiran audio normal, OGG_OPUS native untuk target catatan suara, dan PCM mentah pada 22050 Hz untuk Talk/telepon.
  • xAI: MP3 secara default; responseFormat dapat berupa mp3, wav, pcm, mulaw, atau alaw. OpenClaw menggunakan endpoint TTS REST batch xAI dan mengembalikan lampiran audio lengkap; WebSocket TTS streaming xAI tidak digunakan oleh jalur penyedia ini. Format catatan suara Opus native tidak didukung oleh jalur ini.
  • Microsoft: menggunakan microsoft.outputFormat (default audio-24khz-48kbitrate-mono-mp3).
    • Transport yang dibundel menerima outputFormat, tetapi tidak semua format tersedia dari layanan.
    • Nilai format output mengikuti format output Microsoft Speech (termasuk Ogg/WebM Opus).
    • Telegram sendVoice menerima OGG/MP3/M4A; gunakan OpenAI/ElevenLabs jika Anda memerlukan pesan suara Opus yang terjamin.
    • Jika format output Microsoft yang dikonfigurasi gagal, OpenClaw mencoba lagi dengan MP3.
Format output OpenAI/ElevenLabs bersifat tetap per saluran (lihat di atas).

Perilaku Auto-TTS

Ketika messages.tts.auto diaktifkan, OpenClaw:
  • Melewati TTS jika balasan sudah berisi media atau direktif MEDIA:.
  • Melewati balasan yang sangat pendek (di bawah 10 karakter).
  • Meringkas balasan panjang ketika ringkasan diaktifkan, menggunakan summaryModel (atau agents.defaults.model.primary).
  • Melampirkan audio yang dihasilkan ke balasan.
  • Dalam mode: "final", tetap mengirim TTS hanya-audio untuk balasan final yang di-streaming setelah stream teks selesai; media yang dihasilkan melalui normalisasi media saluran yang sama seperti lampiran balasan normal.
Jika balasan melebihi maxLength dan ringkasan nonaktif (atau tidak ada API key untuk model ringkasan), audio dilewati dan balasan teks normal dikirim.
Reply -> TTS enabled?
  no  -> send text
  yes -> has media / MEDIA: / short?
          yes -> send text
          no  -> length > limit?
                   no  -> TTS -> attach audio
                   yes -> summary enabled?
                            no  -> send text
                            yes -> summarize -> TTS -> attach audio

Format output berdasarkan saluran

TargetFormat
Feishu / Matrix / Telegram / WhatsAppBalasan catatan suara lebih memilih Opus (opus_48000_64 dari ElevenLabs, opus dari OpenAI). 48 kHz / 64 kbps menyeimbangkan kejernihan dan ukuran.
Saluran lainMP3 (mp3_44100_128 dari ElevenLabs, mp3 dari OpenAI). 44.1 kHz / 128 kbps default untuk ucapan.
Talk / telefoniPCM native penyedia (Inworld 22050 Hz, Google 24 kHz), atau ulaw_8000 dari Gradium untuk telefoni.
Catatan per penyedia:
  • Transkode Feishu / WhatsApp: Ketika balasan catatan suara masuk sebagai MP3/WebM/WAV/M4A, plugin saluran mentranskode ke Ogg/Opus 48 kHz dengan ffmpeg. WhatsApp mengirim melalui Baileys dengan ptt: true dan audio/ogg; codecs=opus. Jika konversi gagal: Feishu fallback dengan melampirkan file asli; pengiriman WhatsApp gagal alih-alih memposting payload PTT yang tidak kompatibel.
  • MiniMax / Xiaomi MiMo: MP3 default (32 kHz untuk MiniMax speech-2.8-hd); ditranskode ke Opus 48 kHz untuk target catatan suara melalui ffmpeg.
  • CLI lokal: Menggunakan outputFormat yang dikonfigurasi. Target catatan suara dikonversi ke Ogg/Opus dan keluaran telefoni ke PCM mono 16 kHz mentah.
  • Google Gemini: Mengembalikan PCM 24 kHz mentah. OpenClaw membungkusnya sebagai WAV untuk lampiran, mentranskode ke Opus 48 kHz untuk target catatan suara, mengembalikan PCM langsung untuk Talk/telefoni.
  • Inworld: Lampiran MP3, catatan suara OGG_OPUS native, PCM mentah 22050 Hz untuk Talk/telefoni.
  • xAI: MP3 secara default; responseFormat dapat berupa mp3|wav|pcm|mulaw|alaw. Menggunakan endpoint REST batch xAI — TTS WebSocket streaming tidak digunakan. Format catatan suara Opus native tidak didukung.
  • Microsoft: Menggunakan microsoft.outputFormat (default audio-24khz-48kbitrate-mono-mp3). sendVoice Telegram menerima OGG/MP3/M4A; gunakan OpenAI/ElevenLabs jika Anda memerlukan pesan suara Opus yang dijamin. Jika format Microsoft yang dikonfigurasi gagal, OpenClaw mencoba ulang dengan MP3.
Format keluaran OpenAI dan ElevenLabs ditetapkan per saluran seperti yang tercantum di atas.

Referensi bidang

auto
"off" | "always" | "inbound" | "tagged"
Mode Auto-TTS. inbound hanya mengirim audio setelah pesan suara masuk; tagged hanya mengirim audio ketika balasan menyertakan direktif [[tts:...]] atau blok [[tts:text]].
enabled
boolean
usang
Toggle lama. openclaw doctor --fix memigrasikan ini ke auto.
mode
"final" | "all"
default:"final"
"all" menyertakan balasan alat/blok selain balasan final.
provider
string
ID penyedia ucapan. Jika tidak disetel, OpenClaw menggunakan penyedia pertama yang dikonfigurasi dalam urutan pilih otomatis registry. provider: "edge" lama ditulis ulang menjadi "microsoft" oleh openclaw doctor --fix.
persona
string
ID persona aktif dari personas. Dinormalisasi ke huruf kecil.
personas.<id>
object
Identitas lisan yang stabil. Bidang: label, description, provider, fallbackPolicy, prompt, providers.<provider>. Lihat Persona.
summaryModel
string
Model murah untuk ringkasan otomatis; default ke agents.defaults.model.primary. Menerima provider/model atau alias model yang dikonfigurasi.
modelOverrides
object
Izinkan model memancarkan direktif TTS. enabled default ke true; allowProvider default ke false.
providers.<id>
object
Pengaturan milik penyedia yang dikunci berdasarkan ID penyedia ucapan. Blok langsung lama (messages.tts.openai, .elevenlabs, .microsoft, .edge) ditulis ulang oleh openclaw doctor --fix; commit hanya messages.tts.providers.<id>.
maxTextLength
number
Batas keras untuk karakter input TTS. /tts audio gagal jika terlampaui.
timeoutMs
number
Timeout permintaan dalam milidetik.
prefsPath
string
Timpa path JSON preferensi lokal (penyedia/batas/ringkasan). Default ~/.openclaw/settings/tts.json.
apiKey
string
Env: AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY, atau SPEECH_KEY.
region
string
Region Azure Speech (mis. eastus). Env: AZURE_SPEECH_REGION atau SPEECH_REGION.
endpoint
string
Penimpaan endpoint Azure Speech opsional (alias baseUrl).
voice
string
ShortName suara Azure. Default en-US-JennyNeural.
lang
string
Kode bahasa SSML. Default en-US.
outputFormat
string
X-Microsoft-OutputFormat Azure untuk audio standar. Default audio-24khz-48kbitrate-mono-mp3.
voiceNoteOutputFormat
string
X-Microsoft-OutputFormat Azure untuk keluaran catatan suara. Default ogg-24khz-16bit-mono-opus.
apiKey
string
Fallback ke ELEVENLABS_API_KEY atau XI_API_KEY.
model
string
ID model (mis. eleven_multilingual_v2, eleven_v3).
voiceId
string
ID suara ElevenLabs.
voiceSettings
object
stability, similarityBoost, style (masing-masing 0..1), useSpeakerBoost (true|false), speed (0.5..2.0, 1.0 = normal).
applyTextNormalization
"auto" | "on" | "off"
Mode normalisasi teks.
languageCode
string
ISO 639-1 2 huruf (mis. en, de).
seed
number
Bilangan bulat 0..4294967295 untuk determinisme best-effort.
baseUrl
string
Timpa URL dasar API ElevenLabs.
apiKey
string
Fallback ke GEMINI_API_KEY / GOOGLE_API_KEY. Jika dihilangkan, TTS dapat menggunakan kembali models.providers.google.apiKey sebelum fallback env.
model
string
Model TTS Gemini. Default gemini-3.1-flash-tts-preview.
voiceName
string
Nama suara bawaan Gemini. Default Kore. Alias: voice.
audioProfile
string
Prompt gaya bahasa alami yang ditambahkan sebelum teks lisan.
speakerName
string
Label pembicara opsional yang ditambahkan sebelum teks lisan ketika prompt Anda menggunakan pembicara bernama.
promptTemplate
"audio-profile-v1"
Setel ke audio-profile-v1 untuk membungkus bidang prompt persona aktif dalam struktur prompt TTS Gemini yang deterministik.
personaPrompt
string
Teks prompt persona ekstra khusus Google yang ditambahkan ke Catatan Sutradara template.
baseUrl
string
Hanya https://generativelanguage.googleapis.com yang diterima.
apiKey
string
Lingkungan: GRADIUM_API_KEY.
baseUrl
string
Bawaan https://api.gradium.ai.
voiceId
string
Bawaan Emma (YTpq7expH9539ERJ).

Primer Inworld

apiKey
string
Lingkungan: INWORLD_API_KEY.
baseUrl
string
Bawaan https://api.inworld.ai.
modelId
string
Bawaan inworld-tts-1.5-max. Juga: inworld-tts-1.5-mini, inworld-tts-1-max, inworld-tts-1.
voiceId
string
Bawaan Sarah.
temperature
number
Suhu sampling 0..2.
command
string
Executable lokal atau string perintah untuk CLI TTS.
args
string[]
Argumen perintah. Mendukung placeholder {{Text}}, {{OutputPath}}, {{OutputDir}}, {{OutputBase}}.
outputFormat
"mp3" | "opus" | "wav"
Format output CLI yang diharapkan. Bawaan mp3 untuk lampiran audio.
timeoutMs
number
Batas waktu perintah dalam milidetik. Bawaan 120000.
cwd
string
Direktori kerja perintah opsional.
env
Record<string, string>
Override lingkungan opsional untuk perintah.
enabled
boolean
default:"true"
Izinkan penggunaan suara Microsoft.
voice
string
Nama suara neural Microsoft (mis. en-US-MichelleNeural).
lang
string
Kode bahasa (mis. en-US).
outputFormat
string
Format output Microsoft. Bawaan audio-24khz-48kbitrate-mono-mp3. Tidak semua format didukung oleh transport bawaan berbasis Edge.
rate / pitch / volume
string
String persen (mis. +10%, -5%).
saveSubtitles
boolean
Tulis subtitel JSON bersama file audio.
proxy
string
URL proksi untuk permintaan suara Microsoft.
timeoutMs
number
Override batas waktu permintaan (md).
edge.*
object
usang
Alias lama. Jalankan openclaw doctor --fix untuk menulis ulang konfigurasi tersimpan ke providers.microsoft.
apiKey
string
Fallback ke MINIMAX_API_KEY. Autentikasi Token Plan melalui MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY, atau MINIMAX_CODING_API_KEY.
baseUrl
string
Bawaan https://api.minimax.io. Lingkungan: MINIMAX_API_HOST.
model
string
Bawaan speech-2.8-hd. Lingkungan: MINIMAX_TTS_MODEL.
voiceId
string
Bawaan English_expressive_narrator. Lingkungan: MINIMAX_TTS_VOICE_ID.
speed
number
0.5..2.0. Bawaan 1.0.
vol
number
(0, 10]. Bawaan 1.0.
pitch
number
Bilangan bulat -12..12. Bawaan 0. Nilai pecahan dipotong sebelum permintaan.
apiKey
string
Fallback ke OPENAI_API_KEY.
model
string
ID model TTS OpenAI (mis. gpt-4o-mini-tts).
voice
string
Nama suara (mis. alloy, cedar).
instructions
string
Kolom OpenAI instructions eksplisit. Saat disetel, kolom prompt persona tidak dipetakan otomatis.
extraBody / extra_body
Record<string, unknown>
Kolom JSON tambahan yang digabungkan ke dalam body permintaan /audio/speech setelah kolom TTS OpenAI yang dihasilkan. Gunakan ini untuk endpoint yang kompatibel dengan OpenAI seperti Kokoro yang memerlukan kunci khusus penyedia seperti lang; kunci prototipe yang tidak aman diabaikan.
baseUrl
string
Override endpoint TTS OpenAI. Urutan resolusi: konfigurasi → OPENAI_TTS_BASE_URLhttps://api.openai.com/v1. Nilai non-bawaan diperlakukan sebagai endpoint TTS yang kompatibel dengan OpenAI, sehingga nama model dan suara khusus diterima.
apiKey
string
Lingkungan: OPENROUTER_API_KEY. Dapat menggunakan ulang models.providers.openrouter.apiKey.
baseUrl
string
Bawaan https://openrouter.ai/api/v1. Lama https://openrouter.ai/v1 dinormalisasi.
model
string
Bawaan hexgrad/kokoro-82m. Alias: modelId.
voice
string
Bawaan af_alloy. Alias: voiceId.
responseFormat
"mp3" | "pcm"
Bawaan mp3.
speed
number
Override kecepatan bawaan penyedia.
apiKey
string
Lingkungan: VOLCENGINE_TTS_API_KEY atau BYTEPLUS_SEED_SPEECH_API_KEY.
resourceId
string
Bawaan seed-tts-1.0. Lingkungan: VOLCENGINE_TTS_RESOURCE_ID. Gunakan seed-tts-2.0 saat proyek Anda memiliki hak TTS 2.0.
appKey
string
Header kunci aplikasi. Bawaan aGjiRDfUWi. Lingkungan: VOLCENGINE_TTS_APP_KEY.
baseUrl
string
Override endpoint HTTP Seed Speech TTS. Lingkungan: VOLCENGINE_TTS_BASE_URL.
voice
string
Jenis suara. Bawaan en_female_anna_mars_bigtts. Lingkungan: VOLCENGINE_TTS_VOICE.
speedRatio
number
Rasio kecepatan bawaan penyedia.
emotion
string
Tag emosi bawaan penyedia.
appId / token / cluster
string
usang
Kolom lama Volcengine Speech Console. Lingkungan: VOLCENGINE_TTS_APPID, VOLCENGINE_TTS_TOKEN, VOLCENGINE_TTS_CLUSTER (bawaan volcano_tts).
apiKey
string
Lingkungan: XAI_API_KEY.
baseUrl
string
Bawaan https://api.x.ai/v1. Lingkungan: XAI_BASE_URL.
voiceId
string
Bawaan eve. Suara live: ara, eve, leo, rex, sal, una.
language
string
Kode bahasa BCP-47 atau auto. Bawaan en.
responseFormat
"mp3" | "wav" | "pcm" | "mulaw" | "alaw"
Bawaan mp3.
speed
number
Override kecepatan bawaan penyedia.
apiKey
string
Lingkungan: XIAOMI_API_KEY.
baseUrl
string
Bawaan https://api.xiaomimimo.com/v1. Lingkungan: XIAOMI_BASE_URL.
model
string
Bawaan mimo-v2.5-tts. Lingkungan: XIAOMI_TTS_MODEL. Juga mendukung mimo-v2-tts.
voice
string
Bawaan mimo_default. Lingkungan: XIAOMI_TTS_VOICE.
format
"mp3" | "wav"
Bawaan mp3. Lingkungan: XIAOMI_TTS_FORMAT.
style
string
Instruksi gaya bahasa alami opsional yang dikirim sebagai pesan pengguna; tidak diucapkan.

Alat agen

Alat tts mengonversi teks menjadi ucapan dan mengembalikan lampiran audio untuk pengiriman balasan. Di Feishu, Matrix, Telegram, dan WhatsApp, audio dikirim sebagai pesan suara, bukan lampiran file. Feishu dan WhatsApp dapat mentranskode output TTS non-Opus pada jalur ini saat ffmpeg tersedia. WhatsApp mengirim audio melalui Baileys sebagai catatan suara PTT (audio dengan ptt: true) dan mengirim teks yang terlihat secara terpisah dari audio PTT karena klien tidak selalu merender keterangan pada catatan suara secara konsisten. Alat ini menerima kolom channel dan timeoutMs opsional; timeoutMs adalah batas waktu permintaan penyedia per panggilan dalam milidetik.

RPC Gateway

MetodeTujuan
tts.statusMembaca status TTS saat ini dan percobaan terakhir.
tts.enableMengatur preferensi otomatis lokal ke always.
tts.disableMengatur preferensi otomatis lokal ke off.
tts.convertTeks satu kali → audio.
tts.setProviderMengatur preferensi penyedia lokal.
tts.setPersonaMengatur preferensi persona lokal.
tts.providersMencantumkan penyedia yang dikonfigurasi dan statusnya.

Tautan layanan

Terkait