OpenClaw, giden yanıtları 14 konuşma sağlayıcısı genelinde sese dönüştürebilir ve Feishu, Matrix, Telegram ve WhatsApp üzerinde yerel sesli mesajlar, diğer her yerde ses ekleri ve telefon ile Talk için PCM/Ulaw akışları iletebilir. TTS, Talk’ınDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
stt-tts modunun konuşma çıktısı yarısıdır. Sağlayıcıya yerel
realtime Talk oturumları, bu TTS yolunu çağırmak yerine konuşmayı gerçek zamanlı sağlayıcının içinde sentezler; transcription oturumları ise
asistan için sesli yanıt sentezlemez.
Hızlı başlangıç
Bir sağlayıcı seçin
OpenAI ve ElevenLabs en güvenilir barındırılan seçeneklerdir. Microsoft ve
Yerel CLI bir API anahtarı olmadan çalışır. Tam liste için sağlayıcı matrisine
bakın.
API anahtarını ayarlayın
Sağlayıcınız için env var’ı dışa aktarın (örneğin
OPENAI_API_KEY,
ELEVENLABS_API_KEY). Microsoft ve Yerel CLI anahtar gerektirmez.Auto-TTS varsayılan olarak kapalıdır.
messages.tts.provider ayarlanmamışsa,
OpenClaw kayıt defteri otomatik seçim sırasındaki ilk yapılandırılmış sağlayıcıyı seçer.
Yerleşik tts ajan aracı yalnızca açık niyet içindir: kullanıcı ses istemedikçe,
/tts kullanmadıkça veya Auto-TTS/yönerge konuşmasını etkinleştirmedikçe sıradan sohbet
metin olarak kalır.Desteklenen sağlayıcılar
| Sağlayıcı | Kimlik doğrulama | Notlar |
|---|---|---|
| Azure Speech | AZURE_SPEECH_KEY + AZURE_SPEECH_REGION (ayrıca AZURE_SPEECH_API_KEY, SPEECH_KEY, SPEECH_REGION) | Yerel Ogg/Opus sesli not çıktısı ve telefon. |
| DeepInfra | DEEPINFRA_API_KEY | OpenAI uyumlu TTS. Varsayılan olarak hexgrad/Kokoro-82M kullanır. |
| ElevenLabs | ELEVENLABS_API_KEY veya XI_API_KEY | Ses klonlama, çok dilli, seed ile deterministik; Discord ses oynatması için akışlıdır. |
| Google Gemini | GEMINI_API_KEY veya GOOGLE_API_KEY | Gemini API toplu TTS; promptTemplate: "audio-profile-v1" ile persona duyarlıdır. |
| Gradium | GRADIUM_API_KEY | Sesli not ve telefon çıktısı. |
| Inworld | INWORLD_API_KEY | Akışlı TTS API. Yerel Opus sesli not ve PCM telefon. |
| Yerel CLI | yok | Yapılandırılmış yerel bir TTS komutu çalıştırır. |
| Microsoft | yok | node-edge-tts üzerinden genel Edge sinirsel TTS. En iyi çaba, SLA yok. |
| MiniMax | MINIMAX_API_KEY (veya Token Plan: MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY, MINIMAX_CODING_API_KEY) | T2A v2 API. Varsayılan olarak speech-2.8-hd kullanır. |
| OpenAI | OPENAI_API_KEY | Otomatik özet için de kullanılır; persona instructions desteği sağlar. |
| OpenRouter | OPENROUTER_API_KEY (models.providers.openrouter.apiKey yeniden kullanılabilir) | Varsayılan model hexgrad/kokoro-82m. |
| Volcengine | VOLCENGINE_TTS_API_KEY veya BYTEPLUS_SEED_SPEECH_API_KEY (eski AppID/token: VOLCENGINE_TTS_APPID/_TOKEN) | BytePlus Seed Speech HTTP API. |
| Vydra | VYDRA_API_KEY | Paylaşılan görüntü, video ve konuşma sağlayıcısı. |
| xAI | XAI_API_KEY | xAI toplu TTS. Yerel Opus sesli not desteklenmez. |
| Xiaomi MiMo | XIAOMI_API_KEY | Xiaomi sohbet tamamlama üzerinden MiMo TTS. |
summaryModel (veya
agents.defaults.model.primary) kullanır; bu nedenle özetleri etkin tutarsanız
o sağlayıcının da kimliğinin doğrulanmış olması gerekir.
Yapılandırma
TTS yapılandırması~/.openclaw/openclaw.json içinde messages.tts altında bulunur. Bir
ön ayar seçin ve sağlayıcı bloğunu uyarlayın:
- Azure Speech
- ElevenLabs
- Google Gemini
- Gradium
- Inworld
- Yerel CLI
- Microsoft (anahtar yok)
- MiniMax
- OpenAI + ElevenLabs
- OpenRouter
- Volcengine
- xAI
- Xiaomi MiMo
Ajan başına ses geçersiz kılmaları
Bir ajanın farklı bir sağlayıcı, ses, model, persona veya Auto-TTS modu ile konuşması gerektiğindeagents.list[].tts kullanın. Ajan bloğu messages.tts üzerine derin birleştirme yapar;
bu nedenle sağlayıcı kimlik bilgileri genel sağlayıcı yapılandırmasında kalabilir:
agents.list[].tts.persona ayarlayın; bu, yalnızca ilgili aracı için genel
messages.tts.persona değerini geçersiz kılar.
Otomatik yanıtlar, /tts audio, /tts status ve tts aracı aracı için
öncelik sırası:
messages.tts- etkin
agents.list[].tts - kanal
channels.<channel>.ttsdestekliyorsa kanal geçersiz kılması - kanal
channels.<channel>.accounts.<id>.ttsgeçiriyorsa hesap geçersiz kılması - bu ana makine için yerel
/ttstercihleri - model geçersiz kılmaları etkinleştirildiğinde satır içi
[[tts:...]]yönergeleri
messages.tts ile aynı şekli kullanır ve
önceki katmanların üzerine derin birleştirme yapar; böylece paylaşılan sağlayıcı
kimlik bilgileri messages.tts içinde kalırken bir kanal veya bot hesabı
yalnızca sesi, modeli, personayı veya otomatik modu değiştirebilir:
Personalar
Persona, sağlayıcılar arasında deterministik olarak uygulanabilen kararlı bir konuşma kimliğidir. Tek bir sağlayıcıyı tercih edebilir, sağlayıcıdan bağımsız istem amacını tanımlayabilir ve sesler, modeller, istem şablonları, seed değerleri ve ses ayarları için sağlayıcıya özel bağlamaları taşıyabilir.Minimal persona
Tam persona (sağlayıcıdan bağımsız istem)
Persona çözümleme
Etkin persona deterministik olarak seçilir:- Ayarlanmışsa
/tts persona <id>yerel tercihi. - Ayarlanmışsa
messages.tts.persona. - Persona yok.
- Doğrudan geçersiz kılmalar (CLI, Gateway, Talk, izin verilen TTS yönergeleri).
/tts provider <id>yerel tercihi.- Etkin personanın
providerdeğeri. messages.tts.provider.- Kayıt defteri otomatik seçimi.
messages.tts.providers.<id>messages.tts.personas.<persona>.providers.<id>- Güvenilen istek geçersiz kılmaları
- İzin verilen model tarafından yayımlanmış TTS yönergesi geçersiz kılmaları
Sağlayıcılar persona istemlerini nasıl kullanır
Persona istem alanları (profile, scene, sampleContext, style, accent,
pacing, constraints) sağlayıcıdan bağımsızdır. Her sağlayıcı bunları
nasıl kullanacağına kendisi karar verir:
Google Gemini
Google Gemini
Yalnızca etkili Google sağlayıcı yapılandırması
promptTemplate: "audio-profile-v1"
veya personaPrompt ayarladığında persona istem alanlarını bir Gemini TTS
istem yapısına sarar. Eski audioProfile ve speakerName alanları hâlâ
Google’a özel istem metni olarak başa eklenir. Bir [[tts:text]] bloğunun
içindeki [whispers] veya [laughs] gibi satır içi ses etiketleri Gemini
transkripti içinde korunur; OpenClaw bu etiketleri üretmez.OpenAI
OpenAI
Yalnızca açık bir OpenAI
instructions yapılandırılmadığında persona istem
alanlarını istekteki instructions alanına eşler. Açık instructions her
zaman kazanır.Other providers
Other providers
Yalnızca
personas.<id>.providers.<provider> altındaki sağlayıcıya özel
persona bağlamalarını kullanır. Sağlayıcı kendi persona istemi eşlemesini
uygulamadığı sürece persona istem alanları yok sayılır.Geri dönüş ilkesi
fallbackPolicy, bir personanın denenen sağlayıcı için hiç bağlaması yoksa
davranışı kontrol eder:
| İlke | Davranış |
|---|---|
preserve-persona | Varsayılan. Sağlayıcıdan bağımsız istem alanları kullanılabilir kalır; sağlayıcı bunları kullanabilir veya yok sayabilir. |
provider-defaults | Bu deneme için persona istem hazırlığından çıkarılır; diğer sağlayıcılara geri dönüş sürerken sağlayıcı kendi nötr varsayılanlarını kullanır. |
fail | Bu sağlayıcı denemesini reasonCode: "not_configured" ve personaBinding: "missing" ile atla. Geri dönüş sağlayıcıları yine de denenir. |
talk.catalog
içinden seçmeli ve bunları Talk oturumu veya devretme isteği üzerinden geçirmelidir.
Bir ses oturumu açmak messages.tts değerini veya genel Talk sağlayıcı
varsayılanlarını değiştirmemelidir.
Model güdümlü yönergeler
Varsayılan olarak yardımcı, tek bir yanıt için sesi, modeli veya hızı geçersiz kılmak üzere[[tts:...]] yönergeleri ve yalnızca seste görünmesi gereken
ifade ipuçları için isteğe bağlı bir [[tts:text]]...[[/tts:text]] bloğu
yayımlayabilir:
messages.tts.auto "tagged" olduğunda sesi tetiklemek için yönergeler
zorunludur. Akış blok teslimi, bitişik bloklara bölünmüş olsa bile, kanal
bunları görmeden önce yönergeleri görünür metinden çıkarır.
modelOverrides.allowProvider: true olmadığı sürece provider=... yok sayılır.
Bir yanıt provider=... bildirdiğinde, bu yönergedeki diğer anahtarlar yalnızca
o sağlayıcı tarafından ayrıştırılır; desteklenmeyen anahtarlar çıkarılır ve TTS
yönergesi uyarıları olarak raporlanır.
Kullanılabilir yönerge anahtarları:
provider(kayıtlı sağlayıcı kimliği;allowProvider: truegerektirir)voice/voiceName/voice_name/google_voice/voiceIdmodel/google_modelstability,similarityBoost,style,speed,useSpeakerBoostvol/volume(MiniMax ses düzeyi, 0-10)pitch(MiniMax tamsayı perde, -12 ile 12 arası; kesirli değerler kırpılır)emotion(Volcengine duygu etiketi)applyTextNormalization(auto|on|off)languageCode(ISO 639-1)seed
Eğik çizgi komutları
Tek komut/tts. Discord üzerinde OpenClaw ayrıca /voice kaydeder çünkü
/tts yerleşik bir Discord komutudur; metin olarak /tts ... yine de çalışır.
Komutlar yetkili bir gönderen gerektirir (izin listesi/sahip kuralları geçerlidir)
ve
commands.text ya da yerel komut kaydı etkin olmalıdır./tts on, yerel TTS tercihinialwaysolarak yazar;/tts offbunuoffolarak yazar./tts chat on|off|default, geçerli sohbet için oturum kapsamlı bir otomatik TTS geçersiz kılması yazar./tts persona <id>, yerel persona tercihini yazar;/tts persona offbunu temizler./tts latest, geçerli oturum transkriptinden en son yardımcı yanıtını okur ve bunu bir kez ses olarak gönderir. Yinelenen ses gönderimlerini bastırmak için oturum girdisinde yalnızca bu yanıtın hash değerini saklar./tts audio, tek seferlik bir sesli yanıt üretir (TTS’yi açmaz).limitvesummary, ana yapılandırmada değil yerel tercihlerde saklanır./tts status, en son deneme için geri dönüş tanılarını içerir:Fallback: <primary> -> <used>,Attempts: ...ve deneme başına ayrıntı (provider:outcome(reasonCode) latency)./status, TTS etkin olduğunda etkin TTS modunun yanı sıra yapılandırılmış sağlayıcıyı, modeli, sesi ve temizlenmiş özel uç nokta meta verilerini gösterir.
Kullanıcı başına tercihler
Eğik çizgi komutları yerel geçersiz kılmalarıprefsPath yoluna yazar. Varsayılan
değer ~/.openclaw/settings/tts.json; OPENCLAW_TTS_PREFS ortam değişkeni veya
messages.tts.prefsPath ile geçersiz kılın.
| Saklanan alan | Etki |
|---|---|
auto | Yerel otomatik TTS geçersiz kılması (always, off, …) |
provider | Yerel birincil sağlayıcı geçersiz kılması |
persona | Yerel persona geçersiz kılması |
maxLength | Özet eşiği (varsayılan 1500 karakter) |
summarize | Özet anahtarı (varsayılan true) |
messages.tts içinden gelen etkili yapılandırmayı ve ilgili ana makine
için etkin agents.list[].tts bloğunu geçersiz kılar.
Çıktı biçimleri (sabit)
TTS ses teslimi kanal yeteneği tarafından yönlendirilir. Kanal Plugin’leri, ses tarzı TTS’nin sağlayıcılardan yerel birvoice-note hedefi istemesi mi
gerektiğini yoksa normal audio-file sentezini koruyup yalnızca uyumlu çıktıyı
ses teslimi için işaretlemesi mi gerektiğini duyurur.
- Sesli not destekli kanallar: sesli not yanıtları Opus’u tercih eder (ElevenLabs’ten
opus_48000_64, OpenAI’denopus).- 48kHz / 64kbps, sesli mesaj için iyi bir denge sunar.
- Feishu / WhatsApp: bir sesli not yanıtı MP3/WebM/WAV/M4A
veya muhtemel başka bir ses dosyası olarak üretildiğinde, kanal Plugin’i yerel sesli mesajı göndermeden önce bunu
ffmpegile 48kHz Ogg/Opus’a transkodlar. WhatsApp, sonucu Baileysaudiopayload’ı üzerindenptt: trueveaudio/ogg; codecs=opusile gönderir. Dönüştürme başarısız olursa Feishu özgün dosyayı ek olarak alır; WhatsApp gönderimi ise uyumsuz bir PTT payload’ı paylaşmak yerine başarısız olur. - Diğer kanallar: MP3 (ElevenLabs’ten
mp3_44100_128, OpenAI’denmp3).- 44.1kHz / 128kbps, konuşma netliği için varsayılan dengedir.
- MiniMax: normal ses ekleri için MP3 (
speech-2.8-hdmodeli, 32kHz örnekleme hızı). Kanal tarafından duyurulan sesli not hedefleri için, kanal transkodlama desteği bildirdiğinde OpenClaw teslimattan önce MiniMax MP3’üffmpegile 48kHz Opus’a transkodlar. - Xiaomi MiMo: varsayılan olarak MP3 veya yapılandırıldığında WAV. Kanal tarafından duyurulan sesli not hedefleri için, kanal transkodlama desteği bildirdiğinde OpenClaw teslimattan önce Xiaomi çıktısını
ffmpegile 48kHz Opus’a transkodlar. - Yerel CLI: yapılandırılan
outputFormatdeğerini kullanır. Sesli not hedefleri Ogg/Opus’a dönüştürülür ve telefon çıktısıffmpegile ham 16 kHz mono PCM’ye dönüştürülür. - Google Gemini: Gemini API TTS, ham 24kHz PCM döndürür. OpenClaw bunu ses ekleri için WAV olarak sarmalar, sesli not hedefleri için 48kHz Opus’a transkodlar ve Talk/telefon için PCM’yi doğrudan döndürür.
- Gradium: ses ekleri için WAV, sesli not hedefleri için Opus ve telefon için 8 kHz’de
ulaw_8000. - Inworld: normal ses ekleri için MP3, sesli not hedefleri için yerel
OGG_OPUSve Talk/telefon için 22050 Hz’de hamPCM. - xAI: varsayılan olarak MP3;
responseFormatmp3,wav,pcm,mulawveyaalawolabilir. OpenClaw, xAI’nin toplu REST TTS uç noktasını kullanır ve tam bir ses eki döndürür; xAI’nin akışlı TTS WebSocket’i bu sağlayıcı yolu tarafından kullanılmaz. Yerel Opus sesli not biçimi bu yol tarafından desteklenmez. - Microsoft:
microsoft.outputFormatdeğerini kullanır (varsayılanaudio-24khz-48kbitrate-mono-mp3).- Birlikte gelen aktarım bir
outputFormatkabul eder, ancak tüm biçimler hizmetten kullanılamaz. - Çıktı biçimi değerleri Microsoft Speech çıktı biçimlerini izler (Ogg/WebM Opus dahil).
- Telegram
sendVoice, OGG/MP3/M4A kabul eder; garantili Opus sesli mesajlarına ihtiyacınız varsa OpenAI/ElevenLabs kullanın. - Yapılandırılan Microsoft çıktı biçimi başarısız olursa OpenClaw MP3 ile yeniden dener.
- Birlikte gelen aktarım bir
Otomatik TTS davranışı
messages.tts.auto etkinleştirildiğinde OpenClaw:
- Yanıt zaten medya veya bir
MEDIA:direktifi içeriyorsa TTS’yi atlar. - Çok kısa yanıtları atlar (10 karakterin altında).
- Özetler etkinleştirildiğinde uzun yanıtları
summaryModel(veyaagents.defaults.model.primary) kullanarak özetler. - Üretilen sesi yanıta ekler.
mode: "final"içinde, metin akışı tamamlandıktan sonra akışlı son yanıtlar için yine de yalnızca ses TTS gönderir; üretilen medya, normal yanıt ekleriyle aynı kanal medya normalizasyonundan geçer.
maxLength değerini aşarsa ve özet kapalıysa (veya özet modeli için API anahtarı yoksa), ses atlanır ve normal metin yanıtı gönderilir.
Kanala göre çıktı biçimleri
| Hedef | Biçim |
|---|---|
| Feishu / Matrix / Telegram / WhatsApp | Sesli not yanıtları Opus tercih eder (ElevenLabs’ten opus_48000_64, OpenAI’dan opus). 48 kHz / 64 kbps netlik ve boyutu dengeler. |
| Diğer kanallar | MP3 (ElevenLabs’ten mp3_44100_128, OpenAI’dan mp3). Konuşma için varsayılan 44,1 kHz / 128 kbps. |
| Konuşma / telefon | Sağlayıcıya özgü PCM (Inworld 22050 Hz, Google 24 kHz) veya telefon için Gradium’dan ulaw_8000. |
- Feishu / WhatsApp dönüştürme: Bir sesli not yanıtı MP3/WebM/WAV/M4A olarak geldiğinde, kanal Plugin’i
ffmpegile 48 kHz Ogg/Opus’a dönüştürür. WhatsApp, Baileys üzerindenptt: trueveaudio/ogg; codecs=opusile gönderir. Dönüştürme başarısız olursa: Feishu özgün dosyayı eklemeye geri döner; WhatsApp ise uyumsuz bir PTT yükü göndermek yerine gönderimi başarısız yapar. - MiniMax / Xiaomi MiMo: Varsayılan MP3 (MiniMax
speech-2.8-hdiçin 32 kHz); sesli not hedefleri içinffmpegile 48 kHz Opus’a dönüştürülür. - Yerel CLI: Yapılandırılmış
outputFormatdeğerini kullanır. Sesli not hedefleri Ogg/Opus’a, telefon çıktısı ise ham 16 kHz mono PCM’ye dönüştürülür. - Google Gemini: Ham 24 kHz PCM döndürür. OpenClaw ekler için WAV olarak sarar, sesli not hedefleri için 48 kHz Opus’a dönüştürür, Konuşma/telefon için PCM’yi doğrudan döndürür.
- Inworld: MP3 ekleri, yerel
OGG_OPUSsesli notu, Konuşma/telefon için hamPCM22050 Hz. - xAI: Varsayılan olarak MP3;
responseFormat,mp3|wav|pcm|mulaw|alawolabilir. xAI’nin toplu REST uç noktasını kullanır — akışlı WebSocket TTS kullanılmaz. Yerel Opus sesli not biçimi desteklenmez. - Microsoft:
microsoft.outputFormatkullanır (varsayılanaudio-24khz-48kbitrate-mono-mp3). TelegramsendVoice, OGG/MP3/M4A kabul eder; garantili Opus sesli mesajları gerekiyorsa OpenAI/ElevenLabs kullanın. Yapılandırılmış Microsoft biçimi başarısız olursa OpenClaw MP3 ile yeniden dener.
Alan başvurusu
Top-level messages.tts.*
Top-level messages.tts.*
Otomatik TTS modu.
inbound yalnızca gelen bir sesli mesajdan sonra ses gönderir; tagged yalnızca yanıt [[tts:...]] yönergeleri veya bir [[tts:text]] bloğu içerdiğinde ses gönderir.Eski geçiş anahtarı.
openclaw doctor --fix bunu auto değerine taşır."all", son yanıtlara ek olarak araç/blok yanıtlarını da içerir.Konuşma sağlayıcısı kimliği. Ayarlanmadığında OpenClaw, kayıt defteri otomatik seçim sırasındaki ilk yapılandırılmış sağlayıcıyı kullanır. Eski
provider: "edge", openclaw doctor --fix tarafından "microsoft" olarak yeniden yazılır.personas içindeki etkin persona kimliği. Küçük harfe normalleştirilir.Kararlı konuşulan kimlik. Alanlar:
label, description, provider, fallbackPolicy, prompt, providers.<provider>. Bkz. Personalar.Otomatik özet için ucuz model; varsayılan
agents.defaults.model.primary. provider/model veya yapılandırılmış bir model takma adını kabul eder.Modelin TTS yönergeleri yaymasına izin verin.
enabled varsayılan olarak true; allowProvider varsayılan olarak false.Konuşma sağlayıcısı kimliğine göre anahtarlanan, sağlayıcıya ait ayarlar. Eski doğrudan bloklar (
messages.tts.openai, .elevenlabs, .microsoft, .edge) openclaw doctor --fix tarafından yeniden yazılır; yalnızca messages.tts.providers.<id> kaydedin.TTS giriş karakterleri için katı üst sınır. Aşılırsa
/tts audio başarısız olur.Milisaniye cinsinden istek zaman aşımı.
Yerel tercihler JSON yolunu (sağlayıcı/sınır/özet) geçersiz kılın. Varsayılan
~/.openclaw/settings/tts.json.Azure Speech
Azure Speech
Env:
AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY veya SPEECH_KEY değerine geri döner.Azure Speech bölgesi (örn.
eastus). Env: AZURE_SPEECH_REGION veya SPEECH_REGION.İsteğe bağlı Azure Speech uç noktası geçersiz kılması (takma ad
baseUrl).Azure ses ShortName’i. Varsayılan
en-US-JennyNeural.SSML dil kodu. Varsayılan
en-US.Standart ses için Azure
X-Microsoft-OutputFormat. Varsayılan audio-24khz-48kbitrate-mono-mp3.Sesli not çıktısı için Azure
X-Microsoft-OutputFormat. Varsayılan ogg-24khz-16bit-mono-opus.ElevenLabs
ElevenLabs
ELEVENLABS_API_KEY veya XI_API_KEY değerine geri döner.Model kimliği (örn.
eleven_multilingual_v2, eleven_v3).ElevenLabs ses kimliği.
stability, similarityBoost, style (her biri 0..1), useSpeakerBoost (true|false), speed (0.5..2.0, 1.0 = normal).Metin normalleştirme modu.
2 harfli ISO 639-1 (örn.
en, de).En iyi çaba determinizmi için
0..4294967295 tamsayısı.ElevenLabs API taban URL’sini geçersiz kılın.
Google Gemini
Google Gemini
GEMINI_API_KEY / GOOGLE_API_KEY değerine geri döner. Atlanırsa TTS, env geri dönüşünden önce models.providers.google.apiKey değerini yeniden kullanabilir.Gemini TTS modeli. Varsayılan
gemini-3.1-flash-tts-preview.Gemini önceden oluşturulmuş ses adı. Varsayılan
Kore. Takma ad: voice.Konuşulan metinden önce eklenen doğal dil stil istemi.
İsteminiz adlandırılmış bir konuşmacı kullanıyorsa konuşulan metinden önce eklenen isteğe bağlı konuşmacı etiketi.
Etkin persona istem alanlarını deterministik bir Gemini TTS istem yapısına sarmak için
audio-profile-v1 olarak ayarlayın.Şablonun Yönetmen Notları’na eklenen Google’a özgü ek persona istem metni.
Yalnızca
https://generativelanguage.googleapis.com kabul edilir.Gradium
Gradium
Inworld
Inworld
Local CLI (tts-local-cli)
Local CLI (tts-local-cli)
CLI TTS için yerel yürütülebilir dosya veya komut dizesi.
Komut argümanları.
{{Text}}, {{OutputPath}}, {{OutputDir}}, {{OutputBase}} yer tutucularını destekler.Beklenen CLI çıktı biçimi. Ses ekleri için varsayılan
mp3.Komut zaman aşımı, milisaniye cinsinden. Varsayılan
120000.İsteğe bağlı komut çalışma dizini.
Komut için isteğe bağlı ortam geçersiz kılmaları.
Microsoft (no API key)
Microsoft (no API key)
Microsoft konuşma kullanımına izin ver.
Microsoft neural voice adı (örn.
en-US-MichelleNeural).Dil kodu (örn.
en-US).Microsoft çıktı biçimi. Varsayılan
audio-24khz-48kbitrate-mono-mp3. Paketle gelen Edge destekli aktarım tüm biçimleri desteklemez.Yüzde dizeleri (örn.
+10%, -5%).Ses dosyasının yanına JSON altyazıları yaz.
Microsoft konuşma istekleri için proxy URL’si.
İstek zaman aşımı geçersiz kılması (ms).
Eski diğer ad. Kalıcı yapılandırmayı
providers.microsoft olarak yeniden yazmak için openclaw doctor --fix çalıştırın.MiniMax
MiniMax
MINIMAX_API_KEY değerine geri döner. Token Plan kimlik doğrulaması MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY veya MINIMAX_CODING_API_KEY üzerinden yapılır.Varsayılan
https://api.minimax.io. Env: MINIMAX_API_HOST.Varsayılan
speech-2.8-hd. Env: MINIMAX_TTS_MODEL.Varsayılan
English_expressive_narrator. Env: MINIMAX_TTS_VOICE_ID.0.5..2.0. Varsayılan 1.0.(0, 10]. Varsayılan 1.0.Tam sayı
-12..12. Varsayılan 0. Kesirli değerler istekten önce kırpılır.OpenAI
OpenAI
OPENAI_API_KEY değerine geri döner.OpenAI TTS model kimliği (örn.
gpt-4o-mini-tts).Ses adı (örn.
alloy, cedar).Açık OpenAI
instructions alanı. Ayarlandığında persona istem alanları otomatik olarak eşlenmez.Oluşturulan OpenAI TTS alanlarından sonra
/audio/speech istek gövdelerine birleştirilen ek JSON alanları. Bunu, lang gibi sağlayıcıya özgü anahtarlar gerektiren Kokoro gibi OpenAI uyumlu uç noktalar için kullanın; güvensiz prototip anahtarları yoksayılır.OpenAI TTS uç noktasını geçersiz kıl. Çözümleme sırası: config →
OPENAI_TTS_BASE_URL → https://api.openai.com/v1. Varsayılan olmayan değerler OpenAI uyumlu TTS uç noktaları olarak ele alınır, bu nedenle özel model ve ses adları kabul edilir.OpenRouter
OpenRouter
Env:
OPENROUTER_API_KEY. models.providers.openrouter.apiKey yeniden kullanılabilir.Varsayılan
https://openrouter.ai/api/v1. Eski https://openrouter.ai/v1 normalleştirilir.Varsayılan
hexgrad/kokoro-82m. Diğer ad: modelId.Varsayılan
af_alloy. Diğer ad: voiceId.Varsayılan
mp3.Sağlayıcıya özgü hız geçersiz kılması.
Volcengine (BytePlus Seed Speech)
Volcengine (BytePlus Seed Speech)
Env:
VOLCENGINE_TTS_API_KEY veya BYTEPLUS_SEED_SPEECH_API_KEY.Varsayılan
seed-tts-1.0. Env: VOLCENGINE_TTS_RESOURCE_ID. Projenizde TTS 2.0 yetkisi varsa seed-tts-2.0 kullanın.App key üstbilgisi. Varsayılan
aGjiRDfUWi. Env: VOLCENGINE_TTS_APP_KEY.Seed Speech TTS HTTP uç noktasını geçersiz kıl. Env:
VOLCENGINE_TTS_BASE_URL.Ses türü. Varsayılan
en_female_anna_mars_bigtts. Env: VOLCENGINE_TTS_VOICE.Sağlayıcıya özgü hız oranı.
Sağlayıcıya özgü duygu etiketi.
Eski Volcengine Speech Console alanları. Env:
VOLCENGINE_TTS_APPID, VOLCENGINE_TTS_TOKEN, VOLCENGINE_TTS_CLUSTER (varsayılan volcano_tts).xAI
xAI
Env:
XAI_API_KEY.Varsayılan
https://api.x.ai/v1. Env: XAI_BASE_URL.Varsayılan
eve. Canlı sesler: ara, eve, leo, rex, sal, una.BCP-47 dil kodu veya
auto. Varsayılan en.Varsayılan
mp3.Sağlayıcıya özgü hız geçersiz kılması.
Xiaomi MiMo
Xiaomi MiMo
Env:
XIAOMI_API_KEY.Varsayılan
https://api.xiaomimimo.com/v1. Env: XIAOMI_BASE_URL.Varsayılan
mimo-v2.5-tts. Env: XIAOMI_TTS_MODEL. mimo-v2-tts de desteklenir.Varsayılan
mimo_default. Env: XIAOMI_TTS_VOICE.Varsayılan
mp3. Env: XIAOMI_TTS_FORMAT.Kullanıcı mesajı olarak gönderilen isteğe bağlı doğal dil stil talimatı; seslendirilmez.
Ajan aracı
tts aracı metni konuşmaya dönüştürür ve yanıt teslimi için bir ses eki döndürür. Feishu, Matrix, Telegram ve WhatsApp üzerinde ses, dosya eki yerine sesli mesaj olarak teslim edilir. Feishu ve WhatsApp, ffmpeg mevcut olduğunda bu yolda Opus olmayan TTS çıktısını dönüştürebilir.
WhatsApp, sesi Baileys üzerinden PTT ses notu olarak gönderir (audio, ptt: true ile) ve görünür metni PTT sesinden ayrı gönderir, çünkü istemciler ses notlarında başlıkları tutarlı biçimde işlemez.
Araç isteğe bağlı channel ve timeoutMs alanlarını kabul eder; timeoutMs, çağrı başına sağlayıcı istek zaman aşımıdır ve milisaniye cinsindendir.
Gateway RPC
| Yöntem | Amaç |
|---|---|
tts.status | Geçerli TTS durumunu ve son denemeyi oku. |
tts.enable | Yerel otomatik tercihi always olarak ayarla. |
tts.disable | Yerel otomatik tercihi off olarak ayarla. |
tts.convert | Tek seferlik metin → ses. |
tts.setProvider | Yerel sağlayıcı tercihini ayarla. |
tts.setPersona | Yerel persona tercihini ayarla. |
tts.providers | Yapılandırılmış sağlayıcıları ve durumu listele. |
Hizmet bağlantıları
- OpenAI metinden konuşmaya kılavuzu
- OpenAI Audio API başvurusu
- Azure Speech REST metinden konuşmaya
- Azure Speech sağlayıcısı
- ElevenLabs Text to Speech
- ElevenLabs Authentication
- Gradium
- Inworld TTS API
- MiniMax T2A v2 API
- Volcengine TTS HTTP API
- Xiaomi MiMo konuşma sentezi
- node-edge-tts
- Microsoft Speech çıktı biçimleri
- xAI metinden konuşmaya