OpenClaw có thể chuyển đổi các phản hồi gửi đi thành âm thanh qua 14 nhà cung cấp giọng nói và gửi tin nhắn thoại gốc trên Feishu, Matrix, Telegram và WhatsApp, tệp đính kèm âm thanh ở mọi nơi khác, cùng luồng PCM/Ulaw cho điện thoại và Talk.Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
Bắt đầu nhanh
Chọn một nhà cung cấp
OpenAI và ElevenLabs là các tùy chọn được lưu trữ đáng tin cậy nhất. Microsoft và
Local CLI hoạt động mà không cần khóa API. Xem ma trận nhà cung cấp
để biết danh sách đầy đủ.
Đặt khóa API
Xuất biến môi trường cho nhà cung cấp của bạn (ví dụ
OPENAI_API_KEY,
ELEVENLABS_API_KEY). Microsoft và Local CLI không cần khóa.Auto-TTS mặc định tắt. Khi chưa đặt
messages.tts.provider,
OpenClaw chọn nhà cung cấp đã cấu hình đầu tiên theo thứ tự tự động chọn của registry.Nhà cung cấp được hỗ trợ
| Nhà cung cấp | Xác thực | Ghi chú |
|---|---|---|
| Azure Speech | AZURE_SPEECH_KEY + AZURE_SPEECH_REGION (cũng có AZURE_SPEECH_API_KEY, SPEECH_KEY, SPEECH_REGION) | Đầu ra ghi chú thoại Ogg/Opus gốc và điện thoại. |
| DeepInfra | DEEPINFRA_API_KEY | TTS tương thích OpenAI. Mặc định là hexgrad/Kokoro-82M. |
| ElevenLabs | ELEVENLABS_API_KEY hoặc XI_API_KEY | Nhân bản giọng nói, đa ngôn ngữ, xác định qua seed. |
| Google Gemini | GEMINI_API_KEY hoặc GOOGLE_API_KEY | TTS Gemini API; nhận biết persona qua promptTemplate: "audio-profile-v1". |
| Gradium | GRADIUM_API_KEY | Đầu ra ghi chú thoại và điện thoại. |
| Inworld | INWORLD_API_KEY | API TTS truyền trực tuyến. Ghi chú thoại Opus gốc và điện thoại PCM. |
| Local CLI | không có | Chạy lệnh TTS cục bộ đã cấu hình. |
| Microsoft | không có | TTS thần kinh Edge công khai qua node-edge-tts. Nỗ lực tối đa, không có SLA. |
| MiniMax | MINIMAX_API_KEY (hoặc Token Plan: MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY, MINIMAX_CODING_API_KEY) | API T2A v2. Mặc định là speech-2.8-hd. |
| OpenAI | OPENAI_API_KEY | Cũng dùng cho tóm tắt tự động; hỗ trợ persona instructions. |
| OpenRouter | OPENROUTER_API_KEY (có thể tái sử dụng models.providers.openrouter.apiKey) | Mô hình mặc định hexgrad/kokoro-82m. |
| Volcengine | VOLCENGINE_TTS_API_KEY hoặc BYTEPLUS_SEED_SPEECH_API_KEY (AppID/token cũ: VOLCENGINE_TTS_APPID/_TOKEN) | API HTTP BytePlus Seed Speech. |
| Vydra | VYDRA_API_KEY | Nhà cung cấp hình ảnh, video và giọng nói dùng chung. |
| xAI | XAI_API_KEY | TTS theo lô của xAI. Ghi chú thoại Opus gốc không được hỗ trợ. |
| Xiaomi MiMo | XIAOMI_API_KEY | MiMo TTS thông qua completions trò chuyện của Xiaomi. |
summaryModel (hoặc
agents.defaults.model.primary), vì vậy nhà cung cấp đó cũng phải được xác thực
nếu bạn tiếp tục bật tóm tắt.
Cấu hình
Cấu hình TTS nằm trongmessages.tts ở ~/.openclaw/openclaw.json. Chọn một
preset và điều chỉnh khối nhà cung cấp:
- Azure Speech
- ElevenLabs
- Google Gemini
- Gradium
- Inworld
- Local CLI
- Microsoft (no key)
- MiniMax
- OpenAI + ElevenLabs
- OpenRouter
- Volcengine
- xAI
- Xiaomi MiMo
Ghi đè giọng nói theo từng agent
Dùngagents.list[].tts khi một agent cần phát thoại bằng nhà cung cấp,
giọng nói, model, persona hoặc chế độ auto-TTS khác. Khối agent được trộn sâu lên trên
messages.tts, nên thông tin xác thực của nhà cung cấp có thể giữ trong cấu hình nhà cung cấp toàn cục:
agents.list[].tts.persona cùng với cấu hình
nhà cung cấp — nó chỉ ghi đè messages.tts.persona toàn cục cho agent đó.
Thứ tự ưu tiên cho trả lời tự động, /tts audio, /tts status, và công cụ agent
tts:
messages.ttsagents.list[].ttsđang hoạt động- ghi đè kênh, khi kênh hỗ trợ
channels.<channel>.tts - ghi đè tài khoản, khi kênh truyền
channels.<channel>.accounts.<id>.tts - tùy chọn
/ttscục bộ cho máy chủ này - chỉ thị nội dòng
[[tts:...]]khi bật ghi đè do model điều khiển
messages.tts và
hợp nhất sâu lên các lớp trước đó, vì vậy thông tin xác thực nhà cung cấp dùng
chung có thể nằm trong messages.tts trong khi một kênh hoặc tài khoản bot chỉ
thay đổi giọng nói, mô hình, chân dung, hoặc chế độ tự động:
Chân dung
Một chân dung là một danh tính giọng nói ổn định có thể được áp dụng một cách xác định trên nhiều nhà cung cấp. Nó có thể ưu tiên một nhà cung cấp, định nghĩa ý định lời nhắc trung lập với nhà cung cấp, và mang các liên kết riêng theo nhà cung cấp cho giọng nói, mô hình, mẫu lời nhắc, seed, và thiết lập giọng nói.Chân dung tối thiểu
Chân dung đầy đủ (lời nhắc trung lập với nhà cung cấp)
Phân giải chân dung
Chân dung đang hoạt động được chọn một cách xác định:- Tùy chọn cục bộ
/tts persona <id>, nếu đã đặt. messages.tts.persona, nếu đã đặt.- Không có chân dung.
- Ghi đè trực tiếp (CLI, gateway, Talk, chỉ thị TTS được phép).
- Tùy chọn cục bộ
/tts provider <id>. providercủa chân dung đang hoạt động.messages.tts.provider.- Tự động chọn từ registry.
messages.tts.providers.<id>messages.tts.personas.<persona>.providers.<id>- Ghi đè yêu cầu tin cậy
- Ghi đè chỉ thị TTS do mô hình phát ra được phép
Cách nhà cung cấp dùng lời nhắc chân dung
Các trường lời nhắc chân dung (profile, scene, sampleContext, style, accent,
pacing, constraints) là trung lập với nhà cung cấp. Mỗi nhà cung cấp quyết định
cách dùng chúng:
Google Gemini
Google Gemini
Bọc các trường lời nhắc chân dung trong cấu trúc lời nhắc Gemini TTS chỉ khi
cấu hình nhà cung cấp Google có hiệu lực đặt
promptTemplate: "audio-profile-v1"
hoặc personaPrompt. Các trường cũ hơn audioProfile và speakerName vẫn
được thêm vào đầu dưới dạng văn bản lời nhắc riêng cho Google. Các thẻ âm thanh
nội tuyến như [whispers] hoặc [laughs] bên trong khối [[tts:text]] được giữ
nguyên trong bản ghi Gemini; OpenClaw không tạo các thẻ này.OpenAI
OpenAI
Ánh xạ các trường lời nhắc chân dung vào trường
instructions của yêu cầu chỉ khi
không có instructions OpenAI rõ ràng nào được cấu hình. instructions rõ ràng
luôn thắng.Nhà cung cấp khác
Nhà cung cấp khác
Chỉ dùng các liên kết chân dung riêng theo nhà cung cấp bên dưới
personas.<id>.providers.<provider>. Các trường lời nhắc chân dung bị bỏ qua
trừ khi nhà cung cấp triển khai ánh xạ lời nhắc chân dung riêng.Chính sách dự phòng
fallbackPolicy kiểm soát hành vi khi một chân dung không có liên kết cho
nhà cung cấp được thử:
| Chính sách | Hành vi |
|---|---|
preserve-persona | Mặc định. Các trường lời nhắc trung lập với nhà cung cấp vẫn khả dụng; nhà cung cấp có thể dùng hoặc bỏ qua chúng. |
provider-defaults | Chân dung bị bỏ khỏi bước chuẩn bị lời nhắc cho lần thử đó; nhà cung cấp dùng mặc định trung lập của mình trong khi tiếp tục dự phòng sang nhà cung cấp khác. |
fail | Bỏ qua lần thử nhà cung cấp đó với reasonCode: "not_configured" và personaBinding: "missing". Các nhà cung cấp dự phòng vẫn được thử. |
Chỉ thị do mô hình điều khiển
Theo mặc định, trợ lý có thể phát ra các chỉ thị[[tts:...]] để ghi đè
giọng nói, mô hình, hoặc tốc độ cho một phản hồi, cùng với một khối tùy chọn
[[tts:text]]...[[/tts:text]] cho các gợi ý biểu cảm chỉ nên xuất hiện trong
âm thanh:
messages.tts.auto là "tagged", bắt buộc phải có chỉ thị để kích hoạt
âm thanh. Việc phân phối khối streaming loại bỏ chỉ thị khỏi văn bản hiển thị
trước khi kênh thấy chúng, kể cả khi bị tách qua các khối liền kề.
provider=... bị bỏ qua trừ khi modelOverrides.allowProvider: true. Khi một
phản hồi khai báo provider=..., các khóa khác trong chỉ thị đó chỉ được phân
tích bởi nhà cung cấp đó; các khóa không được hỗ trợ bị loại bỏ và được báo cáo
dưới dạng cảnh báo chỉ thị TTS.
Các khóa chỉ thị khả dụng:
provider(id nhà cung cấp đã đăng ký; yêu cầuallowProvider: true)voice/voiceName/voice_name/google_voice/voiceIdmodel/google_modelstability,similarityBoost,style,speed,useSpeakerBoostvol/volume(âm lượng MiniMax, 0–10)pitch(cao độ nguyên MiniMax, −12 đến 12; giá trị thập phân bị cắt bỏ)emotion(thẻ cảm xúc Volcengine)applyTextNormalization(auto|on|off)languageCode(ISO 639-1)seed
Lệnh slash
Một lệnh duy nhất/tts. Trên Discord, OpenClaw cũng đăng ký /voice vì
/tts là lệnh tích hợp sẵn của Discord — văn bản /tts ... vẫn hoạt động.
Lệnh yêu cầu người gửi được ủy quyền (áp dụng quy tắc allowlist/chủ sở hữu) và
commands.text hoặc đăng ký lệnh gốc phải được bật./tts onghi tùy chọn TTS cục bộ thànhalways;/tts offghi thànhoff./tts chat on|off|defaultghi một ghi đè auto-TTS theo phạm vi phiên cho cuộc trò chuyện hiện tại./tts persona <id>ghi tùy chọn chân dung cục bộ;/tts persona offxóa nó./tts latestđọc phản hồi trợ lý mới nhất từ bản ghi phiên hiện tại và gửi nó dưới dạng âm thanh một lần. Nó chỉ lưu hash của phản hồi đó trên mục phiên để ngăn gửi giọng nói trùng lặp./tts audiotạo một phản hồi âm thanh một lần (không bật TTS).limitvàsummaryđược lưu trong tùy chọn cục bộ, không phải cấu hình chính./tts statusbao gồm chẩn đoán dự phòng cho lần thử mới nhất —Fallback: <primary> -> <used>,Attempts: ..., và chi tiết theo từng lần thử (provider:outcome(reasonCode) latency)./statushiển thị chế độ TTS đang hoạt động cùng nhà cung cấp, mô hình, giọng nói đã cấu hình, và siêu dữ liệu endpoint tùy chỉnh đã được làm sạch khi TTS được bật.
Tùy chọn theo người dùng
Các lệnh slash ghi ghi đè cục bộ vàoprefsPath. Mặc định là
~/.openclaw/settings/tts.json; ghi đè bằng biến môi trường OPENCLAW_TTS_PREFS
hoặc messages.tts.prefsPath.
| Trường đã lưu | Hiệu lực |
|---|---|
auto | Ghi đè auto-TTS cục bộ (always, off, …) |
provider | Ghi đè nhà cung cấp chính cục bộ |
persona | Ghi đè chân dung cục bộ |
maxLength | Ngưỡng tóm tắt (mặc định 1500 ký tự) |
summarize | Công tắc tóm tắt (mặc định true) |
messages.tts cộng với khối
agents.list[].tts đang hoạt động cho host đó.
Định dạng đầu ra (cố định)
Việc phân phối giọng nói TTS được điều khiển bởi năng lực kênh. Các plugin kênh quảng bá liệu TTS kiểu giọng nói nên yêu cầu nhà cung cấp dùng đíchvoice-note
gốc hay giữ tổng hợp audio-file thông thường và chỉ đánh dấu đầu ra tương thích
để phân phối giọng nói.
- Các kênh hỗ trợ ghi chú thoại: câu trả lời ghi chú thoại ưu tiên Opus (
opus_48000_64từ ElevenLabs,opustừ OpenAI).- 48kHz / 64kbps là mức đánh đổi phù hợp cho tin nhắn thoại.
- Feishu / WhatsApp: khi câu trả lời ghi chú thoại được tạo dưới dạng MP3/WebM/WAV/M4A
hoặc một tệp có khả năng là âm thanh khác, Plugin kênh sẽ chuyển mã tệp đó sang
Ogg/Opus 48kHz bằng
ffmpegtrước khi gửi tin nhắn thoại gốc. WhatsApp gửi kết quả qua tải trọngaudiocủa Baileys vớiptt: truevàaudio/ogg; codecs=opus. Nếu chuyển đổi thất bại, Feishu nhận tệp gốc dưới dạng tệp đính kèm; lượt gửi WhatsApp sẽ thất bại thay vì đăng tải trọng PTT không tương thích. - BlueBubbles: giữ quá trình tổng hợp của nhà cung cấp trên đường dẫn tệp âm thanh thông thường; đầu ra MP3 và CAF được đánh dấu để gửi bản ghi nhớ thoại iMessage.
- Các kênh khác: MP3 (
mp3_44100_128từ ElevenLabs,mp3từ OpenAI).- 44.1kHz / 128kbps là mức cân bằng mặc định cho độ rõ của giọng nói.
- MiniMax: MP3 (mô hình
speech-2.8-hd, tần số lấy mẫu 32kHz) cho tệp đính kèm âm thanh thông thường. Đối với các mục tiêu ghi chú thoại do kênh quảng bá, OpenClaw chuyển mã MP3 của MiniMax sang Opus 48kHz bằngffmpegtrước khi phân phối khi kênh quảng bá khả năng chuyển mã. - Xiaomi MiMo: mặc định là MP3, hoặc WAV khi được cấu hình. Đối với các mục tiêu ghi chú thoại do kênh quảng bá, OpenClaw chuyển mã đầu ra Xiaomi sang Opus 48kHz bằng
ffmpegtrước khi phân phối khi kênh quảng bá khả năng chuyển mã. - CLI cục bộ: sử dụng
outputFormatđã cấu hình. Các mục tiêu ghi chú thoại được chuyển đổi sang Ogg/Opus và đầu ra điện thoại được chuyển đổi sang PCM đơn âm 16 kHz thô bằngffmpeg. - Google Gemini: TTS API Gemini trả về PCM 24kHz thô. OpenClaw bọc nó dưới dạng WAV cho tệp đính kèm âm thanh, chuyển mã sang Opus 48kHz cho mục tiêu ghi chú thoại, và trả về PCM trực tiếp cho Talk/điện thoại.
- Gradium: WAV cho tệp đính kèm âm thanh, Opus cho mục tiêu ghi chú thoại, và
ulaw_8000ở 8 kHz cho điện thoại. - Inworld: MP3 cho tệp đính kèm âm thanh thông thường,
OGG_OPUSgốc cho mục tiêu ghi chú thoại, vàPCMthô ở 22050 Hz cho Talk/điện thoại. - xAI: mặc định là MP3;
responseFormatcó thể làmp3,wav,pcm,mulaw, hoặcalaw. OpenClaw sử dụng điểm cuối TTS REST theo lô của xAI và trả về một tệp đính kèm âm thanh hoàn chỉnh; WebSocket TTS phát trực tuyến của xAI không được đường dẫn nhà cung cấp này sử dụng. Đường dẫn này không hỗ trợ định dạng ghi chú thoại Opus gốc. - Microsoft: sử dụng
microsoft.outputFormat(mặc địnhaudio-24khz-48kbitrate-mono-mp3).- Phương thức truyền tải đi kèm chấp nhận
outputFormat, nhưng không phải tất cả định dạng đều có sẵn từ dịch vụ. - Giá trị định dạng đầu ra tuân theo các định dạng đầu ra Microsoft Speech (bao gồm Ogg/WebM Opus).
- Telegram
sendVoicechấp nhận OGG/MP3/M4A; hãy dùng OpenAI/ElevenLabs nếu bạn cần tin nhắn thoại Opus được bảo đảm. - Nếu định dạng đầu ra Microsoft đã cấu hình thất bại, OpenClaw thử lại bằng MP3.
- Phương thức truyền tải đi kèm chấp nhận
Hành vi Auto-TTS
Khimessages.tts.auto được bật, OpenClaw:
- Bỏ qua TTS nếu câu trả lời đã chứa phương tiện hoặc chỉ thị
MEDIA:. - Bỏ qua các câu trả lời rất ngắn (dưới 10 ký tự).
- Tóm tắt các câu trả lời dài khi tính năng tóm tắt được bật, sử dụng
summaryModel(hoặcagents.defaults.model.primary). - Đính kèm âm thanh đã tạo vào câu trả lời.
- Trong
mode: "final", vẫn gửi TTS chỉ có âm thanh cho các câu trả lời cuối cùng được phát trực tuyến sau khi luồng văn bản hoàn tất; phương tiện đã tạo đi qua cùng quá trình chuẩn hóa phương tiện của kênh như các tệp đính kèm câu trả lời thông thường.
maxLength và tính năng tóm tắt bị tắt (hoặc không có khóa API cho
mô hình tóm tắt), âm thanh sẽ bị bỏ qua và câu trả lời văn bản thông thường được gửi.
Định dạng đầu ra theo kênh
| Đích | Định dạng |
|---|---|
| Feishu / Matrix / Telegram / WhatsApp | Phản hồi tin nhắn thoại ưu tiên Opus (opus_48000_64 từ ElevenLabs, opus từ OpenAI). 48 kHz / 64 kbps cân bằng độ rõ và kích thước. |
| Các kênh khác | MP3 (mp3_44100_128 từ ElevenLabs, mp3 từ OpenAI). 44.1 kHz / 128 kbps mặc định cho giọng nói. |
| Talk / điện thoại | PCM gốc của nhà cung cấp (Inworld 22050 Hz, Google 24 kHz), hoặc ulaw_8000 từ Gradium cho điện thoại. |
- Chuyển mã Feishu / WhatsApp: Khi phản hồi tin nhắn thoại đến dưới dạng MP3/WebM/WAV/M4A, Plugin kênh chuyển mã sang 48 kHz Ogg/Opus bằng
ffmpeg. WhatsApp gửi qua Baileys vớiptt: truevàaudio/ogg; codecs=opus. Nếu chuyển đổi thất bại: Feishu quay lại đính kèm tệp gốc; WhatsApp gửi thất bại thay vì đăng tải payload PTT không tương thích. - MiniMax / Xiaomi MiMo: Mặc định MP3 (32 kHz cho MiniMax
speech-2.8-hd); được chuyển mã sang 48 kHz Opus cho các đích tin nhắn thoại quaffmpeg. - CLI cục bộ: Sử dụng
outputFormatđã cấu hình. Các đích tin nhắn thoại được chuyển đổi sang Ogg/Opus và đầu ra điện thoại sang PCM mono 16 kHz thô. - Google Gemini: Trả về PCM thô 24 kHz. OpenClaw bọc dưới dạng WAV cho tệp đính kèm, chuyển mã sang 48 kHz Opus cho các đích tin nhắn thoại, trả về PCM trực tiếp cho Talk/điện thoại.
- Inworld: Tệp đính kèm MP3, tin nhắn thoại
OGG_OPUSgốc,PCMthô 22050 Hz cho Talk/điện thoại. - xAI: Mặc định MP3;
responseFormatcó thể làmp3|wav|pcm|mulaw|alaw. Sử dụng endpoint batch REST của xAI — TTS WebSocket phát trực tuyến không được dùng. Định dạng tin nhắn thoại Opus gốc không được hỗ trợ. - Microsoft: Sử dụng
microsoft.outputFormat(mặc địnhaudio-24khz-48kbitrate-mono-mp3). TelegramsendVoicechấp nhận OGG/MP3/M4A; dùng OpenAI/ElevenLabs nếu bạn cần tin nhắn thoại Opus được đảm bảo. Nếu định dạng Microsoft đã cấu hình thất bại, OpenClaw thử lại với MP3.
Tham chiếu trường
Top-level messages.tts.*
Top-level messages.tts.*
Chế độ Auto-TTS.
inbound chỉ gửi âm thanh sau một tin nhắn thoại đến; tagged chỉ gửi âm thanh khi phản hồi bao gồm chỉ thị [[tts:...]] hoặc khối [[tts:text]].Công tắc kế thừa.
openclaw doctor --fix di chuyển giá trị này sang auto."all" bao gồm phản hồi công cụ/khối ngoài phản hồi cuối cùng.ID nhà cung cấp giọng nói. Khi chưa đặt, OpenClaw sử dụng nhà cung cấp đã cấu hình đầu tiên trong thứ tự tự động chọn của registry.
provider: "edge" kế thừa được openclaw doctor --fix viết lại thành "microsoft".ID persona đang hoạt động từ
personas. Được chuẩn hóa thành chữ thường.Danh tính nói ổn định. Trường:
label, description, provider, fallbackPolicy, prompt, providers.<provider>. Xem Personas.Mô hình rẻ cho tự động tóm tắt; mặc định là
agents.defaults.model.primary. Chấp nhận provider/model hoặc alias mô hình đã cấu hình.Cho phép mô hình phát ra chỉ thị TTS.
enabled mặc định là true; allowProvider mặc định là false.Thiết lập do nhà cung cấp sở hữu, được khóa theo ID nhà cung cấp giọng nói. Các khối trực tiếp kế thừa (
messages.tts.openai, .elevenlabs, .microsoft, .edge) được openclaw doctor --fix viết lại; chỉ commit messages.tts.providers.<id>.Giới hạn cứng cho số ký tự đầu vào TTS.
/tts audio thất bại nếu vượt quá.Thời gian chờ yêu cầu tính bằng mili giây.
Ghi đè đường dẫn JSON tùy chọn cục bộ (nhà cung cấp/giới hạn/tóm tắt). Mặc định
~/.openclaw/settings/tts.json.Azure Speech
Azure Speech
Env:
AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY, hoặc SPEECH_KEY.Vùng Azure Speech (ví dụ
eastus). Env: AZURE_SPEECH_REGION hoặc SPEECH_REGION.Ghi đè endpoint Azure Speech tùy chọn (alias
baseUrl).ShortName giọng nói Azure. Mặc định
en-US-JennyNeural.Mã ngôn ngữ SSML. Mặc định
en-US.Azure
X-Microsoft-OutputFormat cho âm thanh tiêu chuẩn. Mặc định audio-24khz-48kbitrate-mono-mp3.Azure
X-Microsoft-OutputFormat cho đầu ra tin nhắn thoại. Mặc định ogg-24khz-16bit-mono-opus.ElevenLabs
ElevenLabs
Dự phòng về
ELEVENLABS_API_KEY hoặc XI_API_KEY.ID mô hình (ví dụ
eleven_multilingual_v2, eleven_v3).ID giọng nói ElevenLabs.
stability, similarityBoost, style (mỗi giá trị 0..1), useSpeakerBoost (true|false), speed (0.5..2.0, 1.0 = bình thường).Chế độ chuẩn hóa văn bản.
ISO 639-1 gồm 2 chữ cái (ví dụ
en, de).Số nguyên
0..4294967295 cho tính tất định theo nỗ lực tốt nhất.Ghi đè URL cơ sở API ElevenLabs.
Google Gemini
Google Gemini
Dự phòng về
GEMINI_API_KEY / GOOGLE_API_KEY. Nếu bỏ qua, TTS có thể dùng lại models.providers.google.apiKey trước khi dự phòng về env.Mô hình TTS Gemini. Mặc định
gemini-3.1-flash-tts-preview.Tên giọng nói dựng sẵn của Gemini. Mặc định
Kore. Alias: voice.Prompt phong cách bằng ngôn ngữ tự nhiên được thêm trước văn bản sẽ nói.
Nhãn người nói tùy chọn được thêm trước văn bản sẽ nói khi prompt của bạn dùng một người nói được đặt tên.
Đặt thành
audio-profile-v1 để bọc các trường prompt persona đang hoạt động trong cấu trúc prompt TTS Gemini tất định.Văn bản prompt persona bổ sung dành riêng cho Google, được nối vào Ghi chú của Đạo diễn trong mẫu.
Chỉ chấp nhận
https://generativelanguage.googleapis.com.Gradium
Gradium
Inworld
Inworld
CLI cục bộ (tts-local-cli)
CLI cục bộ (tts-local-cli)
Tệp thực thi cục bộ hoặc chuỗi lệnh cho CLI TTS.
Đối số lệnh. Hỗ trợ các placeholder
{{Text}}, {{OutputPath}}, {{OutputDir}}, {{OutputBase}}.Định dạng đầu ra CLI dự kiến. Mặc định
mp3 cho tệp đính kèm âm thanh.Thời gian chờ lệnh tính bằng mili giây. Mặc định
120000.Thư mục làm việc tùy chọn của lệnh.
Các ghi đè môi trường tùy chọn cho lệnh.
Microsoft (không có khóa API)
Microsoft (không có khóa API)
Cho phép sử dụng giọng nói Microsoft.
Tên giọng neural Microsoft (ví dụ:
en-US-MichelleNeural).Mã ngôn ngữ (ví dụ:
en-US).Định dạng đầu ra Microsoft. Mặc định
audio-24khz-48kbitrate-mono-mp3. Không phải định dạng nào cũng được transport dựa trên Edge đi kèm hỗ trợ.Chuỗi phần trăm (ví dụ:
+10%, -5%).Ghi phụ đề JSON cùng với tệp âm thanh.
URL proxy cho yêu cầu giọng nói Microsoft.
Ghi đè thời gian chờ yêu cầu (ms).
Bí danh legacy. Chạy
openclaw doctor --fix để viết lại cấu hình đã lưu thành providers.microsoft.MiniMax
MiniMax
Dự phòng về
MINIMAX_API_KEY. Xác thực Token Plan qua MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY, hoặc MINIMAX_CODING_API_KEY.Mặc định
https://api.minimax.io. Env: MINIMAX_API_HOST.Mặc định
speech-2.8-hd. Env: MINIMAX_TTS_MODEL.Mặc định
English_expressive_narrator. Env: MINIMAX_TTS_VOICE_ID.0.5..2.0. Mặc định 1.0.(0, 10]. Mặc định 1.0.Số nguyên
-12..12. Mặc định 0. Giá trị thập phân bị cắt bỏ trước yêu cầu.OpenAI
OpenAI
Dự phòng về
OPENAI_API_KEY.ID mô hình OpenAI TTS (ví dụ:
gpt-4o-mini-tts).Tên giọng nói (ví dụ:
alloy, cedar).Trường
instructions rõ ràng của OpenAI. Khi được đặt, các trường lời nhắc persona không được tự động ánh xạ.Ghi đè endpoint OpenAI TTS. Thứ tự phân giải: cấu hình →
OPENAI_TTS_BASE_URL → https://api.openai.com/v1. Các giá trị không mặc định được xem là endpoint TTS tương thích OpenAI, vì vậy tên mô hình và giọng nói tùy chỉnh được chấp nhận.OpenRouter
OpenRouter
Env:
OPENROUTER_API_KEY. Có thể dùng lại models.providers.openrouter.apiKey.Mặc định
https://openrouter.ai/api/v1. Legacy https://openrouter.ai/v1 được chuẩn hóa.Mặc định
hexgrad/kokoro-82m. Bí danh: modelId.Mặc định
af_alloy. Bí danh: voiceId.Mặc định
mp3.Ghi đè tốc độ gốc của nhà cung cấp.
Volcengine (BytePlus Seed Speech)
Volcengine (BytePlus Seed Speech)
Env:
VOLCENGINE_TTS_API_KEY hoặc BYTEPLUS_SEED_SPEECH_API_KEY.Mặc định
seed-tts-1.0. Env: VOLCENGINE_TTS_RESOURCE_ID. Dùng seed-tts-2.0 khi dự án của bạn có quyền sử dụng TTS 2.0.Header khóa ứng dụng. Mặc định
aGjiRDfUWi. Env: VOLCENGINE_TTS_APP_KEY.Ghi đè endpoint HTTP Seed Speech TTS. Env:
VOLCENGINE_TTS_BASE_URL.Kiểu giọng nói. Mặc định
en_female_anna_mars_bigtts. Env: VOLCENGINE_TTS_VOICE.Tỷ lệ tốc độ gốc của nhà cung cấp.
Thẻ cảm xúc gốc của nhà cung cấp.
Các trường Volcengine Speech Console legacy. Env:
VOLCENGINE_TTS_APPID, VOLCENGINE_TTS_TOKEN, VOLCENGINE_TTS_CLUSTER (mặc định volcano_tts).xAI
xAI
Env:
XAI_API_KEY.Mặc định
https://api.x.ai/v1. Env: XAI_BASE_URL.Mặc định
eve. Giọng nói live: ara, eve, leo, rex, sal, una.Mã ngôn ngữ BCP-47 hoặc
auto. Mặc định en.Mặc định
mp3.Ghi đè tốc độ gốc của nhà cung cấp.
Xiaomi MiMo
Xiaomi MiMo
Env:
XIAOMI_API_KEY.Mặc định
https://api.xiaomimimo.com/v1. Env: XIAOMI_BASE_URL.Mặc định
mimo-v2.5-tts. Env: XIAOMI_TTS_MODEL. Cũng hỗ trợ mimo-v2-tts.Mặc định
mimo_default. Env: XIAOMI_TTS_VOICE.Mặc định
mp3. Env: XIAOMI_TTS_FORMAT.Chỉ dẫn phong cách bằng ngôn ngữ tự nhiên tùy chọn được gửi dưới dạng tin nhắn người dùng; không được đọc thành tiếng.
Công cụ agent
Công cụtts chuyển đổi văn bản thành giọng nói và trả về tệp đính kèm âm thanh để
gửi phản hồi. Trên Feishu, Matrix, Telegram và WhatsApp, âm thanh được
gửi dưới dạng tin nhắn thoại thay vì tệp đính kèm. Feishu và
WhatsApp có thể chuyển mã đầu ra TTS không phải Opus trên đường dẫn này khi có
ffmpeg.
WhatsApp gửi âm thanh qua Baileys dưới dạng ghi chú thoại PTT (audio với
ptt: true) và gửi văn bản hiển thị riêng biệt với âm thanh PTT vì
client không hiển thị nhất quán chú thích trên ghi chú thoại.
Công cụ chấp nhận các trường channel và timeoutMs tùy chọn; timeoutMs là
thời gian chờ yêu cầu nhà cung cấp cho mỗi lệnh gọi, tính bằng mili giây.
Gateway RPC
| Phương thức | Mục đích |
|---|---|
tts.status | Đọc trạng thái TTS hiện tại và lần thử gần nhất. |
tts.enable | Đặt tùy chọn tự động cục bộ thành always. |
tts.disable | Đặt tùy chọn tự động cục bộ thành off. |
tts.convert | Chuyển đổi một lần văn bản → âm thanh. |
tts.setProvider | Đặt tùy chọn nhà cung cấp cục bộ. |
tts.setPersona | Đặt tùy chọn persona cục bộ. |
tts.providers | Liệt kê các nhà cung cấp đã cấu hình và trạng thái. |
Liên kết dịch vụ
- Hướng dẫn chuyển văn bản thành giọng nói của OpenAI
- Tài liệu tham khảo OpenAI Audio API
- Azure Speech REST chuyển văn bản thành giọng nói
- Nhà cung cấp Azure Speech
- ElevenLabs Text to Speech
- Xác thực ElevenLabs
- Gradium
- Inworld TTS API
- MiniMax T2A v2 API
- Volcengine TTS HTTP API
- Tổng hợp giọng nói Xiaomi MiMo
- node-edge-tts
- Định dạng đầu ra Microsoft Speech
- xAI chuyển văn bản thành giọng nói