OpenClaw 會產生圖片、影片和音樂,理解傳入媒體(圖片、音訊、影片),並使用文字轉語音大聲朗讀回覆。所有媒體能力都由工具驅動:agent 會根據對話決定何時使用它們,而且每個工具只有在至少設定一個支援提供者時才會出現。 即時語音使用 Talk 工作階段合約,而不是一次性媒體工具路徑。Talk 有三種模式:提供者原生的Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
realtime、本機或串流 stt-tts,以及用於僅觀察語音擷取的 transcription。這些模式與電話、會議、瀏覽器即時功能,以及原生按住說話用戶端共用提供者目錄、事件封套和取消語意。
能力
圖片產生
透過
image_generate 從文字提示或參考圖片建立和編輯圖片。同步 — 會在回覆中行內完成。影片產生
透過
video_generate 進行文字轉影片、圖片轉影片和影片轉影片。非同步 — 在背景執行,並在準備就緒時發布結果。音樂產生
透過
music_generate 產生音樂或音訊軌。共用提供者為非同步;ComfyUI 工作流程路徑會同步執行。文字轉語音
透過
tts 工具加上 messages.tts 設定,將輸出回覆轉換為語音音訊。同步。媒體理解
使用具備視覺能力的模型提供者和專用媒體理解 plugins,摘要傳入的圖片、音訊和影片。
語音轉文字
透過批次 STT 或 Voice Call 串流 STT 提供者轉錄傳入的語音訊息。
提供者能力矩陣
| 提供者 | 圖片 | 影片 | 音樂 | TTS | STT | 即時語音 | 媒體理解 |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
媒體理解會使用提供者設定中註冊的任何具備視覺能力或音訊能力的模型。上方矩陣列出具備專用媒體理解支援的提供者;大多數多模態 LLM 提供者(Anthropic、Google、OpenAI 等)在設定為作用中的回覆模型時,也可以理解傳入媒體。
非同步與同步
| 能力 | 模式 | 原因 |
|---|---|---|
| 圖片 | 同步 | 提供者回應會在數秒內返回;在回覆中行內完成。 |
| 文字轉語音 | 同步 | 提供者回應會在數秒內返回;附加到回覆音訊。 |
| 影片 | 非同步 | 提供者處理需要 30 秒到數分鐘;緩慢佇列可執行到設定的逾時時間。 |
| 音樂(共用) | 非同步 | 與影片相同的提供者處理特性。 |
| 音樂(ComfyUI) | 同步 | 本機工作流程會針對設定的 ComfyUI 伺服器行內執行。 |
語音轉文字與 Voice Call
Deepgram、DeepInfra、ElevenLabs、Mistral、OpenAI、OpenRouter、SenseAudio 和 xAI 在設定後,都可以透過批次tools.media.audio 路徑轉錄傳入音訊。預先檢查語音筆記以進行提及門控或命令解析的頻道 plugins,會在傳入內容中標記已轉錄的附件,因此共用媒體理解階段會重用該逐字稿,而不是對同一段音訊進行第二次 STT 呼叫。
Deepgram、ElevenLabs、Mistral、OpenAI 和 xAI 也會註冊 Voice Call 串流 STT 提供者,因此即時電話音訊可以轉送到選定的供應商,而不必等待錄音完成。
對於即時使用者對話,優先使用 Talk 模式。批次音訊附件會留在媒體路徑上;瀏覽器即時功能、原生按住說話、電話和會議音訊應使用 Talk 事件,以及 Gateway 傳回的工作階段範圍目錄。
提供者對應(供應商如何分散到各介面)
Google
圖片、影片、音樂、批次 TTS、後端即時語音,以及媒體理解介面。
OpenAI
OpenAI
圖片、影片、批次 TTS、批次 STT、Voice Call 串流 STT、後端即時語音,以及記憶嵌入介面。
DeepInfra
DeepInfra
聊天/模型路由、圖片產生/編輯、文字轉影片、批次 TTS、批次 STT、圖片媒體理解,以及記憶嵌入介面。DeepInfra 原生的重新排序/分類/物件偵測模型在 OpenClaw 具備這些類別的專用提供者合約之前,不會註冊。
xAI
xAI
圖片、影片、搜尋、程式碼執行、批次 TTS、批次 STT 和 Voice Call 串流 STT。xAI Realtime 語音是一項上游能力,但在共用即時語音合約能夠表示它之前,不會在 OpenClaw 中註冊。