Tools

媒體概覽

OpenClaw 可生成圖片、影片與音樂、理解傳入的媒體（圖片、音訊、影片），並透過文字轉語音朗讀回覆。所有媒體功能皆由工具驅動：代理程式會根據對話決定何時使用，而且每項工具只有在至少設定一個支援供應商時才會出現。

即時語音使用 Talk 工作階段合約，而非單次媒體工具路徑。Talk 有三種模式：供應商原生 realtime、本機或串流 stt-tts，以及用於僅觀察語音擷取的 transcription。這些模式與電話、會議、瀏覽器即時通訊及原生按住說話用戶端共用供應商目錄、事件封套與取消語意。

功能

圖片生成

透過 image_generate，依據文字提示或參考圖片建立及編輯圖片。在聊天工作階段中採非同步處理——於背景執行，並在準備完成後發布結果。

影片生成

透過 video_generate 進行文字轉影片、圖片轉影片及影片轉影片。採非同步處理——於背景執行，並在準備完成後發布結果。

音樂生成

透過 music_generate 生成音樂或音軌。在聊天工作階段中，使用共用的媒體生成任務生命週期進行非同步處理。

文字轉語音

透過 tts 工具與 tts 設定，將傳出的回覆轉換為語音。採同步處理。

媒體理解

使用具備視覺能力的模型供應商及專用媒體理解外掛，摘要傳入的圖片、音訊與影片。

語音轉文字

透過批次 STT 或 Voice Call 串流 STT 供應商，轉錄傳入的語音訊息。

供應商功能矩陣

供應商	圖片	影片	音樂	TTS	STT	即時語音	媒體理解
Alibaba		✓
Azure Speech				✓
BytePlus		✓
ComfyUI	✓	✓	✓
Deepgram					✓
DeepInfra	✓	✓		✓	✓		✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓	✓	✓	✓
Gradium				✓
Inworld				✓
LiteLLM	✓
本機命令列介面				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
PixVerse		✓
Qwen		✓					✓
Runway		✓
SenseAudio					✓
Together		✓
Volcengine				✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo				✓

非同步與同步

功能	模式	原因
圖片	非同步	供應商處理時間可能超過一輪聊天；生成的附件使用共用完成路徑。
文字轉語音	同步	供應商會在數秒內傳回回應；音訊會附加至回覆。
影片	非同步	供應商處理需要 30 秒至數分鐘；緩慢的佇列最長可執行至設定的逾時時間。
音樂	非同步	與影片具有相同的供應商處理特性。

對於非同步工具，OpenClaw 會將請求提交給供應商、立即傳回任務 ID，並在任務帳本中追蹤工作。工作執行期間，代理程式會繼續回應其他訊息。供應商完成後，OpenClaw 會使用生成的媒體路徑喚醒代理程式，讓代理程式透過工作階段的一般可見回覆模式通知使用者：若已設定，則自動傳送最終回覆；若工作階段要求使用訊息工具，則使用 message(action="send")。如果發出請求的工作階段處於非作用中狀態，或其主動喚醒失敗，而且完成回覆中仍缺少部分生成的媒體， OpenClaw 會以冪等方式直接傳送備援回覆，其中只包含缺少的媒體。已由完成回覆傳送的媒體不會再次發布。

語音轉文字與 Voice Call

設定後，Deepgram、DeepInfra、ElevenLabs、Google、Groq、Mistral、OpenAI、OpenRouter、 SenseAudio 與 xAI 都能透過批次 tools.media.audio 路徑轉錄傳入的音訊。為了執行提及閘控或命令剖析而預先檢查語音留言的頻道外掛，會在傳入內容中標記已轉錄的附件，讓共用媒體理解階段重複使用該逐字稿，而不會對同一段音訊進行第二次 STT 呼叫。

Deepgram、ElevenLabs、Mistral、OpenAI 與 xAI 也會註冊 Voice Call 串流 STT 供應商，因此即時電話音訊可直接轉送給所選供應商，而不必等待錄音完成。

即時使用者對話建議使用 Talk 模式。批次音訊附件仍使用媒體路徑；瀏覽器即時通訊、原生按住說話、電話及會議音訊應使用 Talk 事件，以及閘道傳回的工作階段範圍目錄。

供應商對應關係（供應商如何分布於各介面）

Google

圖片、影片、音樂、批次 TTS、批次 STT、後端即時語音，以及媒體理解介面。

OpenAI

圖片、影片、批次 TTS、批次 STT、Voice Call 串流 STT、後端即時語音，以及記憶嵌入介面。

DeepInfra

聊天／模型路由、圖片生成／編輯、文字轉影片、批次 TTS、批次 STT、圖片媒體理解，以及記憶嵌入介面。 DeepInfra 也提供重新排序、分類、物件偵測及其他原生模型類型；OpenClaw 尚未針對這些類別提供供應商合約，因此此外掛不會註冊這些類型。

xAI

圖片、影片、搜尋、程式碼執行、批次 TTS、批次 STT，以及 Voice Call 串流 STT。xAI 即時語音是上游功能，但在共用即時語音合約能夠表示它之前，不會在 OpenClaw 中註冊。

媒體概覽

功能

供應商功能矩陣

非同步與同步

語音轉文字與 Voice Call

供應商對應關係（供應商如何分布於各介面）

相關內容

On this page

Molty