内置工具

媒体概览

OpenClaw 可生成图像、视频和音乐，理解入站媒体（图像、音频、视频），并通过文本转语音朗读回复。所有媒体能力均由工具驱动：智能体根据对话决定何时使用它们，且每个工具仅在配置了至少一个后端提供商时才会出现。

实时语音使用 Talk 会话契约，而非一次性媒体工具路径。Talk 有三种模式：提供商原生的 realtime、本地或流式 stt-tts，以及用于仅观察式语音捕获的 transcription。这些模式与电话、会议、浏览器实时通信和原生按键通话客户端共享提供商目录、事件信封和取消语义。

能力

图像生成

通过 image_generate，根据文本提示词或参考图像创建和编辑图像。在聊天会话中异步执行——在后台运行，并在准备就绪后发布结果。

视频生成

通过 video_generate 实现文本生成视频、图像生成视频和视频转换视频。异步执行——在后台运行，并在准备就绪后发布结果。

音乐生成

通过 music_generate 生成音乐或音轨。在聊天会话中基于共享的媒体生成任务生命周期异步执行。

文本转语音

通过 tts 工具和 tts 配置，将出站回复转换为语音音频。同步执行。

媒体理解

使用具备视觉能力的模型提供商和专用媒体理解插件，总结入站图像、音频和视频。

语音转文本

通过批量 STT 或语音通话流式 STT 提供商转录入站语音消息。

提供商能力矩阵

提供商	图像	视频	音乐	TTS	STT	实时语音	媒体理解
Alibaba		✓
Azure Speech				✓
BytePlus		✓
ComfyUI	✓	✓	✓
Deepgram					✓
DeepInfra	✓	✓		✓	✓		✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓	✓	✓	✓
Gradium				✓
Inworld				✓
LiteLLM	✓
Local CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
PixVerse		✓
Qwen		✓					✓
Runway		✓
SenseAudio					✓
Together		✓
Volcengine				✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo				✓

异步与同步

能力	模式	原因
图像	异步	提供商处理可能超出一个聊天轮次；生成的附件使用共享完成路径。
文本转语音	同步	提供商响应会在数秒内返回；附加到回复音频。
视频	异步	提供商处理需要 30 s 到数分钟；较慢的队列最长可运行到配置的超时时间。
音乐	异步	与视频具有相同的提供商处理特性。

对于异步工具，OpenClaw 将请求提交给提供商，立即返回任务 ID，并在任务账本中跟踪该作业。作业运行期间，智能体会继续响应其他消息。提供商完成后， OpenClaw 会使用生成的媒体路径唤醒智能体，使其可通过会话的正常可见回复模式告知用户：配置后自动发送最终回复，或在会话要求使用消息工具时使用 message(action="send")。如果请求方会话处于非活动状态或其主动唤醒失败，且完成回复中仍缺少部分生成的媒体， OpenClaw 会发送一次幂等的直接回退，其中仅包含缺失的媒体。已通过完成回复发送的媒体不会再次发布。

语音转文本和语音通话

配置后，Deepgram、DeepInfra、ElevenLabs、Google、Groq、Mistral、OpenAI、OpenRouter、 SenseAudio 和 xAI 均可通过批量 tools.media.audio 路径转录入站音频。为提及门控或命令解析预检语音消息的渠道插件会在入站上下文中标记已转录的附件，因此共享媒体理解流程会复用该转录文本，而不会对同一段音频再次发起 STT 调用。

Deepgram、ElevenLabs、Mistral、OpenAI 和 xAI 还注册了语音通话流式 STT 提供商，因此实时电话音频无需等待录音完成，即可转发到选定的供应商。

对于实时用户对话，优先使用 Talk 模式。批量音频附件仍使用媒体路径；浏览器实时通信、原生按键通话、电话和会议音频应使用 Talk 事件，以及 Gateway 网关返回的会话范围目录。

提供商映射（供应商如何分布于各个功能面）

Google

图像、视频、音乐、批量 TTS、批量 STT、后端实时语音和媒体理解功能面。

OpenAI

图像、视频、批量 TTS、批量 STT、语音通话流式 STT、后端实时语音和记忆嵌入功能面。

DeepInfra

聊天/模型路由、图像生成/编辑、文本生成视频、批量 TTS、批量 STT、图像媒体理解和记忆嵌入功能面。 DeepInfra 还提供重排序、分类、对象检测和其他原生模型类型；OpenClaw 尚未针对这些类别提供提供商契约，因此此插件不会注册它们。

xAI

图像、视频、搜索、代码执行、批量 TTS、批量 STT 和语音通话流式 STT。xAI 实时语音是一项上游能力，但在共享实时语音契约能够表示它之前，不会在 OpenClaw 中注册。

媒体概览

能力

提供商能力矩阵

异步与同步

语音转文本和语音通话

提供商映射（供应商如何分布于各个功能面）

相关内容

On this page

Molty