快速开始

音乐生成

music_generate 工具通过由 ComfyUI、fal、Google、MiniMax 和 OpenRouter 支持的共享音乐生成能力创建音乐或音频。

对于由会话支持的 Agent 运行，music_generate 会作为后台任务启动，在任务账本中跟踪进度，然后在曲目准备好后唤醒 Agent，以便它通知用户并附上完成的音频。完成 Agent 遵循会话的可见回复契约：配置后自动最终回复，或当会话要求使用消息工具时使用 message(action="send")。如果请求方会话处于非活动状态，或唤醒失败且回复中仍缺少生成的音频，OpenClaw 会发送一个幂等的直接回退，仅包含缺失的音频。

快速开始

共享提供商支持

配置凭证

为至少一个提供商设置 API key，例如 GEMINI_API_KEY 或 MINIMAX_API_KEY。

选择默认模型（可选）

json5

{  agents: {    defaults: {      musicGenerationModel: {        primary: "google/lyria-3-clip-preview",      },    },  },}

询问 Agent

“生成一首关于夜晚穿过霓虹城市驾车的欢快 synthpop 曲目。”

Agent 会自动调用 music_generate。无需工具允许列表。

如果没有由会话支持的 Agent 运行（直接/本地上下文），该工具会内联运行，并在同一个工具结果中返回最终媒体路径。

ComfyUI 工作流

配置工作流

使用工作流 JSON 和提示/输出节点配置 plugins.entries.comfy.config.music。

云凭证（可选）

对于 Comfy Cloud，设置 COMFY_API_KEY 或 COMFY_CLOUD_API_KEY。

调用工具

text

/tool music_generate prompt="Warm ambient synth loop with soft tape texture"

示例提示：

text

Generate a cinematic piano track with soft strings and no vocals.

text

Generate an energetic chiptune loop about launching a rocket at sunrise.

使用 action: "list" 检查可用的提供商/模型，并使用 action: "status" 检查当前由会话支持的音乐任务：

text

/tool music_generate action=list/tool music_generate action=status

直接生成示例：

text

/tool music_generate prompt="Dreamy lo-fi hip hop with vinyl texture and gentle rain" instrumental=true

支持的提供商

提供商	默认模型	参考输入	支持的控制项	凭证
ComfyUI	`workflow`	最多 1 张图像	工作流定义的音乐或音频	`COMFY_API_KEY`, `COMFY_CLOUD_API_KEY`
fal	`fal-ai/minimax-music/v2.6`	无	`lyrics`, `instrumental`, `durationSeconds`, `format`	`FAL_KEY` 或 `FAL_API_KEY`
Google	`lyria-3-clip-preview`	最多 10 张图像	`lyrics`, `instrumental`, `format`	`GEMINI_API_KEY`, `GOOGLE_API_KEY`
MiniMax	`music-2.6`	无	`lyrics`, `instrumental`, `format`（仅 mp3）	`MINIMAX_API_KEY` 或 MiniMax OAuth
OpenRouter	`google/lyria-3-pro-preview`	最多 1 张图像	`lyrics`, `instrumental`, `durationSeconds`, `format`	`OPENROUTER_API_KEY`

MiniMax 注册了两个共享相同模型的提供商 ID：minimax 用于 API-key 凭证，minimax-portal 用于 OAuth。模型引用遵循凭证路径（minimax/music-2.6 与 minimax-portal/music-2.6）；参见 MiniMax。

fal 还在其默认的 MiniMax 支持模型之外暴露 fal-ai/ace-step/prompt-to-audio（wav，无歌词，无 instrumental 开关）和 fal-ai/stable-audio-25/text-to-audio（wav，仅提示）。Google 的默认 lyria-3-clip-preview 仅输出 mp3；lyria-3-pro-preview 还支持 wav。MiniMax 还暴露 music-2.6-free、music-cover 和 music-cover-free。OpenRouter 还暴露 google/lyria-3-clip-preview。

能力矩阵

music_generate、契约测试和共享实时扫描使用的显式模式契约：

提供商	`generate`	`edit`	编辑限制	共享实时通道
ComfyUI	✓	✓	1 张图像	不在共享扫描中；由 `extensions/comfy/comfy.live.test.ts` 覆盖
fal	✓	—	无	`generate`
Google	✓	✓	10 张图像	`generate`, `edit`
MiniMax	✓	—	无	`generate`
OpenRouter	✓	✓	1 张图像	`generate`, `edit`

工具参数

promptstringrequired

音乐生成提示。action: "generate" 必填。

action"generate" | "status" | "list"default: generate

"status" 返回当前会话任务；"list" 检查提供商。

modelstring

提供商/模型覆盖（例如 google/lyria-3-pro-preview、comfy/workflow）。

lyricsstring

当提供商支持显式歌词输入时使用的可选歌词。

instrumentalboolean

当提供商支持时，请求仅器乐输出。

imagestring

单个参考图像路径或 URL。

imagesstring[]

多个参考图像（在支持的提供商上最多 10 张）。

durationSecondsnumber

当提供商支持时长提示时，目标时长（秒）。

format"mp3" | "wav"

当提供商支持时使用的输出格式提示。

filenamestring

提供商请求超时仅由操作员配置。配置后，OpenClaw 使用 agents.defaults.musicGenerationModel.timeoutMs，将低于 120000ms 的值提升到 120000ms，否则提供商请求默认使用 300000ms。

异步行为

由会话支持的音乐生成会作为后台任务运行：

后台任务： music_generate 创建后台任务，立即返回已启动/任务响应，并稍后在后续 Agent 消息中发布完成的曲目。
重复防护： 当任务处于 queued 或 running 时，同一会话中后续的 music_generate 调用会返回任务状态，而不是启动另一次生成。使用 action: "status" 显式检查。最近完成的匹配请求也会在 2 分钟内去重。
状态查询： openclaw tasks list 或 openclaw tasks show <taskId> 检查排队中、运行中和终态状态。
完成唤醒： OpenClaw 将内部完成事件注入回同一会话，以便模型可以自行编写面向用户的后续消息。
提示提示： 同一会话中后续的用户/手动轮次会在音乐任务已在进行时获得一个小的运行时提示，使模型不会盲目再次调用 music_generate。
无会话回退： 没有真实 Agent 会话的直接/本地上下文会内联运行，并在同一轮次返回最终音频结果。

任务生命周期

音乐任务暴露与通用任务注册表相同的状态（完整状态机见后台任务，包括 timed_out、cancelled 和 lost）。大多数音乐运行会经过：

状态	含义
`queued`	任务已创建，等待提供商接受。
`running`	提供商正在处理（通常为 30 秒到 3 分钟，取决于提供商和时长）。
`succeeded`	曲目已准备好；Agent 被唤醒并将其发布到对话中。
`failed`	提供商错误或超时；Agent 被唤醒并携带错误详情。

从 CLI 检查状态：

bash

openclaw tasks listopenclaw tasks show <taskId>openclaw tasks cancel <taskId>

配置

模型选择

json5

{  agents: {    defaults: {      musicGenerationModel: {        primary: "google/lyria-3-clip-preview",        fallbacks: ["fal/fal-ai/minimax-music/v2.6", "minimax/music-2.6"],      },    },  },}

提供商选择顺序

OpenClaw 按以下顺序尝试提供商：

工具调用中的 model 参数（如果 Agent 指定了一个）。
配置中的 musicGenerationModel.primary。
按顺序使用 musicGenerationModel.fallbacks。
仅使用凭证支持的提供商默认值进行自动检测：
- 如果当前默认文本模型提供商也提供音乐生成，则优先使用它；
- 其余已注册的音乐生成提供商，按提供商 ID 字母顺序排列。

如果某个提供商失败，会自动尝试下一个候选项。如果全部失败，错误会包含每次尝试的详情。

设置 agents.defaults.mediaGenerationAutoProviderFallback: false，以仅使用显式的 model、primary 和 fallbacks 条目。

提供商说明

ComfyUI

由工作流驱动，并依赖已配置的图以及用于提示词/输出字段的节点映射。内置的 comfy 插件通过音乐生成提供商注册表接入共享的 music_generate 工具。

fal

通过共享提供商凭证路径使用 fal 模型端点。内置提供商默认使用 fal-ai/minimax-music/v2.6，并且还公开 fal-ai/ace-step/prompt-to-audio 和 fal-ai/stable-audio-25/text-to-audio，用于提示词到音频请求。歌词和纯音乐模式仅适用于 MiniMax 模型；另外两个模型仅支持提示词。

Google (Lyria 3)

使用 Lyria 3 批量生成。当前内置流程支持提示词、可选歌词文本以及可选参考图像。默认的 lyria-3-clip-preview 模型仅输出 mp3；lyria-3-pro-preview 模型还支持 wav。

MiniMax

使用批量 music_generation 端点。通过 minimax API key 凭证或 minimax-portal OAuth 支持提示词、可选歌词、纯音乐模式和 mp3 输出。还公开 music-2.6-free、music-cover 和 music-cover-free 模型。

OpenRouter

使用启用流式传输的 OpenRouter chat completions 音频输出。内置提供商默认使用 google/lyria-3-pro-preview，并且还公开 openrouter/google/lyria-3-clip-preview。

选择合适的路径

当你需要模型选择、提供商故障转移以及内置异步任务/状态流程时，使用共享提供商支持。
当你需要自定义工作流图，或需要不属于共享内置音乐能力的提供商时，使用插件路径（ComfyUI）。

如果你正在调试 ComfyUI 特定行为，请参阅 ComfyUI。如果你正在调试共享提供商行为，请从 fal、Google (Gemini)、 MiniMax 或 OpenRouter 开始。

提供商能力模式

共享音乐生成契约支持显式模式声明：

generate 用于仅提示词生成。
当请求包含一个或多个参考图像时使用 edit。

新的提供商实现应优先使用显式模式块：

typescript

capabilities: {  generate: {    maxTracks: 1,    supportsLyrics: true,    supportsFormat: true,  },  edit: {    enabled: true,    maxTracks: 1,    maxInputImages: 1,    supportsFormat: true,  },}

maxInputImages、supportsLyrics 和 supportsFormat 等旧版扁平字段不足以声明编辑支持。提供商应显式声明 generate 和 edit，以便实时测试、契约测试和共享的 music_generate 工具可以确定性地验证模式支持。

实时测试

共享内置提供商（fal、Google、MiniMax、OpenRouter）的可选实时覆盖：

bash

OPENCLAW_LIVE_TEST=1 pnpm test:live -- extensions/music-generation-providers.live.test.ts

等效的仓库包装命令，会驱动同一个测试文件：

bash

pnpm test:live:media:music

默认情况下，此实时文件会优先使用已导出的提供商环境变量，而不是已存储的凭证配置文件，并且当提供商启用编辑模式时，会同时运行 generate 和已声明的 edit 覆盖。当前覆盖范围：

google：generate 加 edit
fal：仅 generate
minimax：仅 generate
openrouter：generate 加 edit
comfy：单独的 Comfy 实时覆盖，不属于共享提供商扫描

内置 ComfyUI 音乐路径的可选实时覆盖：

bash

OPENCLAW_LIVE_TEST=1 COMFY_LIVE_TEST=1 pnpm test:live -- extensions/comfy/comfy.live.test.ts

当配置了对应部分时，Comfy 实时文件还会覆盖 comfy 图像和视频工作流。

音乐生成

快速开始

共享提供商支持

配置凭证

选择默认模型（可选）

询问 Agent

ComfyUI 工作流

配置工作流

云凭证（可选）

调用工具

支持的提供商

能力矩阵

工具参数

异步行为

任务生命周期

配置

模型选择

提供商选择顺序

提供商说明

选择合适的路径

提供商能力模式

实时测试

相关内容

On this page

Molty