本地模型是可行的。它们也提高了对硬件、上下文大小和提示注入防御的要求 — 小型或激进量化的显卡会截断上下文并削弱安全性。本页是面向高端本地堆栈和自定义 OpenAI 兼容本地服务器的主观指南。要获得阻力最低的新手引导,请从 LM Studio 或 Ollama 以及Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
openclaw onboard 开始。
硬件下限
目标要高:为了获得舒适的 Agent loop,建议使用 ≥2 台满配 Mac Studio 或等效 GPU 设备(约 $30k+)。单块 24 GB GPU 只适合较轻量的提示,并且延迟更高。始终运行你能承载的最大/全尺寸变体;小型或重度量化的检查点会提高提示注入风险(参见 安全)。选择后端
当后端支持时使用 Responses API(
api: "openai-responses")(LM Studio 支持)。否则坚持使用 Chat Completions(api: "openai-completions")。
推荐:LM Studio + 大型本地模型(Responses API)
当前最佳本地堆栈。在 LM Studio 中加载大型模型(例如全尺寸 Qwen、DeepSeek 或 Llama 构建),启用本地服务器(默认http://127.0.0.1:1234),并使用 Responses API 将推理与最终文本分离。
- 安装 LM Studio:https://lmstudio.ai
- 在 LM Studio 中,下载可用的最大模型构建(避免“小型”/重度量化变体),启动服务器,确认
http://127.0.0.1:1234/v1/models会列出它。 - 将
my-local-model替换为 LM Studio 中显示的实际模型 ID。 - 保持模型已加载;冷加载会增加启动延迟。
- 如果你的 LM Studio 构建不同,请调整
contextWindow/maxTokens。 - 对于 WhatsApp,坚持使用 Responses API,这样只会发送最终文本。
models.mode: "merge",让回退保持可用。
混合配置:托管主模型,本地回退
本地优先,并保留托管安全网
交换主模型和回退的顺序;保留相同的 providers 块和models.mode: "merge",这样当本地机器不可用时,你可以回退到 Sonnet 或 Opus。
区域托管/数据路由
- 托管的 MiniMax/Kimi/GLM 变体也存在于 OpenRouter 上,并提供区域固定端点(例如美国托管)。在那里选择区域变体,以便在继续使用
models.mode: "merge"作为 Anthropic/OpenAI 回退的同时,将流量保留在你选择的司法管辖区内。 - 纯本地仍然是最强的隐私路径;当你需要提供商功能但又想控制数据流时,托管区域路由是折中方案。
其他 OpenAI 兼容本地代理
MLX(mlx_lm.server)、vLLM、SGLang、LiteLLM、OAI-proxy 或自定义 Gateway 网关都可以工作,只要它们公开 OpenAI 风格的 /v1/chat/completions 端点即可。除非后端明确记录支持 /v1/responses,否则使用 Chat Completions 适配器。将上面的 provider 块替换为你的端点和模型 ID:
baseUrl 的自定义 provider 上省略 api,OpenClaw 默认使用 openai-completions。诸如 127.0.0.1 的 loopback 端点会自动受信任;LAN、tailnet 和私有 DNS 端点仍然需要 request.allowPrivateNetwork: true。
models.providers.<id>.models[].id 值是 provider 本地的。不要在其中包含 provider 前缀。例如,使用 mlx_lm.server --model mlx-community/Qwen3-30B-A3B-6bit 启动的 MLX 服务器应该使用这个目录 ID 和模型引用:
models.providers.mlx.models[].id: "mlx-community/Qwen3-30B-A3B-6bit"agents.defaults.model.primary: "mlx/mlx-community/Qwen3-30B-A3B-6bit"
input: ["text", "image"],让图像附件被注入到智能体轮次中。交互式自定义 provider 新手引导会推断常见视觉模型 ID,并且只询问未知名称。非交互式新手引导使用相同推断;对于未知视觉 ID 使用 --custom-image-input,或者当外观看似已知的模型在你的端点后面实际仅支持文本时,使用 --custom-text-input。
保持 models.mode: "merge",让托管模型作为回退保持可用。在提高 agents.defaults.timeoutSeconds 之前,先为较慢的本地或远程模型服务器使用 models.providers.<id>.timeoutSeconds。provider 超时只适用于模型 HTTP 请求,包括连接、标头、正文流式传输,以及受保护 fetch 的总中止时间。
对于自定义 OpenAI 兼容 provider,当
baseUrl 解析到 loopback、私有 LAN、.local 或裸主机名时,允许持久化一个非秘密的本地标记,例如 apiKey: "ollama-local"。OpenClaw 会将其视为有效的本地凭证,而不是报告缺少密钥。对任何接受公共主机名的 provider,请使用真实值。/v1 后端的行为说明:
- OpenClaw 将这些视为代理风格的 OpenAI 兼容路由,而不是原生 OpenAI 端点
- 此处不适用仅原生 OpenAI 的请求整形:没有
service_tier,没有 Responsesstore,没有 OpenAI 推理兼容载荷整形,也没有提示缓存提示 - 隐藏的 OpenClaw 归因标头(
originator、version、User-Agent)不会注入到这些自定义代理 URL 上
-
一些服务器在 Chat Completions 上只接受字符串
messages[].content,不接受结构化 content-part 数组。请为这些端点设置models.providers.<provider>.models[].compat.requiresStringContent: true。 -
一些本地模型会以文本形式发出独立的括号包裹工具请求,例如
[tool_name]后跟 JSON 和[END_TOOL_REQUEST]。只有当名称与该轮次中已注册的工具完全匹配时,OpenClaw 才会将其提升为真实工具调用;否则,该块会被视为不受支持的文本,并从用户可见回复中隐藏。 - 如果模型发出看似工具调用的 JSON、XML 或 ReAct 风格文本,但 provider 没有发出结构化调用,OpenClaw 会将其保留为文本,并在可用时记录一条警告,其中包含运行 ID、provider/模型、检测到的模式以及工具名称。应将其视为 provider/模型工具调用不兼容,而不是已完成的工具运行。
-
如果工具作为 assistant 文本出现而不是运行,例如原始 JSON、XML、ReAct 语法,或 provider 响应中的空
tool_calls数组,请先确认服务器正在使用支持工具调用的 chat template/parser。对于 OpenAI 兼容 Chat Completions 后端,如果其 parser 只有在强制使用工具时才工作,请设置按模型的请求覆盖,而不是依赖文本解析:仅在每个正常轮次都应调用工具的模型/会话中使用此设置。它会覆盖 OpenClaw 默认代理值tool_choice: "auto"。请将local/my-local-model替换为openclaw models list显示的确切 provider/模型引用。 -
如果自定义 OpenAI 兼容模型接受内置档案之外的 OpenAI 推理力度,请在模型 compat 块中声明它们。在这里添加
"xhigh"会让/think xhigh、会话选择器、Gateway 网关验证和llm-task验证为该已配置的 provider/模型引用公开该级别:
更小或更严格的后端
如果模型加载干净,但完整智能体轮次行为异常,请自上而下排查 — 先确认传输,再缩小范围。-
确认本地模型本身会响应。 不使用工具,不带智能体上下文:
-
确认 Gateway 网关路由。 只发送提供的提示词 —— 跳过转录、AGENTS 引导、上下文引擎组装、工具和内置 MCP 服务器,但仍会验证 Gateway 网关路由、身份验证和提供商选择:
-
尝试精简模式。 如果两个探测都通过,但真实智能体回合因格式错误的工具调用或过大的提示词而失败,请启用
agents.defaults.experimental.localModelLean: true。它会移除三个最重的默认工具(browser、cron、message),让提示词形态更小且不那么脆弱。完整说明、适用场景以及如何确认它已开启,请参阅实验性功能 → 本地模型精简模式。 -
作为最后手段,完全禁用工具。 如果精简模式还不够,请为该模型条目设置
models.providers.<provider>.models[].compat.supportsTools: false。随后该智能体会在该模型上不使用工具调用。 -
再往后,瓶颈就在上游。 如果在精简模式和
supportsTools: false之后,后端仍然只在较大的 OpenClaw 运行中失败,剩余问题通常是上游模型或服务器容量 —— 上下文窗口、GPU 内存、kv-cache 驱逐,或者后端缺陷。到这一步,问题就不在 OpenClaw 的传输层了。
故障排除
- Gateway 网关能连到代理吗?
curl http://127.0.0.1:1234/v1/models。 - LM Studio 模型是否已卸载?重新加载;冷启动是常见的“卡住”原因。
- 本地服务器提示
terminated、ECONNRESET,或在回合中途关闭流? OpenClaw 会在诊断信息中记录低基数的model.call.error.failureKind,以及 OpenClaw 进程的 RSS/堆快照。对于 LM Studio/Ollama 内存压力,请将该时间戳与服务器日志或 macOS 崩溃 / jetsam 日志进行匹配,以确认模型服务器是否被杀掉。 - OpenClaw 会根据检测到的模型窗口推导上下文窗口预检阈值,或者在
agents.defaults.contextTokens降低有效窗口时,根据未封顶的模型窗口推导阈值。低于 20% 时会发出警告,并设置 8k 下限。硬阻断使用 10% 阈值,并设置 4k 下限,且会封顶到有效上下文窗口,因此过大的模型元数据不会拒绝原本有效的用户上限。如果你触发该预检,请提高服务器/模型上下文限制,或选择更大的模型。 - 出现上下文错误?降低
contextWindow,或提高你的服务器限制。 - OpenAI 兼容服务器返回
messages[].content ... expected a string? 在该模型条目上添加compat.requiresStringContent: true。 - 直接的微型
/v1/chat/completions调用可用,但openclaw infer model run --local在 Gemma 或其他本地模型上失败?先检查提供商 URL、模型引用、身份验证 标记和服务器日志;本地model run不包含智能体工具。 如果本地model run成功但更大的智能体回合失败,请用localModelLean或compat.supportsTools: false减少智能体 工具表面。 - 工具调用显示为原始 JSON/XML/ReAct 文本,或提供商返回
空的
tool_calls数组?不要添加会盲目把助手 文本转换为工具执行的代理。先修复服务器聊天模板/解析器。如果 模型只有在强制使用工具时才工作,请添加上面的按模型params.extra_body.tool_choice: "required"覆盖,并且只在预计每个回合都会有工具调用的会话中使用该模型 条目。 - 安全性:本地模型会跳过提供商侧过滤;保持智能体范围收窄,并开启压缩,以限制提示词注入的影响半径。