Локальні моделі
Локальний запуск можливий, але OpenClaw очікує великий контекст + сильний захист від prompt injection. Малі карти обрізають контекст і послаблюють безпеку. Орієнтуйтеся на високий рівень: ≥2 повністю укомплектовані Mac Studio або еквівалентна GPU-установка (~$30k+). Одна GPU на 24 GB підходить лише для легших запитів із вищою затримкою. Використовуйте найбільший / повнорозмірний варіант моделі, який можете запустити; агресивно квантизовані або “small” чекпойнти підвищують ризик prompt injection (див. Безпека). Якщо вам потрібне локальне налаштування з найменшим тертям, почніть із LM Studio або Ollama таopenclaw onboard. Ця сторінка — практичний посібник для продуктивніших локальних стеків і власних локальних OpenAI-сумісних серверів.
Рекомендовано: LM Studio + велика локальна модель (Responses API)
Найкращий актуальний локальний стек. Завантажте велику модель у LM Studio (наприклад, повнорозмірну збірку Qwen, DeepSeek або Llama), увімкніть локальний сервер (типовоhttp://127.0.0.1:1234), і використовуйте Responses API, щоб тримати міркування окремо від фінального тексту.
- Установіть LM Studio: https://lmstudio.ai
- У LM Studio завантажте найбільшу доступну збірку моделі (уникайте варіантів “small” / сильно квантизованих), запустіть сервер, переконайтеся, що
http://127.0.0.1:1234/v1/modelsїї показує. - Замініть
my-local-modelна фактичний ID моделі, показаний у LM Studio. - Тримайте модель завантаженою; холодне завантаження додає затримку запуску.
- Відкоригуйте
contextWindow/maxTokens, якщо ваша збірка LM Studio відрізняється. - Для WhatsApp використовуйте Responses API, щоб надсилався лише фінальний текст.
models.mode: "merge", щоб fallback-моделі залишалися доступними.
Гібридна конфігурація: хостована основна модель, локальний fallback
Локальний пріоритет із хостованою страховкою
Поміняйте порядок основної моделі та fallback-моделей місцями; залиште той самий блок providers іmodels.mode: "merge", щоб можна було перейти на Sonnet або Opus, коли локальний сервер недоступний.
Регіональний хостинг / маршрутизація даних
- Хостовані варіанти MiniMax/Kimi/GLM також доступні в OpenRouter з endpoint-ами, прив’язаними до регіону (наприклад, хостинг у США). Виберіть там регіональний варіант, щоб трафік залишався у вибраній юрисдикції, і водночас використовуйте
models.mode: "merge"для fallback-моделей Anthropic/OpenAI. - Лише локальний запуск залишається найкращим шляхом для приватності; регіональна хостована маршрутизація — це компромісний варіант, коли вам потрібні можливості провайдера, але ви хочете контролювати потік даних.
Інші OpenAI-сумісні локальні проксі
vLLM, LiteLLM, OAI-proxy або власні Gateway працюють, якщо вони надають OpenAI-подібний endpoint/v1. Замініть блок provider вище своїм endpoint-ом і ID моделі:
models.mode: "merge", щоб хостовані моделі залишалися доступними як fallback.
Примітка про поведінку для локальних / проксійованих /v1 бекендів:
- OpenClaw трактує їх як проксі-подібні OpenAI-сумісні маршрути, а не як нативні endpoint-и OpenAI
- тут не застосовується формування запитів, доступне лише для нативного OpenAI: без
service_tier, безstoreу Responses, без формування payload для сумісності з reasoning OpenAI і без підказок для кешу prompt-ів - приховані службові заголовки OpenClaw (
originator,version,User-Agent) не додаються до цих власних проксі-URL
- Деякі сервери приймають у Chat Completions лише рядковий
messages[].content, а не структуровані масиви content-part. Для таких endpoint-ів задайтеmodels.providers.<provider>.models[].compat.requiresStringContent: true. - Деякі менші або суворіші локальні бекенди нестабільно працюють із повною формою prompt-ів
runtime агента OpenClaw, особливо коли включені схеми інструментів. Якщо
бекенд працює для крихітних прямих викликів
/v1/chat/completions, але не працює на звичайних ходах агента OpenClaw, спершу спробуйтеagents.defaults.experimental.localModelLean: true, щоб прибрати важкі стандартні інструменти, як-отbrowser,cronіmessage; це експериментальний прапорець, а не стабільне налаштування типового режиму. Див. Експериментальні можливості. Якщо це не допомогло, спробуйтеmodels.providers.<provider>.models[].compat.supportsTools: false. - Якщо бекенд і далі падає лише на більших запусках OpenClaw, то зазвичай проблема, що залишилася, — це обмеження моделі/сервера на upstream або баг бекенда, а не транспортного шару OpenClaw.
Усунення проблем
- Gateway може дістатися до проксі?
curl http://127.0.0.1:1234/v1/models. - Модель LM Studio вивантажена? Завантажте її знову; холодний старт — поширена причина “зависання”.
- OpenClaw попереджає, коли виявлене вікно контексту менше за 32k, і блокує роботу нижче за 16k. Якщо ви натрапили на цю попередню перевірку, збільште ліміт контексту сервера/моделі або виберіть більшу модель.
- Помилки контексту? Зменште
contextWindowабо підвищте ліміт вашого сервера. - OpenAI-сумісний сервер повертає
messages[].content ... expected a string? Додайтеcompat.requiresStringContent: trueдо цього запису моделі. - Прямі маленькі виклики
/v1/chat/completionsпрацюють, алеopenclaw infer model runне працює на Gemma або іншій локальній моделі? Спочатку вимкніть схеми інструментів черезcompat.supportsTools: false, а потім перевірте ще раз. Якщо сервер і далі падає лише на більших prompt-ах OpenClaw, вважайте це обмеженням upstream-сервера/моделі. - Безпека: локальні моделі пропускають фільтри на боці провайдера; тримайте агентів вузько налаштованими та залишайте Compaction увімкненим, щоб обмежити радіус ураження від prompt injection.