Локальні моделі
Локальний запуск можливий, але OpenClaw очікує великий контекст + сильний захист від prompt injection. Невеликі карти обрізають контекст і послаблюють безпеку. Орієнтуйтеся на високий рівень: ≥2 повністю укомплектованих Mac Studio або еквівалентний GPU-риг (~$30k+). Одна GPU на 24 GB підходить лише для легших prompt із вищою затримкою. Використовуйте найбільший / повнорозмірний варіант моделі, який можете запустити; агресивно квантизовані або “small” checkpoint підвищують ризик prompt injection (див. Security). Якщо вам потрібне локальне налаштування з найменшими труднощами, почніть з Ollama іopenclaw onboard. Ця сторінка — практичний посібник для потужніших локальних стеків і власних локальних серверів, сумісних з OpenAI.
Рекомендовано: LM Studio + велика локальна модель (Responses API)
Найкращий поточний локальний стек. Завантажте велику модель у LM Studio (наприклад, повнорозмірну збірку Qwen, DeepSeek або Llama), увімкніть локальний сервер (типовоhttp://127.0.0.1:1234) і використовуйте Responses API, щоб тримати міркування окремо від фінального тексту.
- Установіть LM Studio: https://lmstudio.ai
- У LM Studio завантажте найбільшу доступну збірку моделі (уникайте варіантів “small”/сильно квантизованих), запустіть сервер, переконайтеся, що
http://127.0.0.1:1234/v1/modelsїї показує. - Замініть
my-local-modelна фактичний ID моделі, показаний у LM Studio. - Тримайте модель завантаженою; холодне завантаження додає затримку запуску.
- За потреби скоригуйте
contextWindow/maxTokens, якщо ваша збірка LM Studio відрізняється. - Для WhatsApp використовуйте Responses API, щоб надсилався лише фінальний текст.
models.mode: "merge", щоб резервні варіанти залишалися доступними.
Гібридна конфігурація: hosted primary, локальний fallback
Спочатку локально, із hosted safety net
Поміняйте місцями primary і fallback; залиште той самий блок providers іmodels.mode: "merge", щоб можна було перейти на Sonnet або Opus, коли локальний сервер недоступний.
Регіональний хостинг / маршрутизація даних
- Hosted-варіанти MiniMax/Kimi/GLM також існують на OpenRouter з endpoint, прив’язаними до регіону (наприклад, розміщеними у США). Виберіть там регіональний варіант, щоб трафік залишався у вибраній вами юрисдикції, і водночас використовуйте
models.mode: "merge"для fallback на Anthropic/OpenAI. - Лише локальний запуск залишається найсильнішим варіантом для приватності; регіональна маршрутизація hosted — це проміжний варіант, коли вам потрібні можливості провайдера, але ви хочете контролювати потік даних.
Інші OpenAI-сумісні локальні проксі
vLLM, LiteLLM, OAI-proxy або власні gateway працюють, якщо вони надають OpenAI-подібний endpoint/v1. Замініть блок provider вище своїм endpoint і ID моделі:
models.mode: "merge", щоб hosted-моделі залишалися доступними як fallback.
Примітка щодо поведінки для локальних/проксійованих бекендів /v1:
- OpenClaw трактує їх як проксі-подібні OpenAI-сумісні маршрути, а не як нативні endpoint OpenAI
- нативне формування запитів, доступне лише для OpenAI, тут не застосовується: немає
service_tier, немає Responsesstore, немає формування payload сумісності reasoning OpenAI і немає підказок для prompt cache - приховані службові заголовки OpenClaw (
originator,version,User-Agent) не додаються до цих користувацьких проксі-URL
Усунення проблем
- Gateway може дістатися до проксі?
curl http://127.0.0.1:1234/v1/models. - Модель LM Studio вивантажена? Завантажте її знову; холодний старт — типова причина “зависання”.
- Помилки контексту? Зменште
contextWindowабо підвищте ліміт на своєму сервері. - Безпека: локальні моделі пропускають фільтри на боці провайдера; тримайте агентів вузькоспеціалізованими, а compaction увімкненим, щоб обмежити радіус ураження від prompt injection.