Modelos locais
Executar localmente é viável, mas o OpenClaw espera contexto grande + defesas fortes contra injeção de prompt. Placas pequenas truncam contexto e enfraquecem a segurança. Mire alto: ≥2 Mac Studios no máximo ou equipamento de GPU equivalente (~US$ 30 mil+). Uma única GPU de 24 GB funciona apenas para prompts mais leves com maior latência. Use a maior variante / variante completa do modelo que você conseguir executar; checkpoints agressivamente quantizados ou “small” aumentam o risco de injeção de prompt (consulte Security). Se você quiser a configuração local com menos atrito, comece com Ollama eopenclaw onboard. Esta página é o guia opinativo para stacks locais mais avançados e servidores locais personalizados compatíveis com OpenAI.
Recomendado: LM Studio + modelo local grande (Responses API)
A melhor stack local atual. Carregue um modelo grande no LM Studio (por exemplo, uma compilação completa de Qwen, DeepSeek ou Llama), ative o servidor local (padrãohttp://127.0.0.1:1234) e use a Responses API para manter o raciocínio separado do texto final.
- Instale o LM Studio: https://lmstudio.ai
- No LM Studio, baixe a maior compilação de modelo disponível (evite variantes “small”/fortemente quantizadas), inicie o servidor e confirme que
http://127.0.0.1:1234/v1/modelso lista. - Substitua
my-local-modelpelo ID real do modelo mostrado no LM Studio. - Mantenha o modelo carregado; o carregamento a frio adiciona latência na inicialização.
- Ajuste
contextWindow/maxTokensse sua compilação do LM Studio for diferente. - Para o WhatsApp, mantenha a Responses API para que apenas o texto final seja enviado.
models.mode: "merge" para que fallbacks continuem disponíveis.
Config híbrida: primário hospedado, fallback local
Local-first com rede de segurança hospedada
Troque a ordem do primário e dos fallbacks; mantenha o mesmo bloco de providers emodels.mode: "merge" para poder recorrer a Sonnet ou Opus quando a máquina local estiver indisponível.
Hospedagem regional / roteamento de dados
- Variantes hospedadas de MiniMax/Kimi/GLM também existem no OpenRouter com endpoints fixados por região (por exemplo, hospedados nos EUA). Escolha a variante regional lá para manter o tráfego na jurisdição desejada e ainda usar
models.mode: "merge"para fallbacks de Anthropic/OpenAI. - Local-only continua sendo o caminho de privacidade mais forte; roteamento regional hospedado é o meio-termo quando você precisa de recursos do provider, mas quer controlar o fluxo de dados.
Outros proxies locais compatíveis com OpenAI
vLLM, LiteLLM, OAI-proxy ou gateways personalizados funcionam se expuserem um endpoint/v1 no estilo OpenAI. Substitua o bloco de provider acima pelo seu endpoint e ID de modelo:
models.mode: "merge" para que modelos hospedados continuem disponíveis como fallbacks.
Observação de comportamento para backends locais/proxy /v1:
- O OpenClaw os trata como rotas em estilo proxy compatíveis com OpenAI, não como endpoints OpenAI nativos
- a modelagem de requisição exclusiva da OpenAI nativa não se aplica aqui: sem
service_tier, semstorede Responses, sem modelagem de payload de compatibilidade de raciocínio OpenAI e sem dicas de cache de prompt - cabeçalhos ocultos de atribuição do OpenClaw (
originator,version,User-Agent) não são injetados nessas URLs de proxy personalizadas
Solução de problemas
- O gateway consegue alcançar o proxy?
curl http://127.0.0.1:1234/v1/models. - O modelo do LM Studio foi descarregado? Carregue-o novamente; inicialização a frio é uma causa comum de “travamento”.
- Erros de contexto? Reduza
contextWindowou aumente o limite do seu servidor. - Segurança: modelos locais ignoram filtros do lado do provider; mantenha agentes restritos e a compactação ativada para limitar o raio de impacto da injeção de prompt.