Modelos locales
Lo local es posible, pero OpenClaw espera un contexto grande y defensas sólidas contra la inyección de prompts. Las tarjetas pequeñas truncarán el contexto y debilitarán la seguridad. Apunta alto: ≥2 Mac Studios al máximo o un equipo GPU equivalente (~$30k+). Una sola GPU de 24 GB solo funciona para prompts más ligeros con mayor latencia. Usa la variante de modelo más grande / de tamaño completo que puedas ejecutar; los checkpoints muy cuantizados o “small” aumentan el riesgo de inyección de prompts (consulta Seguridad). Si quieres la configuración local con menos fricción, empieza con Ollama yopenclaw onboard. Esta página es la guía con recomendaciones firmes para stacks locales de gama alta y servidores locales personalizados compatibles con OpenAI.
Recomendado: LM Studio + modelo local grande (Responses API)
La mejor pila local actual. Carga un modelo grande en LM Studio (por ejemplo, una compilación de tamaño completo de Qwen, DeepSeek o Llama), habilita el servidor local (predeterminadohttp://127.0.0.1:1234) y usa Responses API para mantener el razonamiento separado del texto final.
- Instala LM Studio: https://lmstudio.ai
- En LM Studio, descarga la compilación de modelo más grande disponible (evita variantes “small” o muy cuantizadas), inicia el servidor y confirma que
http://127.0.0.1:1234/v1/modelslo liste. - Reemplaza
my-local-modelpor el ID real del modelo que muestra LM Studio. - Mantén el modelo cargado; la carga en frío añade latencia de inicio.
- Ajusta
contextWindow/maxTokenssi tu compilación de LM Studio es diferente. - Para WhatsApp, usa Responses API para que solo se envíe el texto final.
models.mode: "merge" para que los respaldos sigan disponibles.
Configuración híbrida: principal alojado, respaldo local
Prioridad local con red de seguridad alojada
Intercambia el orden de principal y respaldo; mantén el mismo bloque de proveedores ymodels.mode: "merge" para poder recurrir a Sonnet o Opus cuando el equipo local no esté disponible.
Alojamiento regional / enrutamiento de datos
- Las variantes alojadas de MiniMax/Kimi/GLM también existen en OpenRouter con endpoints fijados por región (por ejemplo, alojados en EE. UU.). Elige allí la variante regional para mantener el tráfico dentro de la jurisdicción que prefieras mientras sigues usando
models.mode: "merge"para los respaldos de Anthropic/OpenAI. - Solo local sigue siendo la opción más sólida en privacidad; el enrutamiento regional alojado es el punto intermedio cuando necesitas funciones del proveedor pero quieres controlar el flujo de datos.
Otros proxies locales compatibles con OpenAI
vLLM, LiteLLM, OAI-proxy o gateways personalizados funcionan si exponen un endpoint/v1 de estilo OpenAI. Reemplaza el bloque de proveedor anterior por tu endpoint y el ID de tu modelo:
models.mode: "merge" para que los modelos alojados sigan disponibles como respaldos.
Nota de comportamiento para backends /v1 locales/proxificados:
- OpenClaw los trata como rutas compatibles con OpenAI de estilo proxy, no como endpoints nativos de OpenAI
- aquí no se aplica el modelado de solicitudes exclusivo de OpenAI nativo: sin
service_tier, sinstorede Responses, sin modelado de carga útil de compatibilidad de razonamiento de OpenAI y sin sugerencias de caché de prompt - las cabeceras ocultas de atribución de OpenClaw (
originator,version,User-Agent) no se inyectan en estas URLs de proxy personalizadas
Solución de problemas
- ¿El gateway puede llegar al proxy?
curl http://127.0.0.1:1234/v1/models. - ¿El modelo de LM Studio está descargado de memoria? Vuelve a cargarlo; el inicio en frío es una causa común de “bloqueo”.
- ¿Errores de contexto? Reduce
contextWindowo aumenta el límite de tu servidor. - Seguridad: los modelos locales omiten filtros del lado del proveedor; mantén los agentes enfocados y la compactación activada para limitar el radio de impacto de la inyección de prompts.