OpenClaw se integra con la API nativa de Ollama (Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
/api/chat) para modelos en la nube alojados y servidores Ollama locales/autohospedados. Puedes usar Ollama en tres modos: Cloud + Local mediante un host de Ollama accesible, Cloud only contra https://ollama.com, o Local only contra un host de Ollama accesible.
La configuración del proveedor de Ollama usa baseUrl como clave canónica. OpenClaw también acepta baseURL para compatibilidad con ejemplos de estilo del SDK de OpenAI, pero la configuración nueva debería preferir baseUrl.
Reglas de autenticación
Hosts locales y LAN
Hosts locales y LAN
ollama-local solo para URLs base de Ollama de loopback, red privada, .local y nombres de host simples.Hosts remotos y de Ollama Cloud
Hosts remotos y de Ollama Cloud
https://ollama.com) requieren una credencial real mediante OLLAMA_API_KEY, un perfil de autenticación o el apiKey del proveedor.IDs de proveedor personalizados
IDs de proveedor personalizados
api: "ollama" siguen las mismas reglas. Por ejemplo, un proveedor ollama-remote que apunta a un host de Ollama en una LAN privada puede usar apiKey: "ollama-local" y los subagentes resolverán ese marcador mediante el hook del proveedor de Ollama en lugar de tratarlo como una credencial faltante. La búsqueda de memoria también puede establecer agents.defaults.memorySearch.provider en ese ID de proveedor personalizado para que los embeddings usen el endpoint de Ollama correspondiente.Perfiles de autenticación
Perfiles de autenticación
auth-profiles.json almacena la credencial para un ID de proveedor. Pon los ajustes del endpoint (baseUrl, api, IDs de modelo, encabezados, tiempos de espera) en models.providers.<id>. Los archivos de perfil de autenticación planos antiguos, como { "ollama-windows": { "apiKey": "ollama-local" } }, no son un formato de runtime; ejecuta openclaw doctor --fix para reescribirlos al perfil canónico de clave de API ollama-windows:default con una copia de seguridad. baseUrl en ese archivo es ruido de compatibilidad y debería moverse a la configuración del proveedor.Alcance de embeddings de memoria
Alcance de embeddings de memoria
- Una clave de nivel de proveedor se envía solo al host de Ollama de ese proveedor.
agents.*.memorySearch.remote.apiKeyse envía solo a su host remoto de embeddings.- Un valor de entorno puro
OLLAMA_API_KEYse trata como la convención de Ollama Cloud, y no se envía de forma predeterminada a hosts locales o autohospedados.
Primeros pasos
Elige tu método y modo de configuración preferidos.- Onboarding (recomendado)
- Configuración manual
Elige tu modo
- Nube + Local — host local de Ollama más modelos en la nube enrutados mediante ese host
- Solo nube — modelos de Ollama alojados mediante
https://ollama.com - Solo local — solo modelos locales
Selecciona un modelo
Cloud only solicita OLLAMA_API_KEY y sugiere valores predeterminados alojados en la nube. Cloud + Local y Local only piden una URL base de Ollama, descubren los modelos disponibles y descargan automáticamente el modelo local seleccionado si todavía no está disponible. Cuando Ollama informa una etiqueta :latest instalada, como gemma4:latest, la configuración muestra ese modelo instalado una sola vez en lugar de mostrar tanto gemma4 como gemma4:latest o volver a descargar el alias simple. Cloud + Local también comprueba si ese host de Ollama tiene sesión iniciada para acceso a la nube.Modo no interactivo
Modelos en la nube
- Nube + Local
- Solo nube
- Solo local
Cloud + Local usa un host de Ollama accesible como punto de control tanto para modelos locales como en la nube. Este es el flujo híbrido preferido de Ollama.Usa Nube + Local durante la configuración. OpenClaw solicita la URL base de Ollama, descubre modelos locales desde ese host y comprueba si el host tiene sesión iniciada para acceso a la nube con ollama signin. Cuando el host tiene sesión iniciada, OpenClaw también sugiere valores predeterminados alojados en la nube, como kimi-k2.5:cloud, minimax-m2.7:cloud y glm-5.1:cloud.Si el host aún no tiene sesión iniciada, OpenClaw mantiene la configuración como solo local hasta que ejecutes ollama signin.Descubrimiento de modelos (proveedor implícito)
Cuando establecesOLLAMA_API_KEY (o un perfil de autenticación) y no defines models.providers.ollama u otro proveedor remoto personalizado con api: "ollama", OpenClaw descubre modelos desde la instancia local de Ollama en http://127.0.0.1:11434.
| Comportamiento | Detalle |
|---|---|
| Consulta de catálogo | Consulta /api/tags |
| Detección de capacidades | Usa búsquedas de mejor esfuerzo en /api/show para leer contextWindow, parámetros Modelfile num_ctx expandidos y capacidades, incluida visión/herramientas |
| Modelos de visión | Los modelos con una capacidad vision informada por /api/show se marcan como compatibles con imágenes (input: ["text", "image"]), por lo que OpenClaw inyecta imágenes automáticamente en el prompt |
| Detección de razonamiento | Usa capacidades de /api/show cuando están disponibles, incluido thinking; recurre a una heurística de nombre de modelo (r1, reasoning, think) cuando Ollama omite capacidades |
| Límites de tokens | Establece maxTokens en el límite predeterminado de tokens máximos de Ollama usado por OpenClaw |
| Costos | Establece todos los costos en 0 |
ollama/<pulled-model>:latest en infer model run local; OpenClaw resuelve ese modelo instalado desde el catálogo en vivo de Ollama sin requerir una entrada models.json escrita a mano.
Para hosts de Ollama con sesión iniciada, algunos modelos :cloud pueden ser utilizables mediante /api/chat
y /api/show antes de que aparezcan en /api/tags. Cuando seleccionas explícitamente una
referencia completa ollama/<model>:cloud, OpenClaw valida ese modelo faltante exacto con
/api/show y lo agrega al catálogo de runtime solo si Ollama confirma los
metadatos del modelo. Los errores tipográficos siguen fallando como modelos desconocidos en lugar de crearse automáticamente.
infer model run local con una referencia completa de modelo de Ollama:
infer model run. Esto envía el prompt y la imagen directamente al
modelo de visión de Ollama seleccionado sin cargar herramientas de chat, memoria ni contexto
de sesión previo:
model run --file acepta archivos detectados como image/*, incluidas entradas comunes PNG,
JPEG y WebP. Los archivos que no son imagen se rechazan antes de llamar a Ollama.
Para reconocimiento de voz, usa openclaw infer audio transcribe en su lugar.
Cuando cambias una conversación con /model ollama/<model>, OpenClaw trata
eso como una selección exacta del usuario. Si el baseUrl de Ollama configurado no es
accesible, la siguiente respuesta falla con el error del proveedor en lugar de responder silenciosamente
desde otro modelo de respaldo configurado.
Los trabajos Cron aislados realizan una comprobación de seguridad local adicional antes de iniciar el turno del agente. Si el modelo seleccionado se resuelve a un proveedor Ollama local, de red privada o .local y no se puede acceder a /api/tags, OpenClaw registra esa ejecución de Cron como skipped con el ollama/<model> seleccionado en el texto del error. La comprobación previa del endpoint se almacena en caché durante 5 minutos, por lo que varios trabajos Cron apuntados al mismo demonio Ollama detenido no lanzan todos solicitudes de modelo fallidas.
Verifica en vivo la ruta de texto local, la ruta de stream nativa y los embeddings contra Ollama local con:
models.providers.ollama explícitamente, o configuras un proveedor remoto personalizado como models.providers.ollama-cloud con api: "ollama", se omite el descubrimiento automático y debes definir los modelos manualmente. Los proveedores personalizados de loopback como http://127.0.0.2:11434 se siguen tratando como locales. Consulta la sección de configuración explícita más abajo.Visión y descripción de imágenes
El Plugin Ollama incluido registra Ollama como un proveedor de comprensión de medios con capacidad para imágenes. Esto permite que OpenClaw dirija solicitudes explícitas de descripción de imágenes y valores predeterminados configurados de modelos de imagen a través de modelos de visión Ollama locales o alojados. Para visión local, descarga un modelo que admita imágenes:--model debe ser una referencia completa <provider/model>. Cuando se establece, openclaw infer image describe ejecuta ese modelo directamente en lugar de omitir la descripción porque el modelo admite visión nativa.
Usa infer image describe cuando quieras el flujo de proveedor de comprensión de imágenes de OpenClaw, el agents.defaults.imageModel configurado y la forma de salida de descripción de imagen. Usa infer model run --file cuando quieras una prueba multimodal sin procesar del modelo con un prompt personalizado y una o más imágenes.
Para convertir Ollama en el modelo predeterminado de comprensión de imágenes para medios entrantes, configura agents.defaults.imageModel:
ollama/<model>. Si el mismo modelo figura en models.providers.ollama.models con input: ["text", "image"] y ningún otro proveedor de imágenes configurado expone ese ID de modelo sin prefijo, OpenClaw también normaliza una referencia imageModel sin prefijo como qwen2.5vl:7b a ollama/qwen2.5vl:7b. Si más de un proveedor de imágenes configurado tiene el mismo ID sin prefijo, usa el prefijo del proveedor explícitamente.
Los modelos de visión locales lentos pueden necesitar un timeout de comprensión de imágenes más largo que los modelos en la nube. También pueden fallar o detenerse cuando Ollama intenta asignar todo el contexto de visión anunciado en hardware limitado. Establece un timeout de capacidad y limita num_ctx en la entrada del modelo cuando solo necesites un turno normal de descripción de imagen:
image que el agente puede llamar durante un turno. models.providers.ollama.timeoutSeconds a nivel de proveedor sigue controlando la protección de la solicitud HTTP subyacente de Ollama para llamadas normales al modelo.
Verifica en vivo la herramienta explícita de imagen contra Ollama local con:
models.providers.ollama.models manualmente, marca los modelos de visión con compatibilidad de entrada de imagen:
/api/show informa una capacidad de visión.
Configuración
- Básica (descubrimiento implícito)
- Explícita (modelos manuales)
- URL base personalizada
Recetas comunes
Usa estas como puntos de partida y reemplaza los ID de modelo por los nombres exactos deollama list o openclaw models list --provider ollama.
Modelo local con descubrimiento automático
Modelo local con descubrimiento automático
models.providers.ollama a menos que quieras definir modelos manualmente.Host Ollama LAN con modelos manuales
Host Ollama LAN con modelos manuales
/v1.contextWindow es el presupuesto de contexto del lado de OpenClaw. params.num_ctx se envía a Ollama para la solicitud. Mantenlos alineados cuando tu hardware no pueda ejecutar todo el contexto anunciado del modelo.Solo Ollama Cloud
Solo Ollama Cloud
Nube más local a través de un demonio con sesión iniciada
Nube más local a través de un demonio con sesión iniciada
ollama signin y deba servir tanto modelos locales como modelos :cloud.Varios hosts Ollama
Varios hosts Ollama
ollama-large/qwen3.5:27b llegue a Ollama como qwen3.5:27b.Perfil de modelo local ligero
Perfil de modelo local ligero
compat.supportsTools: false solo cuando el modelo o el servidor falla de forma fiable con los esquemas de herramientas. Intercambia capacidad del agente por estabilidad.
localModelLean elimina las herramientas de navegador, Cron y mensajes de la superficie del agente, pero no cambia el contexto de tiempo de ejecución ni el modo de pensamiento de Ollama. Combínalo con params.num_ctx explícito y params.thinking: false para modelos de pensamiento pequeños de estilo Qwen que entran en bucle o gastan su presupuesto de respuesta en razonamiento oculto.Selección de modelo
Una vez configurados, todos tus modelos de Ollama están disponibles:ollama-spark/qwen3:32b, OpenClaw elimina solo ese prefijo antes de llamar a Ollama para que el servidor reciba qwen3:32b.
Para modelos locales lentos, prefiere el ajuste de solicitudes con ámbito de proveedor antes de aumentar el tiempo de espera de ejecución de todo el agente:
timeoutSeconds se aplica a la solicitud HTTP del modelo, incluida la configuración de la conexión, los encabezados, el streaming del cuerpo y el aborto total protegido de la obtención. params.keep_alive se reenvía a Ollama como keep_alive de nivel superior en solicitudes nativas /api/chat; configúralo por modelo cuando el tiempo de carga del primer turno sea el cuello de botella.
Verificación rápida
127.0.0.1 por el host usado en baseUrl. Si curl funciona pero OpenClaw no, comprueba si el Gateway se ejecuta en otra máquina, contenedor o cuenta de servicio.
Búsqueda web de Ollama
OpenClaw admite Búsqueda web de Ollama como proveedorweb_search incluido.
| Propiedad | Detalle |
|---|---|
| Host | Usa tu host de Ollama configurado (models.providers.ollama.baseUrl cuando está definido; de lo contrario, http://127.0.0.1:11434); https://ollama.com usa directamente la API alojada |
| Autenticación | Sin clave para hosts locales de Ollama con sesión iniciada; OLLAMA_API_KEY o autenticación de proveedor configurada para búsqueda directa en https://ollama.com o hosts protegidos por autenticación |
| Requisito | Los hosts locales/autohospedados deben estar en ejecución y con sesión iniciada mediante ollama signin; la búsqueda alojada directa requiere baseUrl: "https://ollama.com" más una clave de API real de Ollama |
openclaw onboard o openclaw configure --section web, o configura:
/api/experimental/web_search del daemon. Para https://ollama.com, llama directamente al endpoint alojado /api/web_search.
Configuración avanzada
Modo heredado compatible con OpenAI
Modo heredado compatible con OpenAI
api: "openai-completions" explícitamente:params: { streaming: false } en la configuración del modelo.Cuando api: "openai-completions" se usa con Ollama, OpenClaw inyecta options.num_ctx de forma predeterminada para que Ollama no vuelva silenciosamente a una ventana de contexto de 4096. Si tu proxy/upstream rechaza campos options desconocidos, desactiva este comportamiento:Ventanas de contexto
Ventanas de contexto
PARAMETER num_ctx mayores de Modelfiles personalizados. De lo contrario, vuelve a la ventana de contexto predeterminada de Ollama usada por OpenClaw.Puedes establecer valores predeterminados de contextWindow, contextTokens y maxTokens a nivel de proveedor para cada modelo bajo ese proveedor de Ollama, y luego sobrescribirlos por modelo cuando sea necesario. contextWindow es el presupuesto de prompt y Compaction de OpenClaw. Las solicitudes nativas de Ollama dejan options.num_ctx sin configurar a menos que configures explícitamente params.num_ctx, para que Ollama pueda aplicar su propio valor predeterminado basado en el modelo, OLLAMA_CONTEXT_LENGTH o VRAM. Para limitar o forzar el contexto de ejecución por solicitud de Ollama sin reconstruir un Modelfile, configura params.num_ctx; los valores no válidos, cero, negativos y no finitos se ignoran. El adaptador compatible con OpenAI para Ollama sigue inyectando options.num_ctx de forma predeterminada desde el params.num_ctx o contextWindow configurado; desactívalo con injectNumCtxForOpenAICompat: false si tu upstream rechaza options.Las entradas de modelos nativos de Ollama también aceptan las opciones comunes de ejecución de Ollama bajo params, incluidas temperature, top_p, top_k, min_p, num_predict, stop, repeat_penalty, num_batch, num_thread y use_mmap. OpenClaw reenvía solo claves de solicitud de Ollama, por lo que los params de ejecución de OpenClaw como streaming no se filtran a Ollama. Usa params.think o params.thinking para enviar think de nivel superior de Ollama; false desactiva el pensamiento a nivel de API para modelos de pensamiento de estilo Qwen.agents.defaults.models["ollama/<model>"].params.num_ctx por modelo también funciona. Si ambos están configurados, la entrada explícita de modelo del proveedor gana sobre el valor predeterminado del agente.Control de pensamiento
Control de pensamiento
think de nivel superior, no options.think. Los modelos descubiertos automáticamente cuya respuesta /api/show incluye la capacidad thinking exponen /think low, /think medium, /think high y /think max; los modelos sin pensamiento exponen solo /think off.params.think o params.thinking por modelo puede desactivar o forzar el pensamiento de la API de Ollama para un modelo configurado específico. OpenClaw conserva esos params explícitos del modelo cuando la ejecución activa solo tiene el valor predeterminado implícito off; los comandos de ejecución no off como /think medium siguen sobrescribiendo la ejecución activa.Modelos de razonamiento
Modelos de razonamiento
deepseek-r1, reasoning o think como capaces de razonamiento de forma predeterminada.Costos de modelos
Costos de modelos
Embeddings de memoria
Embeddings de memoria
/api/embed de Ollama y agrupa
varios fragmentos de memoria en una solicitud input cuando es posible.| Propiedad | Valor |
|---|---|
| Modelo predeterminado | nomic-embed-text |
| Auto-pull | Sí — el modelo de embeddings se descarga automáticamente si no está presente localmente |
nomic-embed-text, qwen3-embedding y mxbai-embed-large. Los lotes de documentos de memoria permanecen sin procesar para que los índices existentes no necesiten una migración de formato.Para seleccionar Ollama como proveedor de embeddings de búsqueda de memoria:Configuración de streaming
Configuración de streaming
/api/chat) de forma predeterminada, lo que admite por completo streaming y llamadas a herramientas simultáneamente. No se necesita ninguna configuración especial.Para solicitudes nativas de /api/chat, OpenClaw también reenvía el control de razonamiento directamente a Ollama: /think off y openclaw agent --thinking off envían think: false en el nivel superior, salvo que se configure un valor explícito de modelo params.think/params.thinking, mientras que /think low|medium|high envían la cadena de esfuerzo think de nivel superior correspondiente. /think max se asigna al esfuerzo nativo más alto de Ollama, think: "high".Solución de problemas
Bucle de bloqueo de WSL2 (reinicios repetidos)
Bucle de bloqueo de WSL2 (reinicios repetidos)
ollama.service con Restart=always. Si ese servicio se inicia automáticamente y carga un modelo respaldado por GPU durante el arranque de WSL2, Ollama puede fijar memoria del host mientras se carga el modelo. La recuperación de memoria de Hyper-V no siempre puede recuperar esas páginas fijadas, por lo que Windows puede terminar la VM de WSL2, systemd vuelve a iniciar Ollama y el bucle se repite.Evidencia común:- reinicios o terminaciones repetidos de WSL2 desde el lado de Windows
- CPU alta en
app.sliceoollama.servicepoco después del inicio de WSL2 - SIGTERM de systemd en lugar de un evento del OOM-killer de Linux
ollama.service habilitado con Restart=always y marcadores CUDA visibles.Mitigación:%USERPROFILE%\.wslconfig en el lado de Windows y luego ejecuta wsl --shutdown:Ollama no detectado
Ollama no detectado
OLLAMA_API_KEY (o un perfil de autenticación) y de que no hayas definido una entrada explícita models.providers.ollama:No hay modelos disponibles
No hay modelos disponibles
models.providers.ollama.Conexión rechazada
Conexión rechazada
El host remoto funciona con curl, pero no con OpenClaw
El host remoto funciona con curl, pero no con OpenClaw
baseUrlapunta alocalhost, pero el Gateway se ejecuta en Docker o en otro host.- La URL usa
/v1, lo que selecciona el comportamiento compatible con OpenAI en lugar de Ollama nativo. - El host remoto necesita cambios de firewall o de vinculación de LAN en el lado de Ollama.
- El modelo está presente en el daemon de tu portátil, pero no en el daemon remoto.
El modelo genera JSON de herramientas como texto
El modelo genera JSON de herramientas como texto
compat.supportsTools: false en esa entrada de modelo y vuelve a probar.Kimi o GLM devuelve símbolos ilegibles
Kimi o GLM devuelve símbolos ilegibles
Cloud + Local o Cloud only; luego prueba una sesión nueva y un modelo de reserva:El modelo local en frío agota el tiempo de espera
El modelo local en frío agota el tiempo de espera
timeoutSeconds también amplía el tiempo de espera de conexión protegido de Undici para este proveedor.El modelo de contexto grande es demasiado lento o se queda sin memoria
El modelo de contexto grande es demasiado lento o se queda sin memoria
params.num_ctx. Limita tanto el presupuesto de OpenClaw como el contexto de solicitud de Ollama cuando quieras una latencia predecible hasta el primer token:contextWindow si OpenClaw está enviando demasiado prompt. Reduce params.num_ctx si Ollama está cargando un contexto de runtime demasiado grande para la máquina. Reduce maxTokens si la generación tarda demasiado.