OpenClaw tích hợp với API gốc của Ollama (Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
/api/chat) cho các mô hình đám mây được lưu trữ và máy chủ Ollama cục bộ/tự lưu trữ. Bạn có thể dùng Ollama ở ba chế độ: Cloud + Local thông qua một máy chủ Ollama có thể truy cập, Cloud only với https://ollama.com, hoặc Local only với một máy chủ Ollama có thể truy cập.
Cấu hình nhà cung cấp Ollama dùng baseUrl làm khóa chuẩn. OpenClaw cũng chấp nhận baseURL để tương thích với các ví dụ kiểu OpenAI SDK, nhưng cấu hình mới nên ưu tiên baseUrl.
Quy tắc xác thực
Máy chủ cục bộ và LAN
Máy chủ cục bộ và LAN
ollama-local cho URL cơ sở Ollama loopback, mạng riêng, .local và tên máy chủ trần.Máy chủ từ xa và Ollama Cloud
Máy chủ từ xa và Ollama Cloud
https://ollama.com) yêu cầu thông tin xác thực thật thông qua OLLAMA_API_KEY, hồ sơ xác thực, hoặc apiKey của nhà cung cấp.ID nhà cung cấp tùy chỉnh
ID nhà cung cấp tùy chỉnh
api: "ollama" tuân theo cùng các quy tắc. Ví dụ, nhà cung cấp ollama-remote trỏ tới máy chủ Ollama trong LAN riêng có thể dùng apiKey: "ollama-local" và tác nhân con sẽ phân giải dấu hiệu đó thông qua hook nhà cung cấp Ollama thay vì coi đó là thông tin xác thực bị thiếu. Tìm kiếm bộ nhớ cũng có thể đặt agents.defaults.memorySearch.provider thành ID nhà cung cấp tùy chỉnh đó để embedding dùng endpoint Ollama tương ứng.Hồ sơ xác thực
Hồ sơ xác thực
auth-profiles.json lưu thông tin xác thực cho một ID nhà cung cấp. Đặt thiết lập endpoint (baseUrl, api, ID mô hình, header, timeout) trong models.providers.<id>. Các tệp hồ sơ xác thực phẳng cũ hơn như { "ollama-windows": { "apiKey": "ollama-local" } } không phải định dạng runtime; chạy openclaw doctor --fix để viết lại chúng thành hồ sơ khóa API chuẩn ollama-windows:default kèm bản sao lưu. baseUrl trong tệp đó là nhiễu tương thích và nên được chuyển sang cấu hình nhà cung cấp.Phạm vi embedding bộ nhớ
Phạm vi embedding bộ nhớ
- Khóa cấp nhà cung cấp chỉ được gửi tới máy chủ Ollama của nhà cung cấp đó.
agents.*.memorySearch.remote.apiKeychỉ được gửi tới máy chủ embedding từ xa của nó.- Giá trị env
OLLAMA_API_KEYthuần được coi là quy ước Ollama Cloud, mặc định không gửi tới máy chủ cục bộ hoặc tự lưu trữ.
Bắt đầu
Chọn phương thức thiết lập và chế độ bạn muốn.- Onboarding (khuyến nghị)
- Thiết lập thủ công
Chọn chế độ
- Cloud + Local — máy chủ Ollama cục bộ cộng với mô hình đám mây được định tuyến qua máy chủ đó
- Cloud only — mô hình Ollama được lưu trữ qua
https://ollama.com - Local only — chỉ mô hình cục bộ
Chọn mô hình
Cloud only nhắc nhập OLLAMA_API_KEY và đề xuất mặc định đám mây được lưu trữ. Cloud + Local và Local only yêu cầu URL cơ sở Ollama, phát hiện các mô hình có sẵn, và tự động pull mô hình cục bộ đã chọn nếu chưa có. Khi Ollama báo cáo một thẻ :latest đã cài đặt như gemma4:latest, thiết lập hiển thị mô hình đã cài đặt đó một lần thay vì hiển thị cả gemma4 và gemma4:latest hoặc pull lại bí danh trần. Cloud + Local cũng kiểm tra máy chủ Ollama đó đã đăng nhập để truy cập đám mây hay chưa.Chế độ không tương tác
Mô hình đám mây
- Cloud + Local
- Cloud only
- Local only
Cloud + Local dùng một máy chủ Ollama có thể truy cập làm điểm điều khiển cho cả mô hình cục bộ và mô hình đám mây. Đây là luồng lai được Ollama ưu tiên.Dùng Cloud + Local trong quá trình thiết lập. OpenClaw nhắc nhập URL cơ sở Ollama, phát hiện mô hình cục bộ từ máy chủ đó, và kiểm tra máy chủ đã đăng nhập để truy cập đám mây bằng ollama signin hay chưa. Khi máy chủ đã đăng nhập, OpenClaw cũng đề xuất các mặc định đám mây được lưu trữ như kimi-k2.5:cloud, minimax-m2.7:cloud, và glm-5.1:cloud.Nếu máy chủ chưa đăng nhập, OpenClaw giữ thiết lập ở chế độ chỉ cục bộ cho đến khi bạn chạy ollama signin.Phát hiện mô hình (nhà cung cấp ngầm định)
Khi bạn đặtOLLAMA_API_KEY (hoặc hồ sơ xác thực) và không định nghĩa models.providers.ollama hoặc nhà cung cấp từ xa tùy chỉnh khác với api: "ollama", OpenClaw phát hiện mô hình từ phiên bản Ollama cục bộ tại http://127.0.0.1:11434.
| Hành vi | Chi tiết |
|---|---|
| Truy vấn catalog | Truy vấn /api/tags |
| Phát hiện năng lực | Dùng tra cứu best-effort /api/show để đọc contextWindow, tham số Modelfile num_ctx đã mở rộng, và các năng lực bao gồm thị giác/công cụ |
| Mô hình thị giác | Các mô hình có năng lực vision do /api/show báo cáo được đánh dấu là hỗ trợ hình ảnh (input: ["text", "image"]), nên OpenClaw tự động chèn hình ảnh vào prompt |
| Phát hiện suy luận | Dùng năng lực /api/show khi có, bao gồm thinking; quay về heuristic theo tên mô hình (r1, reasoning, think) khi Ollama bỏ qua năng lực |
| Giới hạn token | Đặt maxTokens thành mức trần token tối đa mặc định của Ollama mà OpenClaw dùng |
| Chi phí | Đặt mọi chi phí thành 0 |
ollama/<pulled-model>:latest trong infer model run cục bộ; OpenClaw phân giải mô hình đã cài đặt đó từ catalog trực tiếp của Ollama mà không cần mục models.json viết tay.
Với các máy chủ Ollama đã đăng nhập, một số mô hình :cloud có thể dùng được thông qua /api/chat
và /api/show trước khi chúng xuất hiện trong /api/tags. Khi bạn chọn rõ ràng một
ref đầy đủ ollama/<model>:cloud, OpenClaw xác thực chính xác mô hình bị thiếu đó bằng
/api/show và chỉ thêm nó vào catalog runtime nếu Ollama xác nhận siêu dữ liệu
mô hình. Lỗi chính tả vẫn thất bại dưới dạng mô hình không xác định thay vì được tự động tạo.
infer model run cục bộ với ref mô hình Ollama đầy đủ:
infer model run. Thao tác này gửi prompt và hình ảnh trực tiếp tới
mô hình thị giác Ollama đã chọn mà không tải công cụ chat, bộ nhớ, hoặc ngữ cảnh
phiên trước:
model run --file chấp nhận các tệp được phát hiện là image/*, bao gồm các đầu vào PNG,
JPEG, và WebP phổ biến. Các tệp không phải hình ảnh bị từ chối trước khi gọi Ollama.
Đối với nhận dạng giọng nói, hãy dùng openclaw infer audio transcribe thay thế.
Khi bạn chuyển một cuộc trò chuyện bằng /model ollama/<model>, OpenClaw coi
đó là lựa chọn chính xác của người dùng. Nếu baseUrl Ollama đã cấu hình
không thể truy cập, phản hồi tiếp theo thất bại với lỗi nhà cung cấp thay vì âm thầm
trả lời từ một mô hình fallback đã cấu hình khác.
Các tác vụ cron cô lập thực hiện thêm một bước kiểm tra an toàn cục bộ trước khi bắt đầu lượt của agent. Nếu mô hình đã chọn được phân giải thành nhà cung cấp Ollama cục bộ, mạng riêng hoặc .local và không thể truy cập /api/tags, OpenClaw ghi nhận lần chạy cron đó là skipped với ollama/<model> đã chọn trong văn bản lỗi. Bước kiểm tra trước endpoint được lưu vào bộ nhớ đệm trong 5 phút, vì vậy nhiều tác vụ cron trỏ đến cùng một daemon Ollama đã dừng sẽ không cùng khởi chạy các yêu cầu mô hình thất bại.
Xác minh trực tiếp đường dẫn văn bản cục bộ, đường dẫn luồng gốc và embeddings với Ollama cục bộ bằng:
models.providers.ollama một cách tường minh, hoặc cấu hình một nhà cung cấp từ xa tùy chỉnh như models.providers.ollama-cloud với api: "ollama", tự động phát hiện sẽ bị bỏ qua và bạn phải định nghĩa mô hình thủ công. Các nhà cung cấp tùy chỉnh loopback như http://127.0.0.2:11434 vẫn được xem là cục bộ. Xem phần cấu hình tường minh bên dưới.Thị giác và mô tả hình ảnh
Plugin Ollama đi kèm đăng ký Ollama làm nhà cung cấp hiểu phương tiện có khả năng xử lý hình ảnh. Điều này cho phép OpenClaw định tuyến các yêu cầu mô tả hình ảnh tường minh và các mặc định mô hình hình ảnh đã cấu hình thông qua mô hình thị giác Ollama cục bộ hoặc được lưu trữ. Đối với thị giác cục bộ, kéo một mô hình hỗ trợ hình ảnh:--model phải là tham chiếu <provider/model> đầy đủ. Khi được đặt, openclaw infer image describe chạy trực tiếp mô hình đó thay vì bỏ qua mô tả vì mô hình hỗ trợ thị giác gốc.
Dùng infer image describe khi bạn muốn luồng nhà cung cấp hiểu hình ảnh của OpenClaw, agents.defaults.imageModel đã cấu hình, và dạng đầu ra mô tả hình ảnh. Dùng infer model run --file khi bạn muốn thăm dò mô hình đa phương thức thô với lời nhắc tùy chỉnh và một hoặc nhiều hình ảnh.
Để đặt Ollama làm mô hình hiểu hình ảnh mặc định cho phương tiện đến, cấu hình agents.defaults.imageModel:
ollama/<model> đầy đủ. Nếu cùng mô hình được liệt kê trong models.providers.ollama.models với input: ["text", "image"] và không có nhà cung cấp hình ảnh nào khác đã cấu hình phơi bày ID mô hình trần đó, OpenClaw cũng chuẩn hóa một tham chiếu imageModel trần như qwen2.5vl:7b thành ollama/qwen2.5vl:7b. Nếu nhiều hơn một nhà cung cấp hình ảnh đã cấu hình có cùng ID trần, hãy dùng tiền tố nhà cung cấp một cách tường minh.
Các mô hình thị giác cục bộ chậm có thể cần thời gian chờ hiểu hình ảnh dài hơn so với mô hình đám mây. Chúng cũng có thể bị sập hoặc dừng khi Ollama cố cấp phát toàn bộ ngữ cảnh thị giác được quảng bá trên phần cứng hạn chế. Đặt thời gian chờ capability, và giới hạn num_ctx trên mục mô hình khi bạn chỉ cần một lượt mô tả hình ảnh bình thường:
image tường minh mà agent có thể gọi trong một lượt. models.providers.ollama.timeoutSeconds ở cấp nhà cung cấp vẫn kiểm soát bộ bảo vệ yêu cầu HTTP Ollama bên dưới cho các lệnh gọi mô hình thông thường.
Xác minh trực tiếp công cụ hình ảnh tường minh với Ollama cục bộ bằng:
models.providers.ollama.models thủ công, hãy đánh dấu các mô hình thị giác có hỗ trợ đầu vào hình ảnh:
/api/show báo cáo một capability thị giác.
Cấu hình
- Cơ bản (phát hiện ngầm định)
- Tường minh (mô hình thủ công)
- URL cơ sở tùy chỉnh
Công thức phổ biến
Dùng các mục này làm điểm bắt đầu và thay ID mô hình bằng tên chính xác từollama list hoặc openclaw models list --provider ollama.
Mô hình cục bộ với tự động phát hiện
Mô hình cục bộ với tự động phát hiện
models.providers.ollama trừ khi bạn muốn định nghĩa mô hình thủ công.Host Ollama LAN với mô hình thủ công
Host Ollama LAN với mô hình thủ công
/v1.contextWindow là ngân sách ngữ cảnh phía OpenClaw. params.num_ctx được gửi đến Ollama cho yêu cầu. Giữ chúng đồng bộ khi phần cứng của bạn không thể chạy toàn bộ ngữ cảnh được mô hình quảng bá.Chỉ Ollama Cloud
Chỉ Ollama Cloud
Đám mây cộng cục bộ qua daemon đã đăng nhập
Đám mây cộng cục bộ qua daemon đã đăng nhập
ollama signin và cần phục vụ cả mô hình cục bộ lẫn mô hình :cloud.Nhiều host Ollama
Nhiều host Ollama
ollama-large/qwen3.5:27b đến Ollama dưới dạng qwen3.5:27b.Hồ sơ mô hình cục bộ gọn nhẹ
Hồ sơ mô hình cục bộ gọn nhẹ
compat.supportsTools: false khi mô hình hoặc máy chủ thường xuyên lỗi với schema công cụ. Thiết lập này đánh đổi năng lực của agent để lấy độ ổn định.
localModelLean loại bỏ trình duyệt, Cron và công cụ nhắn tin khỏi bề mặt agent, nhưng không thay đổi ngữ cảnh runtime hoặc chế độ thinking của Ollama. Ghép nó với params.num_ctx rõ ràng và params.thinking: false cho các mô hình thinking nhỏ kiểu Qwen hay bị lặp hoặc tiêu tốn ngân sách phản hồi cho suy luận ẩn.Chọn mô hình
Sau khi cấu hình, tất cả mô hình Ollama của bạn đều khả dụng:ollama-spark/qwen3:32b, OpenClaw chỉ loại bỏ
tiền tố đó trước khi gọi Ollama để máy chủ nhận được qwen3:32b.
Với các mô hình cục bộ chậm, hãy ưu tiên tinh chỉnh yêu cầu theo phạm vi provider trước khi tăng
thời gian chờ runtime của toàn bộ agent:
timeoutSeconds áp dụng cho yêu cầu HTTP của mô hình, bao gồm thiết lập kết nối,
header, truyền luồng body và toàn bộ lần hủy guarded-fetch. params.keep_alive
được chuyển tiếp đến Ollama dưới dạng keep_alive cấp cao nhất trên các yêu cầu /api/chat gốc;
đặt theo từng mô hình khi thời gian tải lượt đầu là điểm nghẽn.
Xác minh nhanh
127.0.0.1 bằng host được dùng trong baseUrl. Nếu curl hoạt động nhưng OpenClaw thì không, hãy kiểm tra Gateway có đang chạy trên một máy, container hoặc tài khoản dịch vụ khác hay không.
Tìm kiếm web Ollama
OpenClaw hỗ trợ Tìm kiếm web Ollama dưới dạng providerweb_search đi kèm.
| Thuộc tính | Chi tiết |
|---|---|
| Host | Dùng host Ollama đã cấu hình của bạn (models.providers.ollama.baseUrl khi được đặt, nếu không là http://127.0.0.1:11434); https://ollama.com dùng trực tiếp API được lưu trữ |
| Xác thực | Không cần khóa với host Ollama cục bộ đã đăng nhập; OLLAMA_API_KEY hoặc xác thực provider đã cấu hình cho tìm kiếm trực tiếp qua https://ollama.com hoặc host được bảo vệ bằng xác thực |
| Yêu cầu | Host cục bộ/tự lưu trữ phải đang chạy và đã đăng nhập bằng ollama signin; tìm kiếm trực tiếp được lưu trữ yêu cầu baseUrl: "https://ollama.com" cùng khóa API Ollama thật |
openclaw onboard hoặc openclaw configure --section web, hoặc đặt:
/api/experimental/web_search của daemon. Với https://ollama.com, nó gọi trực tiếp endpoint /api/web_search được lưu trữ.
Cấu hình nâng cao
Chế độ tương thích OpenAI cũ
Chế độ tương thích OpenAI cũ
api: "openai-completions":params: { streaming: false } trong cấu hình mô hình.Khi api: "openai-completions" được dùng với Ollama, OpenClaw mặc định chèn options.num_ctx để Ollama không âm thầm quay về cửa sổ ngữ cảnh 4096. Nếu proxy/upstream của bạn từ chối các trường options không xác định, hãy tắt hành vi này:Cửa sổ ngữ cảnh
Cửa sổ ngữ cảnh
PARAMETER num_ctx lớn hơn từ Modelfile tùy chỉnh. Nếu không, nó quay về cửa sổ ngữ cảnh Ollama mặc định được OpenClaw dùng.Bạn có thể đặt mặc định contextWindow, contextTokens và maxTokens cấp provider cho mọi mô hình dưới provider Ollama đó, rồi ghi đè theo từng mô hình khi cần. contextWindow là ngân sách prompt và Compaction của OpenClaw. Các yêu cầu Ollama gốc để options.num_ctx không đặt trừ khi bạn cấu hình rõ params.num_ctx, để Ollama có thể áp dụng mặc định riêng theo mô hình, OLLAMA_CONTEXT_LENGTH hoặc VRAM. Để giới hạn hoặc ép buộc ngữ cảnh runtime theo từng yêu cầu của Ollama mà không cần dựng lại Modelfile, hãy đặt params.num_ctx; các giá trị không hợp lệ, bằng 0, âm và không hữu hạn sẽ bị bỏ qua. Adapter Ollama tương thích OpenAI vẫn mặc định chèn options.num_ctx từ params.num_ctx hoặc contextWindow đã cấu hình; tắt bằng injectNumCtxForOpenAICompat: false nếu upstream của bạn từ chối options.Các mục mô hình Ollama gốc cũng chấp nhận các tùy chọn runtime Ollama phổ biến trong params, bao gồm temperature, top_p, top_k, min_p, num_predict, stop, repeat_penalty, num_batch, num_thread và use_mmap. OpenClaw chỉ chuyển tiếp các khóa yêu cầu Ollama, vì vậy các tham số runtime OpenClaw như streaming không bị rò rỉ sang Ollama. Dùng params.think hoặc params.thinking để gửi think Ollama cấp cao nhất; false tắt thinking cấp API cho các mô hình thinking kiểu Qwen.agents.defaults.models["ollama/<model>"].params.num_ctx theo từng mô hình cũng hoạt động. Nếu cả hai đều được cấu hình, mục mô hình provider rõ ràng sẽ thắng mặc định agent.Điều khiển thinking
Điều khiển thinking
think cấp cao nhất, không phải options.think. Các mô hình tự động phát hiện có phản hồi /api/show bao gồm năng lực thinking sẽ hiển thị /think low, /think medium, /think high và /think max; các mô hình không thinking chỉ hiển thị /think off.params.think hoặc params.thinking theo từng mô hình có thể tắt hoặc ép buộc thinking API Ollama cho một mô hình đã cấu hình cụ thể. OpenClaw giữ nguyên các tham số mô hình rõ ràng đó khi lượt chạy hiện tại chỉ có mặc định ngầm định off; các lệnh runtime khác off như /think medium vẫn ghi đè lượt chạy hiện tại.Mô hình reasoning
Mô hình reasoning
deepseek-r1, reasoning hoặc think là có khả năng reasoning.Chi phí mô hình
Chi phí mô hình
Memory embeddings
Memory embeddings
/api/embed hiện tại của Ollama và gom
nhiều đoạn memory vào một yêu cầu input khi có thể.| Thuộc tính | Giá trị |
|---|---|
| Mô hình mặc định | nomic-embed-text |
| Tự động pull | Có — mô hình embedding được tự động pull nếu chưa có cục bộ |
nomic-embed-text, qwen3-embedding và mxbai-embed-large. Các lô tài liệu memory giữ nguyên thô để các chỉ mục hiện có không cần di chuyển định dạng.Để chọn Ollama làm provider embedding cho tìm kiếm memory:Cấu hình phát trực tuyến
Cấu hình phát trực tuyến
/api/chat), hỗ trợ đầy đủ phát trực tuyến và gọi công cụ đồng thời. Không cần cấu hình đặc biệt.Với các yêu cầu /api/chat gốc, OpenClaw cũng chuyển tiếp điều khiển suy nghĩ trực tiếp đến Ollama: /think off và openclaw agent --thinking off gửi think: false ở cấp cao nhất, trừ khi đã cấu hình rõ giá trị params.think/params.thinking của mô hình, còn /think low|medium|high gửi chuỗi mức nỗ lực think cấp cao nhất tương ứng. /think max ánh xạ tới mức nỗ lực gốc cao nhất của Ollama, think: "high".Khắc phục sự cố
Vòng lặp sập WSL2 (khởi động lại lặp lại)
Vòng lặp sập WSL2 (khởi động lại lặp lại)
ollama.service với Restart=always. Nếu dịch vụ đó tự động khởi động và tải mô hình dùng GPU trong lúc WSL2 khởi động, Ollama có thể ghim bộ nhớ máy chủ trong khi mô hình tải. Thu hồi bộ nhớ Hyper-V không phải lúc nào cũng có thể thu hồi các trang đã ghim đó, nên Windows có thể chấm dứt VM WSL2, systemd khởi động lại Ollama, và vòng lặp tiếp diễn.Dấu hiệu thường gặp:- WSL2 khởi động lại hoặc bị chấm dứt lặp lại từ phía Windows
- CPU cao trong
app.slicehoặcollama.servicengay sau khi WSL2 khởi động - SIGTERM từ systemd thay vì một sự kiện OOM-killer của Linux
ollama.service được bật với Restart=always, và có các dấu hiệu CUDA hiển thị.Cách giảm thiểu:%USERPROFILE%\.wslconfig ở phía Windows, rồi chạy wsl --shutdown:Không phát hiện Ollama
Không phát hiện Ollama
OLLAMA_API_KEY (hoặc một hồ sơ xác thực), và bạn không định nghĩa mục models.providers.ollama rõ ràng:Không có mô hình khả dụng
Không có mô hình khả dụng
models.providers.ollama.Kết nối bị từ chối
Kết nối bị từ chối
Máy chủ từ xa hoạt động với curl nhưng không hoạt động với OpenClaw
Máy chủ từ xa hoạt động với curl nhưng không hoạt động với OpenClaw
baseUrltrỏ tớilocalhost, nhưng Gateway chạy trong Docker hoặc trên một máy chủ khác.- URL dùng
/v1, chọn hành vi tương thích OpenAI thay vì Ollama gốc. - Máy chủ từ xa cần thay đổi tường lửa hoặc binding LAN ở phía Ollama.
- Mô hình có trên daemon của máy tính xách tay của bạn nhưng không có trên daemon từ xa.
Mô hình xuất JSON công cụ dưới dạng văn bản
Mô hình xuất JSON công cụ dưới dạng văn bản
compat.supportsTools: false trên mục mô hình đó và kiểm thử lại.Kimi hoặc GLM trả về ký hiệu lộn xộn
Kimi hoặc GLM trả về ký hiệu lộn xộn
Cloud + Local hay Cloud only, rồi thử một phiên mới và một mô hình dự phòng:Mô hình cục bộ nguội bị hết thời gian chờ
Mô hình cục bộ nguội bị hết thời gian chờ
timeoutSeconds cũng kéo dài thời gian chờ kết nối Undici được bảo vệ cho nhà cung cấp này.Mô hình ngữ cảnh lớn quá chậm hoặc hết bộ nhớ
Mô hình ngữ cảnh lớn quá chậm hoặc hết bộ nhớ
params.num_ctx. Giới hạn cả ngân sách của OpenClaw và ngữ cảnh yêu cầu của Ollama khi bạn muốn độ trễ token đầu tiên có thể dự đoán:contextWindow nếu OpenClaw đang gửi quá nhiều prompt. Giảm params.num_ctx nếu Ollama đang tải một ngữ cảnh runtime quá lớn cho máy. Giảm maxTokens nếu quá trình sinh chạy quá lâu.