Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
openclaw infer là bề mặt headless chuẩn cho các quy trình inference được hỗ trợ bởi nhà cung cấp.
Nó chủ ý phơi bày các nhóm năng lực, không phải tên RPC Gateway thô và không phải id công cụ agent thô.
Biến infer thành một kỹ năng
Sao chép và dán nội dung này cho một agent:- ánh xạ các ý định phổ biến của người dùng tới đúng lệnh con infer
- bao gồm một vài ví dụ infer chuẩn cho các quy trình mà nó bao phủ
- ưu tiên
openclaw infer ...trong ví dụ và đề xuất - tránh ghi lại toàn bộ bề mặt infer trong phần thân kỹ năng
openclaw infer model runopenclaw infer image generateopenclaw infer audio transcribeopenclaw infer tts convertopenclaw infer web searchopenclaw infer embedding create
Vì sao dùng infer
openclaw infer cung cấp một CLI nhất quán cho các tác vụ inference được hỗ trợ bởi nhà cung cấp trong OpenClaw.
Lợi ích:
- Dùng các nhà cung cấp và mô hình đã được cấu hình trong OpenClaw thay vì nối các wrapper dùng một lần cho từng backend.
- Giữ các quy trình mô hình, hình ảnh, phiên âm âm thanh, TTS, video, web và embedding trong cùng một cây lệnh.
- Dùng dạng đầu ra
--jsonổn định cho script, tự động hóa và các quy trình do agent điều khiển. - Ưu tiên bề mặt OpenClaw chính chủ khi tác vụ về cơ bản là “chạy inference”.
- Dùng đường dẫn cục bộ thông thường mà không yêu cầu Gateway cho hầu hết lệnh infer.
openclaw infer ... sau khi các bài kiểm thử nhà cung cấp cấp thấp hơn đã xanh. Nó thực thi CLI đã phát hành, tải cấu hình, phân giải agent mặc định, kích hoạt Plugin đi kèm, sửa chữa phụ thuộc runtime và runtime năng lực dùng chung trước khi yêu cầu nhà cung cấp được thực hiện.
Cây lệnh
Tác vụ phổ biến
Bảng này ánh xạ các tác vụ inference phổ biến tới lệnh infer tương ứng.| Tác vụ | Lệnh | Ghi chú |
|---|---|---|
| Chạy prompt văn bản/mô hình | openclaw infer model run --prompt "..." --json | Mặc định dùng đường dẫn cục bộ thông thường |
| Chạy prompt mô hình trên ảnh | openclaw infer model run --prompt "Describe this" --file ./image.png --model provider/model | Lặp lại --file cho nhiều đầu vào hình ảnh |
| Tạo hình ảnh | openclaw infer image generate --prompt "..." --json | Dùng image edit khi bắt đầu từ một tệp hiện có |
| Mô tả tệp hình ảnh | openclaw infer image describe --file ./image.png --prompt "..." --json | --model phải là <provider/model> có khả năng ảnh |
| Phiên âm âm thanh | openclaw infer audio transcribe --file ./memo.m4a --json | --model phải là <provider/model> |
| Tổng hợp giọng nói | openclaw infer tts convert --text "..." --output ./speech.mp3 --json | tts status hướng tới Gateway |
| Tạo video | openclaw infer video generate --prompt "..." --json | Hỗ trợ gợi ý nhà cung cấp như --resolution |
| Mô tả tệp video | openclaw infer video describe --file ./clip.mp4 --json | --model phải là <provider/model> |
| Tìm kiếm web | openclaw infer web search --query "..." --json | |
| Lấy một trang web | openclaw infer web fetch --url https://example.com --json | |
| Tạo embedding | openclaw infer embedding create --text "..." --json |
Hành vi
openclaw infer ...là bề mặt CLI chính cho các quy trình này.- Dùng
--jsonkhi đầu ra sẽ được tiêu thụ bởi một lệnh hoặc script khác. - Dùng
--providerhoặc--model provider/modelkhi cần một backend cụ thể. - Với
image describe,audio transcribevàvideo describe,--modelphải dùng dạng<provider/model>. - Với
image describe, một--modeltường minh sẽ chạy trực tiếp nhà cung cấp/mô hình đó. Mô hình phải có khả năng xử lý hình ảnh trong danh mục mô hình hoặc cấu hình nhà cung cấp.codex/<model>chạy một lượt hiểu hình ảnh có giới hạn của máy chủ ứng dụng Codex;openai-codex/<model>dùng đường dẫn nhà cung cấp OAuth OpenAI Codex. - Các lệnh thực thi không trạng thái mặc định là cục bộ.
- Các lệnh trạng thái do Gateway quản lý mặc định là Gateway.
- Đường dẫn cục bộ thông thường không yêu cầu Gateway đang chạy.
model runcục bộ là một completion nhà cung cấp một lần, gọn nhẹ. Nó phân giải mô hình agent và xác thực đã cấu hình, nhưng không bắt đầu lượt chat-agent, tải công cụ hoặc mở máy chủ MCP đi kèm.model run --filechấp nhận tệp hình ảnh, phát hiện loại MIME của chúng và gửi chúng cùng prompt đã cung cấp tới mô hình đã chọn. Lặp lại--filecho nhiều hình ảnh.model run --filetừ chối đầu vào không phải hình ảnh. Dùnginfer audio transcribecho tệp âm thanh vàinfer video describecho tệp video.model run --gatewaythực thi định tuyến Gateway, xác thực đã lưu, lựa chọn nhà cung cấp và runtime nhúng, nhưng vẫn chạy như một phép thăm dò mô hình thô: nó gửi prompt đã cung cấp và mọi tệp đính kèm hình ảnh mà không có transcript phiên trước đó, ngữ cảnh bootstrap/AGENTS, lắp ráp context-engine, công cụ hoặc máy chủ MCP đi kèm.model run --gateway --model <provider/model>yêu cầu thông tin xác thực Gateway của operator đáng tin cậy vì yêu cầu này đề nghị Gateway chạy một override nhà cung cấp/mô hình dùng một lần.
Mô hình
Dùngmodel cho inference văn bản được hỗ trợ bởi nhà cung cấp và kiểm tra mô hình/nhà cung cấp.
<provider/model> đầy đủ để smoke-test một nhà cung cấp cụ thể mà không khởi động Gateway hoặc tải toàn bộ bề mặt công cụ agent:
model runcục bộ là smoke CLI hẹp nhất cho tình trạng nhà cung cấp/mô hình/xác thực vì nó chỉ gửi prompt đã cung cấp tới mô hình đã chọn.model run --filecục bộ giữ đường dẫn gọn nhẹ đó và đính kèm trực tiếp nội dung hình ảnh vào một tin nhắn người dùng duy nhất. Các tệp hình ảnh phổ biến như PNG, JPEG và WebP hoạt động khi loại MIME của chúng được phát hiện làimage/*; tệp không được hỗ trợ hoặc không nhận diện được sẽ thất bại trước khi nhà cung cấp được gọi.model run --filelà tốt nhất khi bạn muốn kiểm thử trực tiếp mô hình văn bản đa phương thức đã chọn. Dùnginfer image describekhi bạn muốn lựa chọn nhà cung cấp hiểu hình ảnh của OpenClaw và định tuyến mô hình hình ảnh mặc định.- Mô hình đã chọn phải hỗ trợ đầu vào hình ảnh; các mô hình chỉ văn bản có thể từ chối yêu cầu ở lớp nhà cung cấp.
model run --promptphải chứa văn bản không chỉ là khoảng trắng; prompt rỗng bị từ chối trước khi nhà cung cấp cục bộ hoặc Gateway được gọi.model runcục bộ thoát khác 0 khi nhà cung cấp không trả về đầu ra văn bản, nên các nhà cung cấp cục bộ không truy cập được và completion rỗng không trông giống phép thăm dò thành công.- Dùng
model run --gatewaykhi bạn cần kiểm thử định tuyến Gateway, thiết lập agent-runtime hoặc trạng thái nhà cung cấp do Gateway quản lý trong khi vẫn giữ đầu vào mô hình ở dạng thô. Dùngopenclaw agenthoặc bề mặt chat khi bạn muốn ngữ cảnh agent đầy đủ, công cụ, bộ nhớ và transcript phiên. model auth login,model auth logoutvàmodel auth statusquản lý trạng thái xác thực nhà cung cấp đã lưu.
Hình ảnh
Dùngimage để tạo, chỉnh sửa và mô tả.
-
Dùng
image editkhi bắt đầu từ các tệp đầu vào hiện có. -
Dùng
--size,--aspect-ratiohoặc--resolutionvớiimage editcho các nhà cung cấp/mô hình hỗ trợ gợi ý hình học trên chỉnh sửa hình ảnh tham chiếu. -
Dùng
--output-format png --background transparentvới--model openai/gpt-image-1.5cho đầu ra PNG OpenAI nền trong suốt;--openai-backgroundvẫn có sẵn như một bí danh dành riêng cho OpenAI. Các nhà cung cấp không khai báo hỗ trợ nền sẽ báo gợi ý này là một override bị bỏ qua. -
Dùng
image providers --jsonđể xác minh nhà cung cấp hình ảnh đi kèm nào có thể được phát hiện, đã cấu hình, được chọn, và mỗi nhà cung cấp phơi bày những năng lực tạo/chỉnh sửa nào. -
Dùng
image generate --model <provider/model> --jsonlàm smoke CLI live hẹp nhất cho các thay đổi tạo hình ảnh. Ví dụ:Phản hồi JSON báo cáook,provider,model,attemptsvà các đường dẫn đầu ra đã được ghi. Khi--outputđược đặt, phần mở rộng cuối cùng có thể theo loại MIME do nhà cung cấp trả về. -
Đối với
image describevàimage describe-many, dùng--promptđể cung cấp cho mô hình thị giác một chỉ dẫn riêng cho tác vụ như OCR, so sánh, kiểm tra giao diện người dùng hoặc tạo chú thích ngắn gọn. -
Dùng
--timeout-msvới các mô hình thị giác cục bộ chậm hoặc khi Ollama khởi động lạnh. -
Đối với
image describe,--modelphải là một<provider/model>có khả năng xử lý hình ảnh. -
Với các mô hình thị giác Ollama cục bộ, hãy tải mô hình trước và đặt
OLLAMA_API_KEYthành bất kỳ giá trị giữ chỗ nào, ví dụollama-local. Xem Ollama.
Âm thanh
Dùngaudio để chép lời tệp.
audio transcribedùng để chép lời tệp, không phải quản lý phiên thời gian thực.--modelphải là<provider/model>.
TTS
Dùngtts để tổng hợp giọng nói và trạng thái nhà cung cấp TTS.
tts statusmặc định dùng Gateway vì nó phản ánh trạng thái TTS do Gateway quản lý.- Dùng
tts providers,tts voicesvàtts set-providerđể kiểm tra và cấu hình hành vi TTS.
Video
Dùngvideo để tạo và mô tả.
video generatechấp nhận--size,--aspect-ratio,--resolution,--duration,--audio,--watermarkvà--timeout-ms, rồi chuyển tiếp chúng đến runtime tạo video.--modelphải là<provider/model>chovideo describe.
Web
Dùngweb cho các quy trình tìm kiếm và tìm nạp.
- Dùng
web providersđể kiểm tra các nhà cung cấp hiện có, đã cấu hình và được chọn.
Embedding
Dùngembedding để tạo vector và kiểm tra nhà cung cấp embedding.
Đầu ra JSON
Các lệnh infer chuẩn hóa đầu ra JSON trong một phong bì dùng chung:okcapabilitytransportprovidermodelattemptsoutputserror
outputs chứa các tệp do OpenClaw ghi. Dùng
path, mimeType, size và mọi kích thước riêng của phương tiện trong mảng đó
để tự động hóa thay vì phân tích stdout dành cho người đọc.
Các lỗi thường gặp
Ghi chú
openclaw capability ...là bí danh củaopenclaw infer ....