推論 CLI
openclaw infer は、プロバイダーバックの推論ワークフロー向けの標準的なヘッドレス画面です。
これは意図的に、生の gateway RPC 名や生の agent tool id ではなく、機能ファミリーを公開します。
infer を Skills にする
これをエージェントにコピーして貼り付けてください:- 一般的なユーザー意図を正しい infer サブコマンドに対応付ける
- 対応するワークフロー向けに、いくつかの標準的な infer 例を含める
- 例や提案では
openclaw infer ...を優先する - Skills 本文内で infer の全面を丸ごと再説明しない
openclaw infer model runopenclaw infer image generateopenclaw infer audio transcribeopenclaw infer tts convertopenclaw infer web searchopenclaw infer embedding create
infer を使う理由
openclaw infer は、OpenClaw 内でのプロバイダーバック推論タスクに対して、一貫した 1 つの CLI を提供します。
利点:
- バックエンドごとに場当たり的なラッパーを組む代わりに、OpenClaw ですでに設定済みのプロバイダーとモデルを使えます。
- モデル、画像、音声文字起こし、TTS、動画、Web、埋め込みのワークフローを 1 つのコマンドツリーにまとめられます。
- スクリプト、自動化、エージェント駆動ワークフロー向けに、安定した
--json出力形式を使えます。 - タスクの本質が「推論を実行する」である場合は、ファーストパーティの OpenClaw 画面を優先できます。
- 多くの infer コマンドで Gateway を必要とせず、通常のローカルパスを使えます。
コマンドツリー
一般的なタスク
この表は、一般的な推論タスクを対応する infer コマンドに対応付けたものです。| タスク | コマンド | 注記 |
|---|---|---|
| テキスト/モデルプロンプトを実行 | openclaw infer model run --prompt "..." --json | 既定では通常のローカルパスを使います |
| 画像を生成する | openclaw infer image generate --prompt "..." --json | 既存ファイルから始める場合は image edit を使います |
| 画像ファイルを説明する | openclaw infer image describe --file ./image.png --json | --model は画像対応の <provider/model> である必要があります |
| 音声を文字起こしする | openclaw infer audio transcribe --file ./memo.m4a --json | --model は <provider/model> である必要があります |
| 音声を合成する | openclaw infer tts convert --text "..." --output ./speech.mp3 --json | tts status は Gateway 指向です |
| 動画を生成する | openclaw infer video generate --prompt "..." --json | |
| 動画ファイルを説明する | openclaw infer video describe --file ./clip.mp4 --json | --model は <provider/model> である必要があります |
| Web を検索する | openclaw infer web search --query "..." --json | |
| Web ページを取得する | openclaw infer web fetch --url https://example.com --json | |
| 埋め込みを作成する | openclaw infer embedding create --text "..." --json |
動作
openclaw infer ...は、これらのワークフロー向けの主要 CLI 画面です。- 出力を別のコマンドやスクリプトで消費する場合は
--jsonを使ってください。 - 特定のバックエンドが必要な場合は、
--providerまたは--model provider/modelを使ってください。 image describe、audio transcribe、video describeでは、--modelは<provider/model>の形式でなければなりません。image describeでは、明示的な--modelにより、その provider/model を直接実行します。モデルはモデルカタログまたは provider config 上で画像対応である必要があります。- ステートレスな実行コマンドの既定は local です。
- Gateway 管理の state コマンドの既定は gateway です。
- 通常のローカルパスでは Gateway の起動は不要です。
Model
プロバイダーバックのテキスト推論と model/provider の確認にはmodel を使います。
model runは agent runtime を再利用するため、provider/model の上書きは通常の agent 実行と同じように動作します。model auth login、model auth logout、model auth statusは、保存済みの provider 認証状態を管理します。
Image
生成、編集、説明にはimage を使います。
- 既存の入力ファイルから始める場合は
image editを使ってください。 image describeでは、--modelは画像対応の<provider/model>でなければなりません。- ローカルの Ollama ビジョンモデルでは、まずモデルを pull してから、
OLLAMA_API_KEYに任意のプレースホルダー値、たとえばollama-localを設定してください。Ollama を参照してください。
Audio
ファイル文字起こしにはaudio を使います。
audio transcribeはファイル文字起こし用であり、リアルタイムセッション管理用ではありません。--modelは<provider/model>でなければなりません。
TTS
音声合成と TTS provider state にはtts を使います。
tts statusは Gateway 管理の TTS state を反映するため、既定で gateway を使います。- TTS の動作を確認・設定するには
tts providers、tts voices、tts set-providerを使ってください。
Video
生成と説明にはvideo を使います。
video describeの--modelは<provider/model>でなければなりません。
Web
検索および取得ワークフローにはweb を使います。
- 利用可能・設定済み・選択中の provider を確認するには
web providersを使ってください。
Embedding
ベクトル作成および embedding provider の確認にはembedding を使います。
JSON 出力
infer コマンドは JSON 出力を共有エンベロープ配下に正規化します。okcapabilitytransportprovidermodelattemptsoutputserror
よくある落とし穴
注記
openclaw capability ...はopenclaw infer ...のエイリアスです。