Tools

メディア概要

OpenClaw は画像、動画、音楽を生成し、受信メディア（画像、音声、動画）を理解し、テキスト読み上げで返信を音声として発話します。すべてのメディア機能はツール駆動です。エージェントは会話に基づいて使用タイミングを判断し、各ツールは少なくとも 1 つの裏側のプロバイダーが設定されている場合にのみ表示されます。

ライブ音声は、ワンショットのメディアツールパスではなく Talk セッション契約を使用します。Talk には 3 つのモードがあります。プロバイダーネイティブの realtime、ローカルまたはストリーミングの stt-tts、観察専用の音声キャプチャ向け transcription です。これらのモードは、テレフォニー、会議、ブラウザーリアルタイム、ネイティブのプッシュツートーククライアントと、プロバイダーカタログ、イベントエンベロープ、キャンセルのセマンティクスを共有します。

機能

画像生成

テキストプロンプトまたは参照画像から image_generate 経由で画像を作成・編集します。チャットセッションでは非同期です。バックグラウンドで実行され、準備ができると結果を投稿します。

動画生成

video_generate 経由でテキストから動画、画像から動画、動画から動画を生成します。非同期です。バックグラウンドで実行され、準備ができると結果を投稿します。

音楽生成

music_generate 経由で音楽または音声トラックを生成します。チャットセッションでは、共有メディア生成タスクライフサイクル上で非同期に実行されます。

テキスト読み上げ

tts ツールと messages.tts 設定を使用して、送信返信を音声に変換します。同期です。

メディア理解

ビジョン対応モデルプロバイダーと専用のメディア理解プラグインを使用して、受信画像、音声、動画を要約します。

音声テキスト変換

バッチ STT または Voice Call ストリーミング STT プロバイダーを通じて、受信音声メッセージを文字起こしします。

プロバイダー機能マトリクス

プロバイダー	画像	動画	音楽	TTS	STT	リアルタイム音声	メディア理解
Alibaba		✓
Azure Speech				✓
BytePlus		✓
ComfyUI	✓	✓	✓
Deepgram					✓
DeepInfra	✓	✓		✓	✓		✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓	✓	✓	✓
Gradium				✓
Inworld				✓
LiteLLM	✓
Local CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
PixVerse		✓
Qwen		✓					✓
Runway		✓
SenseAudio					✓
Together		✓
Volcengine				✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo				✓

非同期と同期

機能	モード	理由
画像	非同期	プロバイダー処理がチャットターンを超えて継続することがあります。生成された添付ファイルは共有完了パスを使用します。
テキスト読み上げ	同期	プロバイダーの応答は数秒で返り、返信音声に添付されます。
動画	非同期	プロバイダー処理には 30 秒から数分かかります。遅いキューは設定されたタイムアウトまで実行されることがあります。
音楽	非同期	動画と同じプロバイダー処理特性です。

非同期ツールでは、OpenClaw はリクエストをプロバイダーに送信し、タスク ID を即座に返して、タスク台帳でジョブを追跡します。ジョブの実行中も、エージェントは他のメッセージへの応答を続けます。プロバイダーが完了すると、 OpenClaw は生成されたメディアパスとともにエージェントを起動し、セッションの通常の可視返信モードを通じてユーザーに伝えられるようにします。設定されている場合は自動の最終返信配信、セッションがメッセージツールを必要とする場合は message(action="send") です。リクエスト元セッションが非アクティブ、またはそのアクティブ wake が失敗し、生成されたメディアの一部が完了返信にまだ含まれていない場合、 OpenClaw は不足しているメディアのみを含む冪等な直接フォールバックを送信します。完了返信ですでに配信されたメディアは再投稿されません。

音声テキスト変換と Voice Call

Deepgram、DeepInfra、ElevenLabs、Google、Groq、Mistral、OpenAI、OpenRouter、 SenseAudio、xAI はすべて、設定されている場合にバッチ tools.media.audio パスを通じて受信音声を文字起こしできます。メンションゲートまたはコマンド解析のためにボイスノートを事前確認するチャンネルプラグインは、文字起こし済みの添付ファイルを受信コンテキストにマークするため、共有メディア理解パスは同じ音声に対して 2 回目の STT 呼び出しを行わずにそのトランスクリプトを再利用します。

Deepgram、ElevenLabs、Mistral、OpenAI、xAI は Voice Call ストリーミング STT プロバイダーも登録しているため、ライブ電話音声は録音完了を待たずに、選択されたベンダーへ転送できます。

ライブのユーザー会話には、Talk モードを優先してください。バッチ音声添付ファイルはメディアパスに残ります。ブラウザーリアルタイム、ネイティブのプッシュツートーク、テレフォニー、会議音声は、Talk イベントと Gateway から返されるセッションスコープのカタログを使用する必要があります。

プロバイダーマッピング（ベンダーがサーフェス間でどう分かれるか）

Google

画像、動画、音楽、バッチ TTS、バッチ STT、バックエンドリアルタイム音声、メディア理解サーフェス。

OpenAI

画像、動画、バッチ TTS、バッチ STT、Voice Call ストリーミング STT、バックエンドリアルタイム音声、メモリ埋め込みサーフェス。

DeepInfra

チャット/モデルルーティング、画像生成/編集、テキストから動画、バッチ TTS、バッチ STT、画像メディア理解、メモリ埋め込みサーフェス。 DeepInfra は、再ランキング、分類、物体検出、その他のネイティブモデルタイプも公開していますが、 OpenClaw にはこれらのカテゴリ向けのプロバイダー契約がまだないため、このプラグインはそれらを登録しません。

xAI

画像、動画、検索、コード実行、バッチ TTS、バッチ STT、Voice Call ストリーミング STT。xAI Realtime voice は上流の機能ですが、共有リアルタイム音声契約で表現できるようになるまでは OpenClaw には登録されません。