メインコンテンツへスキップ

メディア生成と理解

OpenClawは画像、動画、音楽を生成し、受信メディア(画像、音声、動画)を理解し、text-to-speechで返信を音声化できます。すべてのメディア機能はtool駆動です。agentは会話に基づいてそれらをいつ使うかを判断し、各toolは対応するproviderが少なくとも1つ設定されている場合にのみ表示されます。

機能一覧

CapabilityToolProvidersWhat it does
Image generationimage_generateComfyUI, fal, Google, MiniMax, OpenAI, Vydraテキストプロンプトまたは参照から画像を作成または編集する
Video generationvideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAIテキスト、画像、既存の動画から動画を作成する
Music generationmusic_generateComfyUI, Google, MiniMaxテキストプロンプトから音楽または音声トラックを作成する
Text-to-speech (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAI送信返信を音声に変換する
Media understanding(automatic)Any vision/audio-capable model provider, plus CLI fallbacks受信した画像、音声、動画を要約する

Provider機能マトリクス

この表は、プラットフォーム全体で各providerがどのメディア機能をサポートしているかを示します。
ProviderImageVideoMusicTTSSTT / TranscriptionMedia Understanding
AlibabaYes
BytePlusYes
ComfyUIYesYesYes
DeepgramYes
ElevenLabsYes
falYesYes
GoogleYesYesYesYes
MicrosoftYes
MiniMaxYesYesYesYes
OpenAIYesYesYesYesYes
QwenYes
RunwayYes
TogetherYes
VydraYesYes
xAIYes
メディア理解では、provider configに登録されたvision対応またはaudio対応のmodelを使用します。上の表では、専用のメディア理解サポートを持つproviderを強調しています。multimodal modelsを持つほとんどのLLM provider(Anthropic、Google、OpenAIなど)は、アクティブな返信modelとして設定されていれば、受信メディアも理解できます。

非同期生成の仕組み

providerの処理には通常30秒から数分かかるため、動画生成と音楽生成はバックグラウンドタスクとして実行されます。agentが video_generate または music_generate を呼び出すと、OpenClawはproviderへリクエストを送信し、ただちにtask IDを返して、そのジョブをtask ledgerで追跡します。ジョブの実行中もagentは他のメッセージへの応答を続けます。providerの処理が完了すると、OpenClawはagentを再開し、元のチャンネルに完成したメディアを投稿できるようにします。画像生成とTTSは同期的で、返信内でそのまま完了します。

クイックリンク