Tools
نمای کلی رسانه
OpenClaw تصویر، ویدیو و موسیقی تولید میکند، رسانههای ورودی (تصویر، صدا، ویدیو) را میفهمد و پاسخها را با تبدیل متن به گفتار بلند میخواند. همهٔ قابلیتهای رسانهای ابزارمحور هستند: عامل بر اساس گفتگو تصمیم میگیرد چه زمانی از آنها استفاده کند و هر ابزار فقط زمانی ظاهر میشود که دستکم یک ارائهدهندهٔ پشتیبان پیکربندی شده باشد.
گفتار زنده بهجای مسیر ابزار رسانهٔ یکباره، از قرارداد نشست Talk استفاده میکند.
Talk سه حالت دارد: realtime بومیِ ارائهدهنده، stt-tts محلی یا جریانی
و transcription برای ضبط گفتار فقطبرایمشاهده. این حالتها
کاتالوگهای ارائهدهنده، پوششهای رویداد و معناشناسی لغو را با
تلفنی، جلسهها، بلادرنگ مرورگر و کلاینتهای بومی push-to-talk مشترک دارند.
قابلیتها
ایجاد و ویرایش تصویرها از اعلانهای متنی یا تصویرهای مرجع از طریق
image_generate. همگام — درونخطی همراه پاسخ کامل میشود.
متنبهویدیو، تصویربهویدیو و ویدیوبهویدیو از طریق video_generate.
ناهمگام — در پسزمینه اجرا میشود و نتیجه را پس از آمادهشدن ارسال میکند.
موسیقی یا ترکهای صوتی را از طریق music_generate تولید کنید. روی
ارائهدهندگان مشترک ناهمگام است؛ مسیر گردشکار ComfyUI بهصورت همگام اجرا میشود.
پاسخهای خروجی را از طریق ابزار tts بههمراه پیکربندی
messages.tts به صدای گفتاری تبدیل کنید. همگام.
تصویرها، صداها و ویدیوهای ورودی را با استفاده از ارائهدهندگان مدل دارای قابلیت بینایی و Pluginهای اختصاصی فهم رسانه خلاصه کنید.
پیامهای صوتی ورودی را از طریق ارائهدهندگان STT دستهای یا STT جریانی تماس صوتی رونویسی کنید.
ماتریس قابلیت ارائهدهنده
| ارائهدهنده | تصویر | ویدیو | موسیقی | TTS | STT | صدای بلادرنگ | فهم رسانه |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
ناهمگام در برابر همگام
| قابلیت | حالت | دلیل |
|---|---|---|
| تصویر | همگام | پاسخهای ارائهدهنده در چند ثانیه برمیگردند؛ درونخطی همراه پاسخ کامل میشود. |
| تبدیل متن به گفتار | همگام | پاسخهای ارائهدهنده در چند ثانیه برمیگردند؛ به صدای پاسخ پیوست میشود. |
| ویدیو | ناهمگام | پردازش ارائهدهنده از ۳۰ ثانیه تا چند دقیقه طول میکشد؛ صفهای کند میتوانند تا پایان مهلت پیکربندیشده اجرا شوند. |
| موسیقی (مشترک) | ناهمگام | همان ویژگی پردازش ارائهدهنده مانند ویدیو را دارد. |
| موسیقی (ComfyUI) | همگام | گردشکار محلی بهصورت درونخطی روی سرور ComfyUI پیکربندیشده اجرا میشود. |
برای ابزارهای ناهمگام، OpenClaw درخواست را به ارائهدهنده ارسال میکند، بلافاصله یک شناسهٔ وظیفه برمیگرداند و کار را در دفترکل وظیفه پیگیری میکند. عامل در حالی که کار اجرا میشود به پاسخدادن به پیامهای دیگر ادامه میدهد. وقتی ارائهدهنده کار را تمام کرد، OpenClaw عامل را با مسیرهای رسانهٔ تولیدشده بیدار میکند تا بتواند به کاربر اطلاع دهد و، وقتی سیاست تحویل منبع لازم بداند، نتیجه را از طریق ابزار پیام بازپخش کند. برای مسیرهای گروه/کانال فقط-ابزار-پیام، OpenClaw نبود شواهد تحویل ابزار پیام را بهعنوان تلاش تکمیل ناموفق در نظر میگیرد و جایگزین رسانهٔ تولیدشده را مستقیما به کانال اصلی میفرستد.
تبدیل گفتار به متن و تماس صوتی
Deepgram، DeepInfra، ElevenLabs، Mistral، OpenAI، OpenRouter، SenseAudio و xAI همگی میتوانند
صدای ورودی را از طریق مسیر دستهای tools.media.audio، وقتی پیکربندی شده باشند، رونویسی کنند.
Pluginهای کانال که یک یادداشت صوتی را برای گیتینگ اشاره یا تجزیهٔ فرمان
پیشبررسی میکنند، پیوست رونویسیشده را روی زمینهٔ ورودی علامتگذاری میکنند، بنابراین گذر مشترک
فهم رسانه بهجای انجام دومین فراخوانی STT برای همان صدا، از آن رونوشت دوباره استفاده میکند.
Deepgram، ElevenLabs، Mistral، OpenAI و xAI همچنین ارائهدهندگان STT جریانی تماس صوتی را ثبت میکنند، بنابراین صدای تلفن زنده میتواند بدون انتظار برای ضبط کاملشده به فروشندهٔ انتخابشده ارسال شود.
برای گفتگوهای زندهٔ کاربر، حالت Talk را ترجیح دهید. پیوستهای صوتی دستهای روی مسیر رسانه باقی میمانند؛ بلادرنگ مرورگر، push-to-talk بومی، تلفنی و صدای جلسه باید از رویدادهای Talk و کاتالوگهای محدود به نشست که توسط Gateway برگردانده میشوند استفاده کنند.
نگاشتهای ارائهدهنده (فروشندگان چگونه میان سطحها تقسیم میشوند)
سطحهای تصویر، ویدیو، موسیقی، TTS دستهای، صدای بلادرنگ بکاند و فهم رسانه.
OpenAI
سطحهای تصویر، ویدیو، TTS دستهای، STT دستهای، STT جریانی تماس صوتی، صدای بلادرنگ بکاند و جاسازی حافظه.
DeepInfra
مسیریابی چت/مدل، تولید/ویرایش تصویر، متنبهویدیو، TTS دستهای، STT دستهای، فهم رسانهٔ تصویری و سطحهای جاسازی حافظه. مدلهای بازرتبهبندی/طبقهبندی/تشخیص شیء بومی DeepInfra تا زمانی که OpenClaw قراردادهای اختصاصی ارائهدهنده برای آن دستهها داشته باشد ثبت نمیشوند.
xAI
تصویر، ویدیو، جستجو، اجرای کد، TTS دستهای، STT دستهای و STT جریانی تماس صوتی. صدای بلادرنگ xAI یک قابلیت بالادستی است اما تا زمانی که قرارداد مشترک صدای بلادرنگ بتواند آن را نمایش دهد، در OpenClaw ثبت نمیشود.