Tools

نمای کلی رسانه

Edit source

OpenClaw تصویر، ویدیو و موسیقی تولید می‌کند، رسانه‌های ورودی (تصویر، صدا، ویدیو) را می‌فهمد و پاسخ‌ها را با تبدیل متن به گفتار بلند می‌خواند. همهٔ قابلیت‌های رسانه‌ای ابزارمحور هستند: عامل بر اساس گفتگو تصمیم می‌گیرد چه زمانی از آن‌ها استفاده کند و هر ابزار فقط زمانی ظاهر می‌شود که دست‌کم یک ارائه‌دهندهٔ پشتیبان پیکربندی شده باشد.

گفتار زنده به‌جای مسیر ابزار رسانهٔ یک‌باره، از قرارداد نشست Talk استفاده می‌کند. Talk سه حالت دارد: realtime بومیِ ارائه‌دهنده، stt-tts محلی یا جریانی و transcription برای ضبط گفتار فقط‌برای‌مشاهده. این حالت‌ها کاتالوگ‌های ارائه‌دهنده، پوشش‌های رویداد و معناشناسی لغو را با تلفنی، جلسه‌ها، بلادرنگ مرورگر و کلاینت‌های بومی push-to-talk مشترک دارند.

قابلیت‌ها

ماتریس قابلیت ارائه‌دهنده

ارائه‌دهنده تصویر ویدیو موسیقی TTS STT صدای بلادرنگ فهم رسانه
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

ناهمگام در برابر همگام

قابلیت حالت دلیل
تصویر همگام پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ درون‌خطی همراه پاسخ کامل می‌شود.
تبدیل متن به گفتار همگام پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ به صدای پاسخ پیوست می‌شود.
ویدیو ناهمگام پردازش ارائه‌دهنده از ۳۰ ثانیه تا چند دقیقه طول می‌کشد؛ صف‌های کند می‌توانند تا پایان مهلت پیکربندی‌شده اجرا شوند.
موسیقی (مشترک) ناهمگام همان ویژگی پردازش ارائه‌دهنده مانند ویدیو را دارد.
موسیقی (ComfyUI) همگام گردش‌کار محلی به‌صورت درون‌خطی روی سرور ComfyUI پیکربندی‌شده اجرا می‌شود.

برای ابزارهای ناهمگام، OpenClaw درخواست را به ارائه‌دهنده ارسال می‌کند، بلافاصله یک شناسهٔ وظیفه برمی‌گرداند و کار را در دفترکل وظیفه پیگیری می‌کند. عامل در حالی که کار اجرا می‌شود به پاسخ‌دادن به پیام‌های دیگر ادامه می‌دهد. وقتی ارائه‌دهنده کار را تمام کرد، OpenClaw عامل را با مسیرهای رسانهٔ تولیدشده بیدار می‌کند تا بتواند به کاربر اطلاع دهد و، وقتی سیاست تحویل منبع لازم بداند، نتیجه را از طریق ابزار پیام بازپخش کند. برای مسیرهای گروه/کانال فقط-ابزار-پیام، OpenClaw نبود شواهد تحویل ابزار پیام را به‌عنوان تلاش تکمیل ناموفق در نظر می‌گیرد و جایگزین رسانهٔ تولیدشده را مستقیما به کانال اصلی می‌فرستد.

تبدیل گفتار به متن و تماس صوتی

Deepgram، DeepInfra، ElevenLabs، Mistral، OpenAI، OpenRouter، SenseAudio و xAI همگی می‌توانند صدای ورودی را از طریق مسیر دسته‌ای tools.media.audio، وقتی پیکربندی شده باشند، رونویسی کنند. Pluginهای کانال که یک یادداشت صوتی را برای گیتینگ اشاره یا تجزیهٔ فرمان پیش‌بررسی می‌کنند، پیوست رونویسی‌شده را روی زمینهٔ ورودی علامت‌گذاری می‌کنند، بنابراین گذر مشترک فهم رسانه به‌جای انجام دومین فراخوانی STT برای همان صدا، از آن رونوشت دوباره استفاده می‌کند.

Deepgram، ElevenLabs، Mistral، OpenAI و xAI همچنین ارائه‌دهندگان STT جریانی تماس صوتی را ثبت می‌کنند، بنابراین صدای تلفن زنده می‌تواند بدون انتظار برای ضبط کامل‌شده به فروشندهٔ انتخاب‌شده ارسال شود.

برای گفتگوهای زندهٔ کاربر، حالت Talk را ترجیح دهید. پیوست‌های صوتی دسته‌ای روی مسیر رسانه باقی می‌مانند؛ بلادرنگ مرورگر، push-to-talk بومی، تلفنی و صدای جلسه باید از رویدادهای Talk و کاتالوگ‌های محدود به نشست که توسط Gateway برگردانده می‌شوند استفاده کنند.

نگاشت‌های ارائه‌دهنده (فروشندگان چگونه میان سطح‌ها تقسیم می‌شوند)

Google

سطح‌های تصویر، ویدیو، موسیقی، TTS دسته‌ای، صدای بلادرنگ بک‌اند و فهم رسانه.

OpenAI

سطح‌های تصویر، ویدیو، TTS دسته‌ای، STT دسته‌ای، STT جریانی تماس صوتی، صدای بلادرنگ بک‌اند و جاسازی حافظه.

DeepInfra

مسیریابی چت/مدل، تولید/ویرایش تصویر، متن‌به‌ویدیو، TTS دسته‌ای، STT دسته‌ای، فهم رسانهٔ تصویری و سطح‌های جاسازی حافظه. مدل‌های بازرتبه‌بندی/طبقه‌بندی/تشخیص شیء بومی DeepInfra تا زمانی که OpenClaw قراردادهای اختصاصی ارائه‌دهنده برای آن دسته‌ها داشته باشد ثبت نمی‌شوند.

xAI

تصویر، ویدیو، جستجو، اجرای کد، TTS دسته‌ای، STT دسته‌ای و STT جریانی تماس صوتی. صدای بلادرنگ xAI یک قابلیت بالادستی است اما تا زمانی که قرارداد مشترک صدای بلادرنگ بتواند آن را نمایش دهد، در OpenClaw ثبت نمی‌شود.

مرتبط

Was this useful?