Tools

نظرة عامة على الوسائط

يفهم OpenClaw الصور والفيديوهات والموسيقى، ويفهم الوسائط الواردة (الصور، الصوت، الفيديو)، وينطق الردود بصوت عال باستخدام تحويل النص إلى كلام. كل قدرات الوسائط مدفوعة بالأدوات: يقرر الوكيل متى يستخدمها بناء على المحادثة، ولا تظهر كل أداة إلا عند تكوين مزوّد داعم واحد على الأقل.

يستخدم الكلام المباشر عقد جلسة Talk بدلا من مسار أداة الوسائط ذات التنفيذ الواحد. لدى Talk ثلاثة أوضاع: realtime الأصلي للمزوّد، وstt-tts المحلي أو المتدفق، وtranscription لالتقاط الكلام بغرض المراقبة فقط. تشترك هذه الأوضاع في كتالوجات المزوّدين، ومغلفات الأحداث، ودلالات الإلغاء مع الاتصالات الهاتفية، والاجتماعات، والوقت الفعلي في المتصفح، وعملاء الضغط للتحدث الأصليين.

القدرات

توليد الصور

أنشئ الصور وحررها من مطالبات نصية أو صور مرجعية عبر image_generate. غير متزامن في جلسات الدردشة — يعمل في الخلفية وينشر النتيجة عندما تصبح جاهزة.

توليد الفيديو

تحويل النص إلى فيديو، والصورة إلى فيديو، والفيديو إلى فيديو عبر video_generate. غير متزامن — يعمل في الخلفية وينشر النتيجة عندما تصبح جاهزة.

توليد الموسيقى

ولّد الموسيقى أو المسارات الصوتية عبر music_generate. غير متزامن في جلسات الدردشة ضمن دورة حياة مهمة توليد الوسائط المشتركة.

تحويل النص إلى كلام

حوّل الردود الصادرة إلى صوت منطوق عبر أداة tts إضافة إلى إعداد messages.tts. متزامن.

فهم الوسائط

لخّص الصور والصوت والفيديو الوارد باستخدام مزوّدي نماذج قادرين على الرؤية وPlugins مخصصة لفهم الوسائط.

تحويل الكلام إلى نص

انسخ الرسائل الصوتية الواردة عبر مزوّدي STT الدفعي أو STT المتدفق للمكالمة الصوتية.

مصفوفة قدرات المزوّدين

المزوّد	الصورة	الفيديو	الموسيقى	TTS	STT	الصوت في الوقت الفعلي	فهم الوسائط
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
Microsoft Foundry	✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

غير متزامن مقابل متزامن

القدرة	الوضع	السبب
الصورة	غير متزامن	قد تستمر معالجة المزوّد بعد دور الدردشة؛ تستخدم المرفقات المولدة مسار الإكمال المشترك.
تحويل النص إلى كلام	متزامن	تعود استجابات المزوّد خلال ثوان؛ وتُرفق بصوت الرد.
الفيديو	غير متزامن	تستغرق معالجة المزوّد من 30 ثانية إلى عدة دقائق؛ يمكن للطوابير البطيئة أن تعمل حتى انتهاء المهلة المكوّنة.
الموسيقى	غير متزامن	لها خاصية معالجة المزوّد نفسها مثل الفيديو.

بالنسبة إلى الأدوات غير المتزامنة، يرسل OpenClaw الطلب إلى المزوّد، ويعيد معرف مهمة فورا، ويتتبع المهمة في سجل المهام. يواصل الوكيل الرد على الرسائل الأخرى أثناء تشغيل المهمة. عند انتهاء المزوّد، يوقظ OpenClaw الوكيل مع مسارات الوسائط المولدة حتى يتمكن من إخبار المستخدم عبر وضع الرد المرئي العادي للجلسة: تسليم الرد النهائي التلقائي عند تكوينه، أو message(action="send") عندما تتطلب الجلسة أداة الرسائل. إذا كانت جلسة الطالب غير نشطة أو فشل إيقاظها النشط، وكانت بعض الوسائط المولدة ما زالت مفقودة من رد الإكمال، يرسل OpenClaw بديلا مباشرا غير مكرر يحتوي فقط على الوسائط المفقودة. لا تُنشر الوسائط التي سلّمها رد الإكمال مسبقا مرة أخرى.

تحويل الكلام إلى نص والمكالمة الصوتية

يمكن لكل من Deepgram وDeepInfra وElevenLabs وMistral وOpenAI وOpenRouter وSenseAudio وxAI نسخ الصوت الوارد عبر مسار tools.media.audio الدفعي عند تكوينها. Plugins القنوات التي تجري فحصا مسبقا لملاحظة صوتية لغرض بوابة الإشارة أو تحليل الأوامر تضع علامة على المرفق المنسوخ في السياق الوارد، بحيث يعيد مسار فهم الوسائط المشترك استخدام ذلك النص بدلا من إجراء استدعاء STT ثان للصوت نفسه.

تسجل Deepgram وElevenLabs وMistral وOpenAI وxAI أيضا مزوّدي STT متدفقين للمكالمة الصوتية، بحيث يمكن تمرير صوت الهاتف المباشر إلى المورّد المحدد دون انتظار تسجيل مكتمل.

لمحادثات المستخدم المباشرة، فضّل وضع Talk. تبقى مرفقات الصوت الدفعي على مسار الوسائط؛ وينبغي أن يستخدم الوقت الفعلي في المتصفح، والضغط للتحدث الأصلي، والاتصالات الهاتفية، وصوت الاجتماعات أحداث Talk والكتالوجات ذات نطاق الجلسة التي يعيدها Gateway.

تعيينات المزوّدين (كيف يقسم المورّدون عبر الأسطح)

Google

أسطح الصور والفيديو والموسيقى وTTS الدفعي والصوت في الوقت الفعلي الخلفي وفهم الوسائط.

OpenAI

أسطح الصور والفيديو وTTS الدفعي وSTT الدفعي وSTT المتدفق للمكالمة الصوتية والصوت في الوقت الفعلي الخلفي وتضمين الذاكرة.

DeepInfra

أسطح توجيه الدردشة/النماذج، وتوليد/تحرير الصور، وتحويل النص إلى فيديو، وTTS الدفعي، وSTT الدفعي، وفهم وسائط الصور، وتضمين الذاكرة. لا تُسجل نماذج إعادة الترتيب/التصنيف/اكتشاف الكائنات الأصلية في DeepInfra حتى يمتلك OpenClaw عقود مزوّد مخصصة لتلك الفئات.

xAI

الصور، والفيديو، والبحث، وتنفيذ التعليمات البرمجية، وTTS الدفعي، وSTT الدفعي، وSTT المتدفق للمكالمة الصوتية. صوت xAI Realtime قدرة من المصدر الأعلى لكنها غير مسجلة في OpenClaw حتى يتمكن عقد الصوت في الوقت الفعلي المشترك من تمثيلها.

ذو صلة

Was this useful?