توليد الوسائط وفهمها
يقوم OpenClaw بتوليد الصور ومقاطع الفيديو والموسيقى، ويفهم الوسائط الواردة (الصور والصوت والفيديو)، وينطق الردود بصوت عالٍ باستخدام تحويل النص إلى كلام. جميع قدرات الوسائط مدفوعة بالأدوات: يقرر العامل متى يستخدمها بناءً على المحادثة، ولا تظهر كل أداة إلا عند إعداد موفّر داعم واحد على الأقل.
نظرة سريعة على القدرات
| القدرة | الأداة | الموفّرون | ما الذي تفعله |
|---|
| توليد الصور | image_generate | ComfyUI, fal, Google, MiniMax, OpenAI, Vydra | ينشئ الصور أو يحررها من المطالبات النصية أو المراجع |
| توليد الفيديو | video_generate | Alibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAI | ينشئ مقاطع فيديو من النص أو الصور أو مقاطع الفيديو الموجودة |
| توليد الموسيقى | music_generate | ComfyUI, Google, MiniMax | ينشئ موسيقى أو مسارات صوتية من المطالبات النصية |
| تحويل النص إلى كلام (TTS) | tts | ElevenLabs, Microsoft, MiniMax, OpenAI | يحول الردود الصادرة إلى صوت منطوق |
| فهم الوسائط | (تلقائي) | أي موفّر نماذج قادر على الرؤية/الصوت، بالإضافة إلى بدائل CLI | يلخص الصور والصوت والفيديو الواردة |
مصفوفة قدرات الموفّرين
يوضح هذا الجدول الموفّرين الذين يدعمون كل قدرات الوسائط على مستوى المنصة.
| الموفّر | الصور | الفيديو | الموسيقى | TTS | STT / النسخ | فهم الوسائط |
|---|
| Alibaba | | نعم | | | | |
| BytePlus | | نعم | | | | |
| ComfyUI | نعم | نعم | نعم | | | |
| Deepgram | | | | | نعم | |
| ElevenLabs | | | | نعم | | |
| fal | نعم | نعم | | | | |
| Google | نعم | نعم | نعم | | | نعم |
| Microsoft | | | | نعم | | |
| MiniMax | نعم | نعم | نعم | نعم | | |
| OpenAI | نعم | نعم | | نعم | نعم | نعم |
| Qwen | | نعم | | | | |
| Runway | | نعم | | | | |
| Together | | نعم | | | | |
| Vydra | نعم | نعم | | | | |
| xAI | | نعم | | | | |
يستخدم فهم الوسائط أي نموذج قادر على الرؤية أو الصوت ومسجل في إعدادات الموفّر لديك. يبرز الجدول أعلاه الموفّرين الذين لديهم دعم مخصص لفهم الوسائط؛ كما يمكن لمعظم موفّري LLM الذين لديهم نماذج متعددة الوسائط (Anthropic وGoogle وOpenAI وغيرها) فهم الوسائط الواردة أيضًا عند إعدادهم كنموذج الرد النشط.
كيف يعمل التوليد غير المتزامن
يعمل توليد الفيديو والموسيقى كمهام خلفية لأن معالجة الموفّر تستغرق عادةً من 30 ثانية إلى عدة دقائق. عندما يستدعي العامل video_generate أو music_generate، يرسل OpenClaw الطلب إلى الموفّر، ويعيد معرّف مهمة فورًا، ويتتبع المهمة في سجل المهام. يواصل العامل الرد على الرسائل الأخرى أثناء تشغيل المهمة. وعندما ينتهي الموفّر، يوقظ OpenClaw العامل حتى يتمكن من نشر الوسائط المكتملة مرة أخرى في القناة الأصلية. أما توليد الصور وTTS فهما متزامنان ويكتملان ضمن الرد نفسه.
روابط سريعة