الانتقال إلى المحتوى الرئيسي

توليد الوسائط وفهمها

يقوم OpenClaw بتوليد الصور ومقاطع الفيديو والموسيقى، ويفهم الوسائط الواردة (الصور والصوت والفيديو)، وينطق الردود بصوت عالٍ باستخدام تحويل النص إلى كلام. جميع قدرات الوسائط مدفوعة بالأدوات: يقرر العامل متى يستخدمها بناءً على المحادثة، ولا تظهر كل أداة إلا عند إعداد موفّر داعم واحد على الأقل.

نظرة سريعة على القدرات

القدرةالأداةالموفّرونما الذي تفعله
توليد الصورimage_generateComfyUI, fal, Google, MiniMax, OpenAI, Vydraينشئ الصور أو يحررها من المطالبات النصية أو المراجع
توليد الفيديوvideo_generateAlibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAIينشئ مقاطع فيديو من النص أو الصور أو مقاطع الفيديو الموجودة
توليد الموسيقىmusic_generateComfyUI, Google, MiniMaxينشئ موسيقى أو مسارات صوتية من المطالبات النصية
تحويل النص إلى كلام (TTS)ttsElevenLabs, Microsoft, MiniMax, OpenAIيحول الردود الصادرة إلى صوت منطوق
فهم الوسائط(تلقائي)أي موفّر نماذج قادر على الرؤية/الصوت، بالإضافة إلى بدائل CLIيلخص الصور والصوت والفيديو الواردة

مصفوفة قدرات الموفّرين

يوضح هذا الجدول الموفّرين الذين يدعمون كل قدرات الوسائط على مستوى المنصة.
الموفّرالصورالفيديوالموسيقىTTSSTT / النسخفهم الوسائط
Alibabaنعم
BytePlusنعم
ComfyUIنعمنعمنعم
Deepgramنعم
ElevenLabsنعم
falنعمنعم
Googleنعمنعمنعمنعم
Microsoftنعم
MiniMaxنعمنعمنعمنعم
OpenAIنعمنعمنعمنعمنعم
Qwenنعم
Runwayنعم
Togetherنعم
Vydraنعمنعم
xAIنعم
يستخدم فهم الوسائط أي نموذج قادر على الرؤية أو الصوت ومسجل في إعدادات الموفّر لديك. يبرز الجدول أعلاه الموفّرين الذين لديهم دعم مخصص لفهم الوسائط؛ كما يمكن لمعظم موفّري LLM الذين لديهم نماذج متعددة الوسائط (Anthropic وGoogle وOpenAI وغيرها) فهم الوسائط الواردة أيضًا عند إعدادهم كنموذج الرد النشط.

كيف يعمل التوليد غير المتزامن

يعمل توليد الفيديو والموسيقى كمهام خلفية لأن معالجة الموفّر تستغرق عادةً من 30 ثانية إلى عدة دقائق. عندما يستدعي العامل video_generate أو music_generate، يرسل OpenClaw الطلب إلى الموفّر، ويعيد معرّف مهمة فورًا، ويتتبع المهمة في سجل المهام. يواصل العامل الرد على الرسائل الأخرى أثناء تشغيل المهمة. وعندما ينتهي الموفّر، يوقظ OpenClaw العامل حتى يتمكن من نشر الوسائط المكتملة مرة أخرى في القناة الأصلية. أما توليد الصور وTTS فهما متزامنان ويكتملان ضمن الرد نفسه.

روابط سريعة