ينشئ OpenClaw الصور ومقاطع الفيديو والموسيقى، ويفهم الوسائط الواردة (الصور والصوت والفيديو)، وينطق الردود صوتيًا باستخدام تحويل النص إلى كلام. جميع إمكانات الوسائط مدفوعة بالأدوات: يقرر الوكيل متى يستخدمها بناءً على المحادثة، ولا تظهر كل أداة إلا عند تكوين مزود داعم واحد على الأقل. يستخدم الكلام المباشر عقد جلسة Talk بدلاً من مسار أداة الوسائط ذات التنفيذ لمرة واحدة. يحتوي Talk على ثلاثة أوضاع:Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
realtime أصلي لدى المزود، وstt-tts محلي أو تدفقي،
وtranscription لالتقاط الكلام بغرض المراقبة فقط. تشترك هذه الأوضاع
في فهارس المزودين ومغلفات الأحداث ودلالات الإلغاء مع
الاتصالات الهاتفية والاجتماعات والوقت الفعلي في المتصفح وعملاء اضغط للتحدث الأصليين.
الإمكانات
إنشاء الصور
أنشئ الصور وحررها من المطالبات النصية أو الصور المرجعية عبر
image_generate. متزامن — يكتمل ضمن الرد.إنشاء الفيديو
تحويل النص إلى فيديو، والصورة إلى فيديو، والفيديو إلى فيديو عبر
video_generate.
غير متزامن — يعمل في الخلفية وينشر النتيجة عندما تكون جاهزة.إنشاء الموسيقى
أنشئ موسيقى أو مسارات صوتية عبر
music_generate. غير متزامن على
المزودين المشتركين؛ أما مسار سير عمل ComfyUI فيعمل بشكل متزامن.تحويل النص إلى كلام
حوّل الردود الصادرة إلى صوت منطوق عبر أداة
tts إضافة إلى
إعداد messages.tts. متزامن.فهم الوسائط
لخّص الصور والصوت والفيديو الوارد باستخدام مزودي نماذج قادرين على الرؤية
وPlugins مخصصة لفهم الوسائط.
تحويل الكلام إلى نص
فرّغ الرسائل الصوتية الواردة عبر مزودي STT الدفعي أو STT التدفقي
الخاصين بالمكالمات الصوتية.
مصفوفة إمكانات المزودين
| المزود | الصور | الفيديو | الموسيقى | TTS | STT | الصوت في الوقت الفعلي | فهم الوسائط |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
يستخدم فهم الوسائط أي نموذج قادر على الرؤية أو قادر على الصوت ومسجل
في تكوين المزود لديك. تسرد المصفوفة أعلاه المزودين الذين لديهم دعم
مخصص لفهم الوسائط؛ يستطيع معظم مزودي LLM متعددة الوسائط (Anthropic وGoogle
وOpenAI وغيرها) فهم الوسائط الواردة أيضًا عند تكوينها كنموذج
الرد النشط.
غير متزامن مقابل متزامن
| الإمكانية | الوضع | السبب |
|---|---|---|
| الصور | متزامن | تعود استجابات المزود خلال ثوان؛ ويكتمل ضمن الرد. |
| تحويل النص إلى كلام | متزامن | تعود استجابات المزود خلال ثوان؛ وتُرفق بصوت الرد. |
| الفيديو | غير متزامن | تستغرق معالجة المزود من 30 ثانية إلى عدة دقائق؛ وقد تعمل الطوابير البطيئة حتى انتهاء المهلة المكوّنة. |
| الموسيقى (مشتركة) | غير متزامن | لها خاصية معالجة المزود نفسها مثل الفيديو. |
| الموسيقى (ComfyUI) | متزامن | يعمل سير العمل المحلي ضمن المسار نفسه على خادم ComfyUI المكوّن. |
تحويل الكلام إلى نص والمكالمة الصوتية
يمكن لكل من Deepgram وDeepInfra وElevenLabs وMistral وOpenAI وOpenRouter وSenseAudio وxAI تفريغ الصوت الوارد عبر مسارtools.media.audio الدفعي عند تكوينها.
تضع Plugins القنوات التي تفحص رسالة صوتية مسبقًا لغرض بوابة الإشارة أو
تحليل الأوامر علامة على المرفق المفرغ في السياق الوارد، لذلك تعيد
مرحلة فهم الوسائط المشتركة استخدام ذلك النص بدلاً من إجراء استدعاء
STT ثانٍ للصوت نفسه.
تسجل Deepgram وElevenLabs وMistral وOpenAI وxAI أيضًا مزودي STT تدفقيين
للمكالمات الصوتية، بحيث يمكن تمرير صوت الهاتف المباشر إلى المورّد المحدد
دون انتظار اكتمال التسجيل.
لمحادثات المستخدم المباشرة، فضّل وضع Talk. تبقى
مرفقات الصوت الدفعي على مسار الوسائط؛ أما الوقت الفعلي في المتصفح، واضغط للتحدث الأصلي،
والاتصالات الهاتفية، وصوت الاجتماعات فيجب أن تستخدم أحداث Talk والفهارس محددة الجلسة
التي يعيدها Gateway.
خرائط المزودين (كيف يقسّم المورّدون الأسطح)
Google
أسطح الصور والفيديو والموسيقى وTTS الدفعي والصوت في الوقت الفعلي على الخلفية
وفهم الوسائط.
OpenAI
OpenAI
أسطح الصور والفيديو وTTS الدفعي وSTT الدفعي وSTT التدفقي للمكالمات الصوتية والصوت
في الوقت الفعلي على الخلفية وتضمينات الذاكرة.
DeepInfra
DeepInfra
أسطح توجيه الدردشة/النماذج، وإنشاء/تحرير الصور، وتحويل النص إلى فيديو، وTTS الدفعي،
وSTT الدفعي، وفهم وسائط الصور، وتضمينات الذاكرة.
لا تُسجل نماذج DeepInfra الأصلية لإعادة الترتيب/التصنيف/اكتشاف الكائنات
إلى أن يمتلك OpenClaw عقود مزودين مخصصة لتلك
الفئات.
xAI
xAI
الصور والفيديو والبحث وتنفيذ التعليمات البرمجية وTTS الدفعي وSTT الدفعي وSTT التدفقي
للمكالمات الصوتية. صوت xAI Realtime قدرة من upstream لكنها
غير مسجلة في OpenClaw إلى أن يتمكن عقد الصوت في الوقت الفعلي المشترك من
تمثيلها.