الانتقال إلى المحتوى الرئيسي

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

ينشئ OpenClaw الصور ومقاطع الفيديو والموسيقى، ويفهم الوسائط الواردة (الصور والصوت والفيديو)، وينطق الردود صوتيًا باستخدام تحويل النص إلى كلام. جميع إمكانات الوسائط مدفوعة بالأدوات: يقرر الوكيل متى يستخدمها بناءً على المحادثة، ولا تظهر كل أداة إلا عند تكوين مزود داعم واحد على الأقل. يستخدم الكلام المباشر عقد جلسة Talk بدلاً من مسار أداة الوسائط ذات التنفيذ لمرة واحدة. يحتوي Talk على ثلاثة أوضاع: realtime أصلي لدى المزود، وstt-tts محلي أو تدفقي، وtranscription لالتقاط الكلام بغرض المراقبة فقط. تشترك هذه الأوضاع في فهارس المزودين ومغلفات الأحداث ودلالات الإلغاء مع الاتصالات الهاتفية والاجتماعات والوقت الفعلي في المتصفح وعملاء اضغط للتحدث الأصليين.

الإمكانات

إنشاء الصور

أنشئ الصور وحررها من المطالبات النصية أو الصور المرجعية عبر image_generate. متزامن — يكتمل ضمن الرد.

إنشاء الفيديو

تحويل النص إلى فيديو، والصورة إلى فيديو، والفيديو إلى فيديو عبر video_generate. غير متزامن — يعمل في الخلفية وينشر النتيجة عندما تكون جاهزة.

إنشاء الموسيقى

أنشئ موسيقى أو مسارات صوتية عبر music_generate. غير متزامن على المزودين المشتركين؛ أما مسار سير عمل ComfyUI فيعمل بشكل متزامن.

تحويل النص إلى كلام

حوّل الردود الصادرة إلى صوت منطوق عبر أداة tts إضافة إلى إعداد messages.tts. متزامن.

فهم الوسائط

لخّص الصور والصوت والفيديو الوارد باستخدام مزودي نماذج قادرين على الرؤية وPlugins مخصصة لفهم الوسائط.

تحويل الكلام إلى نص

فرّغ الرسائل الصوتية الواردة عبر مزودي STT الدفعي أو STT التدفقي الخاصين بالمكالمات الصوتية.

مصفوفة إمكانات المزودين

المزودالصورالفيديوالموسيقىTTSSTTالصوت في الوقت الفعليفهم الوسائط
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo
يستخدم فهم الوسائط أي نموذج قادر على الرؤية أو قادر على الصوت ومسجل في تكوين المزود لديك. تسرد المصفوفة أعلاه المزودين الذين لديهم دعم مخصص لفهم الوسائط؛ يستطيع معظم مزودي LLM متعددة الوسائط (Anthropic وGoogle وOpenAI وغيرها) فهم الوسائط الواردة أيضًا عند تكوينها كنموذج الرد النشط.

غير متزامن مقابل متزامن

الإمكانيةالوضعالسبب
الصورمتزامنتعود استجابات المزود خلال ثوان؛ ويكتمل ضمن الرد.
تحويل النص إلى كلاممتزامنتعود استجابات المزود خلال ثوان؛ وتُرفق بصوت الرد.
الفيديوغير متزامنتستغرق معالجة المزود من 30 ثانية إلى عدة دقائق؛ وقد تعمل الطوابير البطيئة حتى انتهاء المهلة المكوّنة.
الموسيقى (مشتركة)غير متزامنلها خاصية معالجة المزود نفسها مثل الفيديو.
الموسيقى (ComfyUI)متزامنيعمل سير العمل المحلي ضمن المسار نفسه على خادم ComfyUI المكوّن.
بالنسبة إلى الأدوات غير المتزامنة، يرسل OpenClaw الطلب إلى المزود، ويعيد معرّف مهمة فورًا، ويتتبع المهمة في سجل المهام. يستمر الوكيل في الرد على الرسائل الأخرى أثناء تشغيل المهمة. عندما ينتهي المزود، ينبّه OpenClaw الوكيل بمسارات الوسائط المولدة كي يتمكن من إخبار المستخدم، وعند إلزام سياسة التسليم من المصدر بذلك، يمرر النتيجة عبر أداة الرسائل. بالنسبة إلى مسارات المجموعات/القنوات المعتمدة على أداة الرسائل فقط، يتعامل OpenClaw مع غياب دليل التسليم عبر أداة الرسائل كمحاولة إكمال فاشلة، ويرسل الوسائط المولدة الاحتياطية مباشرةً إلى القناة الأصلية.

تحويل الكلام إلى نص والمكالمة الصوتية

يمكن لكل من Deepgram وDeepInfra وElevenLabs وMistral وOpenAI وOpenRouter وSenseAudio وxAI تفريغ الصوت الوارد عبر مسار tools.media.audio الدفعي عند تكوينها. تضع Plugins القنوات التي تفحص رسالة صوتية مسبقًا لغرض بوابة الإشارة أو تحليل الأوامر علامة على المرفق المفرغ في السياق الوارد، لذلك تعيد مرحلة فهم الوسائط المشتركة استخدام ذلك النص بدلاً من إجراء استدعاء STT ثانٍ للصوت نفسه. تسجل Deepgram وElevenLabs وMistral وOpenAI وxAI أيضًا مزودي STT تدفقيين للمكالمات الصوتية، بحيث يمكن تمرير صوت الهاتف المباشر إلى المورّد المحدد دون انتظار اكتمال التسجيل. لمحادثات المستخدم المباشرة، فضّل وضع Talk. تبقى مرفقات الصوت الدفعي على مسار الوسائط؛ أما الوقت الفعلي في المتصفح، واضغط للتحدث الأصلي، والاتصالات الهاتفية، وصوت الاجتماعات فيجب أن تستخدم أحداث Talk والفهارس محددة الجلسة التي يعيدها Gateway.

خرائط المزودين (كيف يقسّم المورّدون الأسطح)

أسطح الصور والفيديو والموسيقى وTTS الدفعي والصوت في الوقت الفعلي على الخلفية وفهم الوسائط.
أسطح الصور والفيديو وTTS الدفعي وSTT الدفعي وSTT التدفقي للمكالمات الصوتية والصوت في الوقت الفعلي على الخلفية وتضمينات الذاكرة.
أسطح توجيه الدردشة/النماذج، وإنشاء/تحرير الصور، وتحويل النص إلى فيديو، وTTS الدفعي، وSTT الدفعي، وفهم وسائط الصور، وتضمينات الذاكرة. لا تُسجل نماذج DeepInfra الأصلية لإعادة الترتيب/التصنيف/اكتشاف الكائنات إلى أن يمتلك OpenClaw عقود مزودين مخصصة لتلك الفئات.
الصور والفيديو والبحث وتنفيذ التعليمات البرمجية وTTS الدفعي وSTT الدفعي وSTT التدفقي للمكالمات الصوتية. صوت xAI Realtime قدرة من upstream لكنها غير مسجلة في OpenClaw إلى أن يتمكن عقد الصوت في الوقت الفعلي المشترك من تمثيلها.

ذو صلة