الانتقال إلى المحتوى الرئيسي

تكافؤ GPT-5.5 / Codex الوكيلي في OpenClaw

كان OpenClaw يعمل بالفعل بشكل جيد مع النماذج الرائدة التي تستخدم الأدوات، لكن نماذج GPT-5.5 والنماذج بأسلوب Codex كانت لا تزال دون المستوى في بعض الجوانب العملية:
  • قد تتوقف بعد التخطيط بدلًا من تنفيذ العمل
  • قد تستخدم مخططات الأدوات الصارمة الخاصة بـ OpenAI/Codex بشكل غير صحيح
  • قد تطلب /elevated full حتى عندما يكون الوصول الكامل مستحيلًا
  • قد تفقد حالة المهام طويلة التشغيل أثناء إعادة التشغيل أو Compaction
  • كانت ادعاءات التكافؤ مقارنةً بـ Claude Opus 4.6 تستند إلى روايات متفرقة بدلًا من سيناريوهات قابلة للتكرار
يعالج برنامج التكافؤ هذا هذه الفجوات عبر أربع شرائح قابلة للمراجعة.

ما الذي تغيّر

PR A: تنفيذ strict-agentic

تضيف هذه الشريحة عقد تنفيذ strict-agentic اختياريًا لتشغيلات Pi المضمنة الخاصة بـ GPT-5. عند تفعيله، يتوقف OpenClaw عن قبول الأدوار التي تقتصر على الخطة باعتبارها إنجازًا “جيدًا بما يكفي”. فإذا كان النموذج يكتفي بذكر ما ينوي فعله ولا يستخدم الأدوات فعليًا أو يحرز تقدمًا، يعيد OpenClaw المحاولة مع توجيه للتنفيذ الفوري، ثم يفشل بطريقة مغلقة مع حالة حظر صريحة بدلًا من إنهاء المهمة بصمت. يحسّن هذا تجربة GPT-5.5 بشكل أكبر خصوصًا في:
  • متابعات قصيرة من نوع “حسنًا، نفّذ ذلك”
  • مهام البرمجة التي تكون فيها الخطوة الأولى واضحة
  • التدفقات التي يجب أن يكون فيها update_plan تتبّعًا للتقدم بدلًا من نص حشو

PR B: الصدق وقت التشغيل

تجعل هذه الشريحة OpenClaw يقول الحقيقة بشأن أمرين:
  • سبب فشل استدعاء الموفّر/وقت التشغيل
  • ما إذا كان /elevated full متاحًا فعلًا
وهذا يعني أن GPT-5.5 يحصل على إشارات أفضل وقت التشغيل عند غياب النطاق المطلوب، أو فشل تحديث المصادقة، أو فشل مصادقة HTML 403، أو مشكلات الوكيل، أو فشل DNS أو المهلة الزمنية، أو أوضاع الوصول الكامل المحظورة. ويصبح احتمال أن يهلوس النموذج إجراءً علاجيًا خاطئًا أو أن يواصل طلب وضع أذونات لا يستطيع وقت التشغيل تقديمه أقل.

PR C: صحة التنفيذ

تحسّن هذه الشريحة نوعين من الصحة:
  • التوافق مع مخططات أدوات OpenAI/Codex المملوكة للموفّر
  • إظهار إعادة التشغيل وحيوية المهام الطويلة
يقلّل عمل توافق الأدوات من الاحتكاك مع تسجيل الأدوات الصارم في OpenAI/Codex، خصوصًا حول الأدوات الخالية من المعلمات وتوقعات الجذر الكائني الصارمة. أما عمل إعادة التشغيل/الحيوية فيجعل المهام طويلة التشغيل أكثر قابلية للملاحظة، بحيث تصبح الحالات المتوقفة مؤقتًا أو المحظورة أو المتروكة مرئية بدلًا من اختفائها داخل نص فشل عام.

PR D: حزمة التكافؤ

تضيف هذه الشريحة أول حزمة تكافؤ في QA-lab بحيث يمكن تشغيل GPT-5.5 وOpus 4.6 عبر السيناريوهات نفسها ومقارنتهما باستخدام أدلة مشتركة. حزمة التكافؤ هي طبقة الإثبات. وهي لا تغيّر سلوك وقت التشغيل بحد ذاته. بعد حصولك على ملفي qa-suite-summary.json، أنشئ مقارنة بوابة الإصدار باستخدام:
pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity
يكتب هذا الأمر:
  • تقرير Markdown قابلًا للقراءة البشرية
  • حكم JSON قابلًا للقراءة الآلية
  • نتيجة بوابة صريحة pass / fail

لماذا يحسّن هذا GPT-5.5 عمليًا

قبل هذا العمل، كان GPT-5.5 على OpenClaw قد يبدو أقل وكيلية من Opus في جلسات البرمجة الفعلية لأن وقت التشغيل كان يتسامح مع سلوكيات ضارة بشكل خاص لنماذج بأسلوب GPT-5:
  • أدوار تعتمد على التعليق فقط
  • احتكاك مخططات الأدوات
  • تغذية راجعة مبهمة بشأن الأذونات
  • أعطال صامتة في إعادة التشغيل أو Compaction
الهدف ليس جعل GPT-5.5 يقلّد Opus. الهدف هو منح GPT-5.5 عقد وقت تشغيل يكافئ التقدم الحقيقي، ويوفر دلالات أوضح للأدوات والأذونات، ويحوّل أوضاع الفشل إلى حالات صريحة قابلة للقراءة من البشر والآلات. وهذا يغيّر تجربة المستخدم من:
  • “كان لدى النموذج خطة جيدة لكنه توقف”
إلى:
  • “إما أن النموذج نفّذ، أو أن OpenClaw أظهر السبب الدقيق لعدم قدرته على ذلك”

قبل البرنامج وبعده لمستخدمي GPT-5.5

قبل هذا البرنامجبعد PR A-D
كان بإمكان GPT-5.5 التوقف بعد خطة معقولة من دون اتخاذ الخطوة التالية عبر الأدواتيحوّل PR A حالة “خطة فقط” إلى “نفّذ الآن أو أظهر حالة حظر”
كان يمكن لمخططات الأدوات الصارمة أن ترفض الأدوات الخالية من المعلمات أو المصاغة بأسلوب OpenAI/Codex بطرق مربكةيجعل PR C تسجيل الأدوات واستدعاءها المملوكين للموفّر أكثر قابلية للتنبؤ
كان يمكن أن تكون إرشادات /elevated full مبهمة أو خاطئة في أزمنة التشغيل المحظورةيمنح PR B كلًا من GPT-5.5 والمستخدم تلميحات صادقة عن وقت التشغيل والأذونات
كان يمكن أن تبدو أعطال إعادة التشغيل أو Compaction وكأن المهمة اختفت بصمتيُظهر PR C نتائج التوقف المؤقت والحظر والتخلي وعدم صلاحية إعادة التشغيل بشكل صريح
كان قول “GPT-5.5 أسوأ من Opus” قائمًا في الغالب على روايات متفرقةيحوّل PR D ذلك إلى حزمة السيناريو نفسها، والمقاييس نفسها، وبوابة نجاح/فشل صارمة

البنية

تدفق الإصدار

حزمة السيناريوهات

تغطي حزمة التكافؤ في الموجة الأولى حاليًا خمسة سيناريوهات:

approval-turn-tool-followthrough

يتحقق من أن النموذج لا يتوقف عند “سأفعل ذلك” بعد موافقة قصيرة. يجب أن يتخذ أول إجراء ملموس في الدور نفسه.

model-switch-tool-continuity

يتحقق من أن العمل الذي يستخدم الأدوات يبقى متماسكًا عبر حدود تبديل النموذج/وقت التشغيل بدلًا من أن يُعاد ضبطه إلى تعليق أو أن يفقد سياق التنفيذ.

source-docs-discovery-report

يتحقق من أن النموذج يستطيع قراءة المصدر والوثائق، وتجميع النتائج، ومتابعة المهمة بشكل وكيلي بدلًا من إنتاج ملخص ضعيف والتوقف مبكرًا.

image-understanding-attachment

يتحقق من أن المهام متعددة الأنماط التي تتضمن مرفقات تبقى قابلة للتنفيذ ولا تنهار إلى سرد مبهم.

compaction-retry-mutating-tool

يتحقق من أن مهمة تحتوي على كتابة حقيقية مغيرة للحالة تُبقي عدم أمان إعادة التشغيل صريحًا بدلًا من أن تبدو آمنة لإعادة التشغيل بهدوء إذا خضعت العملية إلى Compaction أو إعادة محاولة أو فقدان حالة الرد تحت الضغط.

مصفوفة السيناريوهات

السيناريوما الذي يختبرهسلوك GPT-5.5 الجيدإشارة الفشل
approval-turn-tool-followthroughأدوار الموافقة القصيرة بعد خطةيبدأ أول إجراء أداة ملموس فورًا بدلًا من إعادة صياغة النيةمتابعة بخطة فقط، أو غياب نشاط الأدوات، أو دور محظور دون عائق حقيقي
model-switch-tool-continuityتبديل وقت التشغيل/النموذج أثناء استخدام الأدواتيحافظ على سياق المهمة ويواصل التنفيذ بشكل متماسكيعاد ضبطه إلى تعليق، أو يفقد سياق الأدوات، أو يتوقف بعد التبديل
source-docs-discovery-reportقراءة المصدر + التجميع + التنفيذيعثر على المصادر، ويستخدم الأدوات، وينتج تقريرًا مفيدًا دون تعثرملخص ضعيف، أو غياب عمل الأدوات، أو توقف قبل اكتمال الدور
image-understanding-attachmentالعمل الوكيلي المعتمد على المرفقاتيفسر المرفق، ويربطه بالأدوات، ويواصل المهمةسرد مبهم، أو تجاهل المرفق، أو غياب إجراء ملموس تالٍ
compaction-retry-mutating-toolالعمل المغير للحالة تحت ضغط Compactionينفّذ كتابة حقيقية ويُبقي عدم أمان إعادة التشغيل صريحًا بعد التأثير الجانبيتحدث كتابة مغيرة للحالة لكن يُفهم ضمنًا أمان إعادة التشغيل أو يغيب أو يتناقض

بوابة الإصدار

لا يمكن اعتبار GPT-5.5 في حالة تكافؤ أو أفضل إلا عندما يجتاز وقت التشغيل المدمج حزمة التكافؤ وتراجعات الصدق في وقت التشغيل في الوقت نفسه. النتائج المطلوبة:
  • عدم حدوث تعثر عند الخطة فقط عندما يكون إجراء الأداة التالي واضحًا
  • عدم وجود اكتمال زائف من دون تنفيذ حقيقي
  • عدم وجود إرشادات خاطئة لـ /elevated full
  • عدم وجود تخلي صامت أثناء إعادة التشغيل أو Compaction
  • مقاييس حزمة التكافؤ تكون على الأقل بقوة خط الأساس المتفق عليه لـ Opus 4.6
بالنسبة إلى تسخير الموجة الأولى، تقارن البوابة بين:
  • معدل الإكمال
  • معدل التوقف غير المقصود
  • معدل استدعاءات الأدوات الصحيحة
  • عدد النجاحات الزائفة
يُقسَّم دليل التكافؤ عمدًا عبر طبقتين:
  • يثبت PR D سلوك GPT-5.5 مقابل Opus 4.6 في السيناريوهات نفسها باستخدام QA-lab
  • تثبت المجموعات الحتمية في PR B الصدق المتعلق بالمصادقة والوكيل وDNS و/elevated full خارج التسخير

مصفوفة الهدف إلى الدليل

عنصر بوابة الإكمالPR المالكمصدر الدليلإشارة النجاح
لم يعد GPT-5.5 يتعثر بعد التخطيطPR Aapproval-turn-tool-followthrough بالإضافة إلى مجموعات وقت التشغيل في PR Aتؤدي أدوار الموافقة إلى عمل حقيقي أو إلى حالة حظر صريحة
لم يعد GPT-5.5 يزيّف التقدم أو إكمال الأدوات الزائفPR A + PR Dنتائج سيناريوهات تقرير التكافؤ وعدد النجاحات الزائفةلا توجد نتائج نجاح مشبوهة ولا اكتمال قائم على التعليق فقط
لم يعد GPT-5.5 يقدّم إرشادات خاطئة لـ /elevated fullPR Bمجموعات الصدق الحتميةتبقى أسباب الحظر وتلميحات الوصول الكامل دقيقة وفق وقت التشغيل
تبقى أعطال إعادة التشغيل/الحيوية صريحةPR C + PR Dمجموعات دورة الحياة/إعادة التشغيل في PR C بالإضافة إلى compaction-retry-mutating-toolيبقي العمل المغير للحالة عدم أمان إعادة التشغيل صريحًا بدلًا من أن يختفي بصمت
يطابق GPT-5.5 أو يتفوق على Opus 4.6 في المقاييس المتفق عليهاPR Dqa-agentic-parity-report.md وqa-agentic-parity-summary.jsonالتغطية نفسها للسيناريوهات وعدم وجود تراجع في الإكمال أو سلوك التوقف أو استخدام الأدوات الصحيح

كيفية قراءة حكم التكافؤ

استخدم الحكم الموجود في qa-agentic-parity-summary.json باعتباره القرار النهائي القابل للقراءة آليًا لحزمة التكافؤ في الموجة الأولى.
  • تعني pass أن GPT-5.5 غطّى السيناريوهات نفسها التي غطاها Opus 4.6 ولم يتراجع في المقاييس التجميعية المتفق عليها.
  • تعني fail أن بوابة صارمة واحدة على الأقل قد تعثرت: إكمال أضعف، أو توقفات غير مقصودة أسوأ، أو استخدام صحيح للأدوات أضعف، أو أي حالة نجاح زائف، أو عدم تطابق في تغطية السيناريوهات.
  • لا تُعد “مشكلة CI مشتركة/أساسية” بحد ذاتها نتيجة تكافؤ. فإذا منعت ضوضاء CI خارج PR D تشغيلًا ما، فيجب أن ينتظر الحكم تنفيذًا نظيفًا لوقت تشغيل مدمج بدلًا من استنتاجه من سجلات قديمة خاصة بالفرع.
  • ما تزال صحة المصادقة والوكيل وDNS و/elevated full تأتي من المجموعات الحتمية في PR B، لذا يحتاج ادعاء الإصدار النهائي إلى الأمرين معًا: حكم تكافؤ ناجح في PR D وتغطية صحة خضراء في PR B.

من الذي ينبغي له تفعيل strict-agentic

استخدم strict-agentic عندما:
  • يُتوقع من الوكيل أن ينفّذ فورًا عندما تكون الخطوة التالية واضحة
  • تكون نماذج GPT-5.5 أو عائلة Codex هي وقت التشغيل الأساسي
  • تفضّل حالات الحظر الصريحة على الردود التي تقتصر على التلخيص “المفيد”
أبقِ العقد الافتراضي عندما:
  • تريد السلوك الحالي الأكثر تساهلًا
  • لا تستخدم نماذج من عائلة GPT-5
  • تختبر المطالبات بدلًا من فرض وقت التشغيل

ذي صلة