تكافؤ GPT-5.5 / Codex الوكيلي في OpenClaw
كان OpenClaw يعمل بالفعل بشكل جيد مع النماذج الرائدة التي تستخدم الأدوات، لكن نماذج GPT-5.5 والنماذج بأسلوب Codex كانت لا تزال دون المستوى في بعض الجوانب العملية:- قد تتوقف بعد التخطيط بدلًا من تنفيذ العمل
- قد تستخدم مخططات الأدوات الصارمة الخاصة بـ OpenAI/Codex بشكل غير صحيح
- قد تطلب
/elevated fullحتى عندما يكون الوصول الكامل مستحيلًا - قد تفقد حالة المهام طويلة التشغيل أثناء إعادة التشغيل أو Compaction
- كانت ادعاءات التكافؤ مقارنةً بـ Claude Opus 4.6 تستند إلى روايات متفرقة بدلًا من سيناريوهات قابلة للتكرار
ما الذي تغيّر
PR A: تنفيذ strict-agentic
تضيف هذه الشريحة عقد تنفيذstrict-agentic اختياريًا لتشغيلات Pi المضمنة الخاصة بـ GPT-5.
عند تفعيله، يتوقف OpenClaw عن قبول الأدوار التي تقتصر على الخطة باعتبارها إنجازًا “جيدًا بما يكفي”. فإذا كان النموذج يكتفي بذكر ما ينوي فعله ولا يستخدم الأدوات فعليًا أو يحرز تقدمًا، يعيد OpenClaw المحاولة مع توجيه للتنفيذ الفوري، ثم يفشل بطريقة مغلقة مع حالة حظر صريحة بدلًا من إنهاء المهمة بصمت.
يحسّن هذا تجربة GPT-5.5 بشكل أكبر خصوصًا في:
- متابعات قصيرة من نوع “حسنًا، نفّذ ذلك”
- مهام البرمجة التي تكون فيها الخطوة الأولى واضحة
- التدفقات التي يجب أن يكون فيها
update_planتتبّعًا للتقدم بدلًا من نص حشو
PR B: الصدق وقت التشغيل
تجعل هذه الشريحة OpenClaw يقول الحقيقة بشأن أمرين:- سبب فشل استدعاء الموفّر/وقت التشغيل
- ما إذا كان
/elevated fullمتاحًا فعلًا
PR C: صحة التنفيذ
تحسّن هذه الشريحة نوعين من الصحة:- التوافق مع مخططات أدوات OpenAI/Codex المملوكة للموفّر
- إظهار إعادة التشغيل وحيوية المهام الطويلة
PR D: حزمة التكافؤ
تضيف هذه الشريحة أول حزمة تكافؤ في QA-lab بحيث يمكن تشغيل GPT-5.5 وOpus 4.6 عبر السيناريوهات نفسها ومقارنتهما باستخدام أدلة مشتركة. حزمة التكافؤ هي طبقة الإثبات. وهي لا تغيّر سلوك وقت التشغيل بحد ذاته. بعد حصولك على ملفيqa-suite-summary.json، أنشئ مقارنة بوابة الإصدار باستخدام:
- تقرير Markdown قابلًا للقراءة البشرية
- حكم JSON قابلًا للقراءة الآلية
- نتيجة بوابة صريحة
pass/fail
لماذا يحسّن هذا GPT-5.5 عمليًا
قبل هذا العمل، كان GPT-5.5 على OpenClaw قد يبدو أقل وكيلية من Opus في جلسات البرمجة الفعلية لأن وقت التشغيل كان يتسامح مع سلوكيات ضارة بشكل خاص لنماذج بأسلوب GPT-5:- أدوار تعتمد على التعليق فقط
- احتكاك مخططات الأدوات
- تغذية راجعة مبهمة بشأن الأذونات
- أعطال صامتة في إعادة التشغيل أو Compaction
- “كان لدى النموذج خطة جيدة لكنه توقف”
- “إما أن النموذج نفّذ، أو أن OpenClaw أظهر السبب الدقيق لعدم قدرته على ذلك”
قبل البرنامج وبعده لمستخدمي GPT-5.5
| قبل هذا البرنامج | بعد PR A-D |
|---|---|
| كان بإمكان GPT-5.5 التوقف بعد خطة معقولة من دون اتخاذ الخطوة التالية عبر الأدوات | يحوّل PR A حالة “خطة فقط” إلى “نفّذ الآن أو أظهر حالة حظر” |
| كان يمكن لمخططات الأدوات الصارمة أن ترفض الأدوات الخالية من المعلمات أو المصاغة بأسلوب OpenAI/Codex بطرق مربكة | يجعل PR C تسجيل الأدوات واستدعاءها المملوكين للموفّر أكثر قابلية للتنبؤ |
كان يمكن أن تكون إرشادات /elevated full مبهمة أو خاطئة في أزمنة التشغيل المحظورة | يمنح PR B كلًا من GPT-5.5 والمستخدم تلميحات صادقة عن وقت التشغيل والأذونات |
| كان يمكن أن تبدو أعطال إعادة التشغيل أو Compaction وكأن المهمة اختفت بصمت | يُظهر PR C نتائج التوقف المؤقت والحظر والتخلي وعدم صلاحية إعادة التشغيل بشكل صريح |
| كان قول “GPT-5.5 أسوأ من Opus” قائمًا في الغالب على روايات متفرقة | يحوّل PR D ذلك إلى حزمة السيناريو نفسها، والمقاييس نفسها، وبوابة نجاح/فشل صارمة |
البنية
تدفق الإصدار
حزمة السيناريوهات
تغطي حزمة التكافؤ في الموجة الأولى حاليًا خمسة سيناريوهات:approval-turn-tool-followthrough
يتحقق من أن النموذج لا يتوقف عند “سأفعل ذلك” بعد موافقة قصيرة. يجب أن يتخذ أول إجراء ملموس في الدور نفسه.
model-switch-tool-continuity
يتحقق من أن العمل الذي يستخدم الأدوات يبقى متماسكًا عبر حدود تبديل النموذج/وقت التشغيل بدلًا من أن يُعاد ضبطه إلى تعليق أو أن يفقد سياق التنفيذ.
source-docs-discovery-report
يتحقق من أن النموذج يستطيع قراءة المصدر والوثائق، وتجميع النتائج، ومتابعة المهمة بشكل وكيلي بدلًا من إنتاج ملخص ضعيف والتوقف مبكرًا.
image-understanding-attachment
يتحقق من أن المهام متعددة الأنماط التي تتضمن مرفقات تبقى قابلة للتنفيذ ولا تنهار إلى سرد مبهم.
compaction-retry-mutating-tool
يتحقق من أن مهمة تحتوي على كتابة حقيقية مغيرة للحالة تُبقي عدم أمان إعادة التشغيل صريحًا بدلًا من أن تبدو آمنة لإعادة التشغيل بهدوء إذا خضعت العملية إلى Compaction أو إعادة محاولة أو فقدان حالة الرد تحت الضغط.
مصفوفة السيناريوهات
| السيناريو | ما الذي يختبره | سلوك GPT-5.5 الجيد | إشارة الفشل |
|---|---|---|---|
approval-turn-tool-followthrough | أدوار الموافقة القصيرة بعد خطة | يبدأ أول إجراء أداة ملموس فورًا بدلًا من إعادة صياغة النية | متابعة بخطة فقط، أو غياب نشاط الأدوات، أو دور محظور دون عائق حقيقي |
model-switch-tool-continuity | تبديل وقت التشغيل/النموذج أثناء استخدام الأدوات | يحافظ على سياق المهمة ويواصل التنفيذ بشكل متماسك | يعاد ضبطه إلى تعليق، أو يفقد سياق الأدوات، أو يتوقف بعد التبديل |
source-docs-discovery-report | قراءة المصدر + التجميع + التنفيذ | يعثر على المصادر، ويستخدم الأدوات، وينتج تقريرًا مفيدًا دون تعثر | ملخص ضعيف، أو غياب عمل الأدوات، أو توقف قبل اكتمال الدور |
image-understanding-attachment | العمل الوكيلي المعتمد على المرفقات | يفسر المرفق، ويربطه بالأدوات، ويواصل المهمة | سرد مبهم، أو تجاهل المرفق، أو غياب إجراء ملموس تالٍ |
compaction-retry-mutating-tool | العمل المغير للحالة تحت ضغط Compaction | ينفّذ كتابة حقيقية ويُبقي عدم أمان إعادة التشغيل صريحًا بعد التأثير الجانبي | تحدث كتابة مغيرة للحالة لكن يُفهم ضمنًا أمان إعادة التشغيل أو يغيب أو يتناقض |
بوابة الإصدار
لا يمكن اعتبار GPT-5.5 في حالة تكافؤ أو أفضل إلا عندما يجتاز وقت التشغيل المدمج حزمة التكافؤ وتراجعات الصدق في وقت التشغيل في الوقت نفسه. النتائج المطلوبة:- عدم حدوث تعثر عند الخطة فقط عندما يكون إجراء الأداة التالي واضحًا
- عدم وجود اكتمال زائف من دون تنفيذ حقيقي
- عدم وجود إرشادات خاطئة لـ
/elevated full - عدم وجود تخلي صامت أثناء إعادة التشغيل أو Compaction
- مقاييس حزمة التكافؤ تكون على الأقل بقوة خط الأساس المتفق عليه لـ Opus 4.6
- معدل الإكمال
- معدل التوقف غير المقصود
- معدل استدعاءات الأدوات الصحيحة
- عدد النجاحات الزائفة
- يثبت PR D سلوك GPT-5.5 مقابل Opus 4.6 في السيناريوهات نفسها باستخدام QA-lab
- تثبت المجموعات الحتمية في PR B الصدق المتعلق بالمصادقة والوكيل وDNS و
/elevated fullخارج التسخير
مصفوفة الهدف إلى الدليل
| عنصر بوابة الإكمال | PR المالك | مصدر الدليل | إشارة النجاح |
|---|---|---|---|
| لم يعد GPT-5.5 يتعثر بعد التخطيط | PR A | approval-turn-tool-followthrough بالإضافة إلى مجموعات وقت التشغيل في PR A | تؤدي أدوار الموافقة إلى عمل حقيقي أو إلى حالة حظر صريحة |
| لم يعد GPT-5.5 يزيّف التقدم أو إكمال الأدوات الزائف | PR A + PR D | نتائج سيناريوهات تقرير التكافؤ وعدد النجاحات الزائفة | لا توجد نتائج نجاح مشبوهة ولا اكتمال قائم على التعليق فقط |
لم يعد GPT-5.5 يقدّم إرشادات خاطئة لـ /elevated full | PR B | مجموعات الصدق الحتمية | تبقى أسباب الحظر وتلميحات الوصول الكامل دقيقة وفق وقت التشغيل |
| تبقى أعطال إعادة التشغيل/الحيوية صريحة | PR C + PR D | مجموعات دورة الحياة/إعادة التشغيل في PR C بالإضافة إلى compaction-retry-mutating-tool | يبقي العمل المغير للحالة عدم أمان إعادة التشغيل صريحًا بدلًا من أن يختفي بصمت |
| يطابق GPT-5.5 أو يتفوق على Opus 4.6 في المقاييس المتفق عليها | PR D | qa-agentic-parity-report.md وqa-agentic-parity-summary.json | التغطية نفسها للسيناريوهات وعدم وجود تراجع في الإكمال أو سلوك التوقف أو استخدام الأدوات الصحيح |
كيفية قراءة حكم التكافؤ
استخدم الحكم الموجود فيqa-agentic-parity-summary.json باعتباره القرار النهائي القابل للقراءة آليًا لحزمة التكافؤ في الموجة الأولى.
- تعني
passأن GPT-5.5 غطّى السيناريوهات نفسها التي غطاها Opus 4.6 ولم يتراجع في المقاييس التجميعية المتفق عليها. - تعني
failأن بوابة صارمة واحدة على الأقل قد تعثرت: إكمال أضعف، أو توقفات غير مقصودة أسوأ، أو استخدام صحيح للأدوات أضعف، أو أي حالة نجاح زائف، أو عدم تطابق في تغطية السيناريوهات. - لا تُعد “مشكلة CI مشتركة/أساسية” بحد ذاتها نتيجة تكافؤ. فإذا منعت ضوضاء CI خارج PR D تشغيلًا ما، فيجب أن ينتظر الحكم تنفيذًا نظيفًا لوقت تشغيل مدمج بدلًا من استنتاجه من سجلات قديمة خاصة بالفرع.
- ما تزال صحة المصادقة والوكيل وDNS و
/elevated fullتأتي من المجموعات الحتمية في PR B، لذا يحتاج ادعاء الإصدار النهائي إلى الأمرين معًا: حكم تكافؤ ناجح في PR D وتغطية صحة خضراء في PR B.
من الذي ينبغي له تفعيل strict-agentic
استخدم strict-agentic عندما:
- يُتوقع من الوكيل أن ينفّذ فورًا عندما تكون الخطوة التالية واضحة
- تكون نماذج GPT-5.5 أو عائلة Codex هي وقت التشغيل الأساسي
- تفضّل حالات الحظر الصريحة على الردود التي تقتصر على التلخيص “المفيد”
- تريد السلوك الحالي الأكثر تساهلًا
- لا تستخدم نماذج من عائلة GPT-5
- تختبر المطالبات بدلًا من فرض وقت التشغيل