OpenClaw’da GPT-5.5 / Codex Ajanik Eşdeğerliği
OpenClaw, araç kullanan sınır modellerle zaten iyi çalışıyordu, ancak GPT-5.5 ve Codex tarzı modeller birkaç pratik açıdan hâlâ beklenen düzeyde değildi:- işi yapmak yerine planlamadan sonra durabiliyorlardı
- katı OpenAI/Codex araç şemalarını yanlış kullanabiliyorlardı
- tam erişim imkânsız olduğunda bile
/elevated fullisteyebiliyorlardı - yeniden oynatma veya Compaction sırasında uzun süren görev durumunu kaybedebiliyorlardı
- Claude Opus 4.6’ya karşı eşdeğerlik iddiaları tekrar edilebilir senaryolar yerine anekdotlara dayanıyordu
Neler değişti
PR A: katı ajanik yürütme
Bu dilim, gömülü Pi GPT-5 çalıştırmaları için isteğe bağlı birstrict-agentic yürütme sözleşmesi ekler.
Etkinleştirildiğinde OpenClaw, yalnızca plan içeren turları artık “yeterince iyi” tamamlanma olarak kabul etmez. Model yalnızca ne yapmayı amaçladığını söylüyor ve gerçekten araç kullanmıyor ya da ilerleme kaydetmiyorsa OpenClaw bir şimdi-harekete-geç yönlendirmesiyle yeniden dener, ardından görevi sessizce bitirmek yerine açık bir engellenmiş durumla kapalı hata verir.
Bu özellikle GPT-5.5 deneyimini şu durumlarda iyileştirir:
- kısa “tamam yap” takipleri
- ilk adımın bariz olduğu kod görevleri
update_plankullanımının dolgu metni değil ilerleme takibi olması gereken akışlar
PR B: çalışma zamanı doğruculuğu
Bu dilim, OpenClaw’un iki konuda doğruyu söylemesini sağlar:- sağlayıcı/çalışma zamanı çağrısının neden başarısız olduğu
/elevated fullseçeneğinin gerçekten kullanılabilir olup olmadığı
PR C: yürütme doğruluğu
Bu dilim iki tür doğruluğu iyileştirir:- sağlayıcının sahip olduğu OpenAI/Codex araç şeması uyumluluğu
- yeniden oynatma ve uzun görev canlılık görünürlüğü
PR D: eşdeğerlik harness’i
Bu dilim, GPT-5.5 ve Opus 4.6’nın aynı senaryolar üzerinden çalıştırılıp ortak kanıtlarla karşılaştırılabilmesi için ilk dalga QA-lab eşdeğerlik paketini ekler. Eşdeğerlik paketi kanıt katmanıdır. Kendi başına çalışma zamanı davranışını değiştirmez. İki adetqa-suite-summary.json artifaktınız olduktan sonra, sürüm geçidi karşılaştırmasını şununla oluşturun:
- insanlar tarafından okunabilir bir Markdown raporu
- makine tarafından okunabilir bir JSON kararı
- açık bir
pass/failgeçit sonucu
Bu, pratikte GPT-5.5’i neden iyileştiriyor
Bu çalışmadan önce OpenClaw üzerindeki GPT-5.5, gerçek kodlama oturumlarında Opus’a göre daha az ajanik hissettirebiliyordu çünkü çalışma zamanı, özellikle GPT-5 tarzı modeller için zararlı olan davranışlara tolerans gösteriyordu:- yalnızca yorum içeren turlar
- araçlar etrafında şema sürtünmesi
- belirsiz izin geri bildirimi
- sessiz yeniden oynatma veya Compaction bozulmaları
- “modelin iyi bir planı vardı ama durdu”
- “model ya harekete geçti ya da OpenClaw neden geçemediğini tam olarak gösterdi”
GPT-5.5 kullanıcıları için önce ve sonra
| Bu programdan önce | PR A-D sonrası |
|---|---|
| GPT-5.5 mantıklı bir plandan sonra sonraki araç adımını atmadan durabiliyordu | PR A, “yalnızca plan”ı “hemen harekete geç veya engellenmiş bir durum göster”e çevirir |
| Katı araç şemaları parametresiz veya OpenAI/Codex biçimli araçları kafa karıştırıcı şekilde reddedebiliyordu | PR C, sağlayıcının sahip olduğu araç kaydı ve çağrımını daha öngörülebilir hâle getirir |
/elevated full yönlendirmesi engellenmiş çalışma zamanlarında belirsiz veya yanlış olabiliyordu | PR B, GPT-5.5’e ve kullanıcıya doğru çalışma zamanı ve izin ipuçları verir |
| Yeniden oynatma veya Compaction hataları görevin sessizce kaybolmuş gibi hissettirebiliyordu | PR C, duraklatılmış, engellenmiş, terk edilmiş ve replay-invalid sonuçları açıkça gösterir |
| “GPT-5.5, Opus’tan daha kötü hissettiriyor” çoğunlukla anekdottu | PR D bunu aynı senaryo paketi, aynı metrikler ve sert bir pass/fail geçidine dönüştürür |
Mimari
Sürüm akışı
Senaryo paketi
İlk dalga eşdeğerlik paketi şu anda beş senaryoyu kapsıyor:approval-turn-tool-followthrough
Kısa bir onaydan sonra modelin “Bunu yapacağım” deyip durmadığını denetler. Aynı turda ilk somut eylemi yapmalıdır.
model-switch-tool-continuity
Araç kullanan işlerin model/çalışma zamanı geçiş sınırları boyunca yorum moduna sıfırlanmak veya yürütme bağlamını kaybetmek yerine tutarlı kalıp kalmadığını denetler.
source-docs-discovery-report
Modelin kaynak ve belgeleri okuyup bulguları sentezleyebildiğini ve ince bir özet üretip erken durmak yerine göreve ajanik biçimde devam edebildiğini denetler.
image-understanding-attachment
Ek içeren karma mod görevlerin eyleme dönük kalıp kalmadığını ve belirsiz anlatıma çökmediğini denetler.
compaction-retry-mutating-tool
Gerçek bir değiştirici yazma işlemi içeren görevin, çalışma Compaction yapar, yeniden dener veya baskı altında yanıt durumunu kaybederse, yeniden oynatma güvensizliğini sessizce güvenli görünür kılmak yerine açık tutup tutmadığını denetler.
Senaryo matrisi
| Senaryo | Neyi test eder | İyi GPT-5.5 davranışı | Hata sinyali |
|---|---|---|---|
approval-turn-tool-followthrough | Bir plandan sonraki kısa onay turları | Niyeti yeniden ifade etmek yerine ilk somut araç eylemini hemen başlatır | yalnızca plan içeren takip, araç etkinliği yok veya gerçek engel olmadan engellenmiş tur |
model-switch-tool-continuity | Araç kullanımı altında çalışma zamanı/model geçişi | Görev bağlamını korur ve tutarlı biçimde eyleme devam eder | yoruma sıfırlanma, araç bağlamını kaybetme veya geçişten sonra durma |
source-docs-discovery-report | Kaynak okuma + sentez + eylem | Kaynakları bulur, araç kullanır ve takılmadan faydalı bir rapor üretir | ince özet, eksik araç işi veya tamamlanmamış turda durma |
image-understanding-attachment | Ek odaklı ajanik çalışma | Eki yorumlar, araçlarla ilişkilendirir ve göreve devam eder | belirsiz anlatım, ekin yok sayılması veya somut sonraki eylem olmaması |
compaction-retry-mutating-tool | Compaction baskısı altında değiştirici iş | Gerçek bir yazma yapar ve yan etkiden sonra yeniden oynatma güvensizliğini açık tutar | değiştirici yazma olur ama yeniden oynatma güvenliği ima edilir, eksiktir veya çelişkilidir |
Sürüm geçidi
GPT-5.5, ancak birleştirilmiş çalışma zamanı eşdeğerlik paketini ve çalışma zamanı doğruculuğu regresyonlarını aynı anda geçtiğinde eşdeğer veya daha iyi kabul edilebilir. Gerekli sonuçlar:- sonraki araç eylemi açıksa yalnızca plan nedeniyle durma olmaması
- gerçek yürütme olmadan sahte tamamlanma olmaması
- yanlış
/elevated fullyönlendirmesi olmaması - sessiz yeniden oynatma veya Compaction terki olmaması
- üzerinde anlaşılmış Opus 4.6 temel çizgisi kadar güçlü veya daha güçlü eşdeğerlik paketi metrikleri
- tamamlanma oranı
- istenmeyen durma oranı
- geçerli araç çağrısı oranı
- sahte başarı sayısı
- PR D, QA-lab ile aynı senaryoda GPT-5.5 ve Opus 4.6 davranışını kanıtlar
- PR B deterministic suite’leri, harness dışında auth, proxy, DNS ve
/elevated fulldoğruculuğunu kanıtlar
Hedeften kanıta matrisi
| Tamamlanma geçidi öğesi | Sorumlu PR | Kanıt kaynağı | Geçiş sinyali |
|---|---|---|---|
| GPT-5.5 planlamadan sonra artık takılmıyor | PR A | approval-turn-tool-followthrough artı PR A çalışma zamanı suite’leri | onay turları gerçek işi veya açık bir engellenmiş durumu tetikler |
| GPT-5.5 artık sahte ilerleme veya sahte araç tamamlanması üretmiyor | PR A + PR D | eşdeğerlik raporu senaryo sonuçları ve sahte başarı sayısı | şüpheli pass sonucu yok ve yalnızca yorum içeren tamamlanma yok |
GPT-5.5 artık yanlış /elevated full yönlendirmesi vermiyor | PR B | deterministic doğruculuk suite’leri | engellenme nedenleri ve tam erişim ipuçları çalışma zamanı açısından doğru kalır |
| Yeniden oynatma/canlılık hataları açık kalır | PR C + PR D | PR C yaşam döngüsü/yeniden oynatma suite’leri artı compaction-retry-mutating-tool | değiştirici iş, sessizce kaybolmak yerine yeniden oynatma güvensizliğini açık tutar |
| GPT-5.5, üzerinde anlaşılmış metriklerde Opus 4.6 ile eşleşir veya onu geçer | PR D | qa-agentic-parity-report.md ve qa-agentic-parity-summary.json | aynı senaryo kapsamı ve tamamlanma, durma davranışı veya geçerli araç kullanımında regresyon olmaması |
Eşdeğerlik kararını nasıl okumalı
İlk dalga eşdeğerlik paketi için nihai makine tarafından okunabilir karar olarakqa-agentic-parity-summary.json içindeki kararı kullanın.
pass, GPT-5.5’in Opus 4.6 ile aynı senaryoları kapsadığı ve üzerinde anlaşılmış toplu metriklerde regresyon göstermediği anlamına gelir.fail, en az bir sert geçidin tetiklendiği anlamına gelir: daha zayıf tamamlanma, daha kötü istenmeyen durmalar, daha zayıf geçerli araç kullanımı, herhangi bir sahte başarı vakası veya uyuşmayan senaryo kapsamı.- “shared/base CI issue” tek başına bir eşdeğerlik sonucu değildir. PR D dışındaki CI gürültüsü bir çalıştırmayı engelliyorsa karar, dal dönemi loglarından çıkarım yapmak yerine temiz bir birleştirilmiş çalışma zamanı yürütmesini beklemelidir.
- Auth, proxy, DNS ve
/elevated fulldoğruculuğu hâlâ PR B’nin deterministic suite’lerinden gelir; bu yüzden nihai sürüm iddiası ikisini de gerektirir: geçen bir PR D eşdeğerlik kararı ve yeşil PR B doğruculuk kapsamı.
strict-agentic özelliğini kimler etkinleştirmeli
Şu durumlarda strict-agentic kullanın:
- bir sonraki adım açık olduğunda ajanın hemen harekete geçmesi bekleniyorsa
- birincil çalışma zamanı GPT-5.5 veya Codex ailesi modellerse
- “yardımcı” yalnızca özetleyen yanıtlar yerine açık engellenmiş durumları tercih ediyorsanız
- mevcut daha gevşek davranışı istiyorsanız
- GPT-5 ailesi modeller kullanmıyorsanız
- çalışma zamanı zorlaması yerine istemleri test ediyorsanız