Ana içeriğe atla
Bu not, özgün altı sözleşmeli mimariyi kaybetmeden GPT-5.5 / Codex parity programını dört birleştirme birimi olarak nasıl gözden geçireceğinizi açıklar.

Birleştirme birimleri

PR A: strict-agentic execution

Sahip oldukları:
  • executionContract
  • GPT-5 öncelikli aynı turda devam etme
  • terminal olmayan ilerleme takibi olarak update_plan
  • yalnızca planla sessiz durmalar yerine açık engellenmiş durumlar
Sahip olmadıkları:
  • kimlik doğrulama/çalışma zamanı hata sınıflandırması
  • izin doğruluğu
  • replay/devam ettirme yeniden tasarımı
  • parity kıyaslaması

PR B: runtime truthfulness

Sahip oldukları:
  • Codex OAuth kapsam doğruluğu
  • türlenmiş sağlayıcı/çalışma zamanı hata sınıflandırması
  • doğru /elevated full kullanılabilirliği ve engellenme nedenleri
Sahip olmadıkları:
  • araç şeması normalleştirme
  • replay/canlılık durumu
  • kıyaslama geçidi

PR C: execution correctness

Sahip oldukları:
  • sağlayıcıya ait OpenAI/Codex araç uyumluluğu
  • parametresiz katı şema işleme
  • replay-invalid yüzeye çıkarma
  • duraklatılmış, engellenmiş ve terk edilmiş uzun görev durumu görünürlüğü
Sahip olmadıkları:
  • kendiliğinden seçilmiş devam ettirme
  • sağlayıcı kancaları dışındaki genel Codex lehçesi davranışı
  • kıyaslama geçidi

PR D: parity harness

Sahip oldukları:
  • ilk dalga GPT-5.5 ve Opus 4.6 senaryo paketi
  • parity belgeleri
  • parity raporu ve sürüm geçidi mekanikleri
Sahip olmadıkları:
  • QA-lab dışındaki çalışma zamanı davranışı değişiklikleri
  • harness içinde auth/proxy/DNS simülasyonu

Özgün altı sözleşmeye geri eşleme

Özgün sözleşmeBirleştirme birimi
Sağlayıcı taşıma/kimlik doğrulama doğruluğuPR B
Araç sözleşmesi/şema uyumluluğuPR C
Aynı turda yürütmePR A
İzin doğruluğuPR B
Replay/devam ettirme/canlılık doğruluğuPR C
Kıyaslama/sürüm geçidiPR D

İnceleme sırası

  1. PR A
  2. PR B
  3. PR C
  4. PR D
PR D kanıt katmanıdır. Çalışma zamanı doğruluğu PR’larının gecikme nedeni bu olmamalıdır.

Nelere bakılmalı

PR A

  • GPT-5 çalıştırmaları yorumda durmak yerine eyleme geçiyor veya kapalı şekilde başarısız oluyor
  • update_plan artık tek başına ilerleme gibi görünmüyor
  • davranış GPT-5 öncelikli ve gömülü-Pi kapsamlı kalıyor

PR B

  • auth/proxy/çalışma zamanı hataları genel “model failed” işlemesine çökmeyi bırakıyor
  • /elevated full yalnızca gerçekten kullanılabiliyorsa kullanılabilir olarak tanımlanıyor
  • engellenme nedenleri hem modele hem kullanıcıya dönük çalışma zamanına görünür oluyor

PR C

  • katı OpenAI/Codex araç kaydı öngörülebilir davranıyor
  • parametresiz araçlar katı şema denetimlerinde başarısız olmuyor
  • replay ve Compaction sonuçları doğru canlılık durumunu koruyor

PR D

  • senaryo paketi anlaşılır ve yeniden üretilebilir
  • paket yalnızca salt okunur akışları değil, değiştirici bir replay güvenliği hattını da içeriyor
  • raporlar insanlar ve otomasyon tarafından okunabilir
  • parity iddiaları anekdota değil kanıta dayanıyor
PR D’den beklenen yapıtlar:
  • her model çalıştırması için qa-suite-report.md / qa-suite-summary.json
  • toplu ve senaryo düzeyi karşılaştırma içeren qa-agentic-parity-report.md
  • makine tarafından okunabilir bir karar içeren qa-agentic-parity-summary.json

Sürüm geçidi

Şunlar gerçekleşmeden GPT-5.5 parity’si veya Opus 4.6’ya üstünlük iddiasında bulunmayın:
  • PR A, PR B ve PR C birleştirildi
  • PR D ilk dalga parity paketini temiz şekilde çalıştırdı
  • çalışma zamanı doğruluğu gerileme paketleri yeşil kaldı
  • parity raporu sahte başarı vakası ve durma davranışında gerileme göstermiyor
Parity harness tek kanıt kaynağı değildir. İncelemede bu ayrımı açık tutun:
  • PR D, senaryo tabanlı GPT-5.5 ve Opus 4.6 karşılaştırmasının sahibidir
  • PR B deterministik paketleri hâlâ auth/proxy/DNS ve tam erişim doğruluğu kanıtının sahibidir

Hızlı bakımcı birleştirme iş akışı

Bir parity PR’ını göndermeye hazır olduğunuzda ve tekrarlanabilir, düşük riskli bir sıra istediğinizde bunu kullanın.
  1. Birleştirmeden önce kanıt eşiğinin karşılandığını doğrulayın:
    • yeniden üretilebilir belirti veya başarısız test
    • dokunulan kodda doğrulanmış kök neden
    • suçlanan yolda düzeltme
    • gerileme testi veya açık manuel doğrulama notu
  2. Birleştirmeden önce sınıflandırın/etiketleyin:
    • PR’ın inmemesi gerekiyorsa ilgili r:* otomatik kapatma etiketlerini uygulayın
    • birleştirme adaylarını çözülmemiş engelleyici başlıklardan uzak tutun
  3. Dokunulan yüzeyde yerel olarak doğrulayın:
    • pnpm check:changed
    • testler değiştiyse veya hata düzeltme güveni test kapsamına bağlıysa pnpm test:changed
  4. Standart bakımcı akışıyla gönderin (/landpr süreci), ardından doğrulayın:
    • bağlantılı issue’ların otomatik kapanma davranışı
    • main üzerindeki CI ve birleştirme sonrası durum
  5. Gönderdikten sonra ilgili açık PR/issue’lar için yinelenen arama yapın ve yalnızca kurallı bir referansla kapatın.
Kanıt eşiği öğelerinden herhangi biri eksikse birleştirmek yerine değişiklik isteyin.

Hedeften kanıta eşleme

Tamamlama geçidi öğesiBirincil sahipİnceleme yapıtı
Yalnızca plan kaynaklı duraklama yokPR Astrict-agentic çalışma zamanı testleri ve approval-turn-tool-followthrough
Sahte ilerleme veya sahte araç tamamlanması yokPR A + PR Dparity sahte başarı sayısı artı senaryo düzeyi rapor ayrıntıları
Yanlış /elevated full yönlendirmesi yokPR Bdeterministik runtime-truthfulness paketleri
Replay/canlılık hataları açık kalırPR C + PR Dyaşam döngüsü/replay paketleri artı compaction-retry-mutating-tool
GPT-5.5, Opus 4.6 ile eşleşir veya onu geçerPR Dqa-agentic-parity-report.md ve qa-agentic-parity-summary.json

İnceleyenler için kısa özet: önce ve sonra

Önceden kullanıcıya görünen sorunSonrasında inceleme sinyali
GPT-5.5 planlamadan sonra duruyorduPR A, yalnızca yorum temelli tamamlanma yerine eylem veya engellenme davranışı gösteriyor
Katı OpenAI/Codex şemalarıyla araç kullanımı kırılgan hissediliyorduPR C, araç kaydı ve parametresiz çağrıyı öngörülebilir tutuyor
/elevated full ipuçları bazen yanıltıcıydıPR B, yönlendirmeyi gerçek çalışma zamanı yeteneğine ve engellenme nedenlerine bağlıyor
Uzun görevler replay/Compaction belirsizliğinde kaybolabiliyorduPR C, açık paused, blocked, abandoned ve replay-invalid durumu yayıyor
Parity iddiaları anekdota dayanıyorduPR D, her iki modelde de aynı senaryo kapsamıyla bir rapor ve JSON kararı üretiyor

İlgili