Merge-Einheiten
PR A: strikt agentische Ausführung
Zuständig für:executionContract- GPT-5-First Follow-through im selben Zug
update_planals nicht terminale Fortschrittsverfolgung- explizite Blockiert-Zustände statt stiller Stopps nur mit Plan
- Klassifizierung von Auth-/Laufzeitfehlern
- Wahrhaftigkeit bei Berechtigungen
- Neugestaltung von Replay/Fortsetzung
- Paritäts-Benchmarking
PR B: Wahrhaftigkeit der Laufzeit
Zuständig für:- Korrektheit der Codex-OAuth-Scopes
- typisierte Klassifizierung von Provider-/Laufzeitfehlern
- wahrheitsgemäße Verfügbarkeit von
/elevated fullund Gründe für Blockierungen
- Normalisierung von Tool-Schemas
- Replay-/Liveness-Zustand
- Benchmark-Gating
PR C: Korrektheit der Ausführung
Zuständig für:- provider-eigene OpenAI-/Codex-Tool-Kompatibilität
- parameterfreie Strict-Schema-Behandlung
- Sichtbarmachung von Replay-invalid
- Sichtbarkeit von Zuständen für pausierte, blockierte und abgebrochene Langzeitaufgaben
- selbstgewählte Fortsetzung
- generisches Codex-Dialektverhalten außerhalb von Provider-Hooks
- Benchmark-Gating
PR D: Paritätsharness
Zuständig für:- erstes Szenariopaket für GPT-5.5 vs. Opus 4.6
- Paritätsdokumentation
- Paritätsbericht und Release-Gate-Mechanik
- Änderungen des Laufzeitverhaltens außerhalb von QA-Lab
- Auth-/Proxy-/DNS-Simulation innerhalb des Harness
Rückzuordnung zu den ursprünglichen sechs Verträgen
| Ursprünglicher Vertrag | Merge-Einheit |
|---|---|
| Korrektheit von Provider-Transport/Auth | PR B |
| Kompatibilität von Tool-Vertrag/Schema | PR C |
| Ausführung im selben Zug | PR A |
| Wahrhaftigkeit bei Berechtigungen | PR B |
| Korrektheit von Replay/Fortsetzung/Liveness | PR C |
| Benchmark-/Release-Gate | PR D |
Reihenfolge der Überprüfung
- PR A
- PR B
- PR C
- PR D
Worauf zu achten ist
PR A
- GPT-5-Ausführungen handeln oder schlagen geschlossen fehl, statt bei Kommentartext stehenzubleiben
update_planwirkt nicht länger für sich allein wie Fortschritt- das Verhalten bleibt GPT-5-first und auf eingebettete Pi beschränkt
PR B
- Auth-/Proxy-/Laufzeitfehler fallen nicht weiter in generische „Modell fehlgeschlagen“-Behandlung zurück
/elevated fullwird nur dann als verfügbar beschrieben, wenn es tatsächlich verfügbar ist- Gründe für Blockierungen sind sowohl für das Modell als auch für die benutzerseitige Laufzeit sichtbar
PR C
- strikte OpenAI-/Codex-Tool-Registrierung verhält sich vorhersehbar
- parameterfreie Tools scheitern nicht an strikten Schema-Prüfungen
- Replay- und Compaction-Ergebnisse erhalten den wahrheitsgemäßen Liveness-Zustand
PR D
- das Szenariopaket ist verständlich und reproduzierbar
- das Paket enthält eine mutierende Replay-Sicherheits-Strecke, nicht nur schreibgeschützte Abläufe
- Berichte sind für Menschen und Automatisierung lesbar
- Paritätsaussagen sind beleggestützt, nicht anekdotisch
qa-suite-report.md/qa-suite-summary.jsonfür jeden Modelldurchlaufqa-agentic-parity-report.mdmit aggregiertem und szenariobezogenem Vergleichqa-agentic-parity-summary.jsonmit maschinenlesbarem Urteil
Release-Gate
Beanspruchen Sie keine GPT-5.5-Parität oder Überlegenheit gegenüber Opus 4.6, bevor nicht:- PR A, PR B und PR C gemergt sind
- PR D das Paritätspaket der ersten Welle fehlerfrei ausführt
- Regressionssuiten zur Laufzeit-Wahrhaftigkeit grün bleiben
- der Paritätsbericht keine Fake-Success-Fälle und keine Regression beim Stoppverhalten zeigt
- PR D ist zuständig für den szenariobasierten Vergleich GPT-5.5 vs. Opus 4.6
- deterministische Suiten aus PR B bleiben zuständig für Nachweise zu Auth/Proxy/DNS und Wahrhaftigkeit bei Vollzugriff
Schneller Maintainer-Merge-Workflow
Verwenden Sie dies, wenn Sie bereit sind, eine Paritäts-PR zu landen, und eine wiederholbare, risikoarme Abfolge möchten.- Vor dem Merge prüfen, ob die Nachweisschwelle erfüllt ist:
- reproduzierbares Symptom oder fehlschlagender Test
- verifizierte Grundursache im betroffenen Code
- Fix im betroffenen Pfad
- Regressionstest oder expliziter Hinweis auf manuelle Verifikation
- Vor dem Merge triagieren/labeln:
- alle
r:*-Auto-Close-Labels anwenden, wenn die PR nicht landen soll - Merge-Kandidaten frei von ungelösten blockierenden Threads halten
- alle
- Lokal auf der betroffenen Oberfläche validieren:
pnpm check:changedpnpm test:changed, wenn Tests geändert wurden oder das Vertrauen in den Bugfix von der Testabdeckung abhängt
- Mit dem Standard-Maintainer-Ablauf landen (Prozess
/landpr) und dann verifizieren:- Auto-Close-Verhalten verknüpfter Issues
- CI- und Post-Merge-Status auf
main
- Nach dem Landen nach verwandten offenen PRs/Issues mit Duplikatsuche suchen und nur mit einem kanonischen Verweis schließen.
Zuordnung von Ziel zu Nachweis
| Element des Abschluss-Gates | Primärer Besitzer | Review-Artefakt |
|---|---|---|
| Keine Stalls nur mit Plan | PR A | Strict-Agentic-Laufzeittests und approval-turn-tool-followthrough |
| Kein Fake-Fortschritt oder Fake-Tool-Abschluss | PR A + PR D | Anzahl an Fake-Success-Fällen in der Parität plus szenariobezogene Berichtsdetails |
Keine falschen /elevated full-Hinweise | PR B | deterministische Suiten zur Laufzeit-Wahrhaftigkeit |
| Replay-/Liveness-Fehler bleiben explizit | PR C + PR D | Lifecycle-/Replay-Suiten plus compaction-retry-mutating-tool |
| GPT-5.5 entspricht Opus 4.6 oder übertrifft es | PR D | qa-agentic-parity-report.md und qa-agentic-parity-summary.json |
Reviewer-Kurzfassung: vorher vs. nachher
| Vorher sichtbares Benutzerproblem | Review-Signal nachher |
|---|---|
| GPT-5.5 stoppte nach der Planung | PR A zeigt Act-or-Block-Verhalten statt Abschluss nur mit Kommentartext |
| Tool-Nutzung wirkte mit strikten OpenAI-/Codex-Schemas fragil | PR C hält Tool-Registrierung und parameterfreien Aufruf vorhersehbar |
Hinweise zu /elevated full waren manchmal irreführend | PR B koppelt Hinweise an tatsächliche Laufzeitfähigkeit und Gründe für Blockierungen |
| Lange Aufgaben konnten in Replay-/Compaction-Mehrdeutigkeit verschwinden | PR C gibt explizite Zustände für pausiert, blockiert, abgebrochen und replay-invalid aus |
| Paritätsaussagen waren anekdotisch | PR D erzeugt einen Bericht plus JSON-Urteil mit derselben Szenarioabdeckung für beide Modelle |