Unità di merge
PR A: esecuzione agentica rigorosa
Di sua competenza:executionContract- follow-through nello stesso turno con priorità a GPT-5
update_plancome tracciamento dello stato di avanzamento non terminale- stati bloccati espliciti invece di arresti silenziosi basati solo sul piano
- classificazione dei guasti di autenticazione/runtime
- veridicità dei permessi
- riprogettazione di replay/continuazione
- benchmarking di parità
PR B: veridicità del runtime
Di sua competenza:- correttezza dell’ambito OAuth di Codex
- classificazione tipizzata dei guasti di provider/runtime
- disponibilità veritiera di
/elevated fulle relative motivazioni di blocco
- normalizzazione dello schema degli strumenti
- stato di replay/liveness
- gating del benchmark
PR C: correttezza dell’esecuzione
Di sua competenza:- compatibilità degli strumenti OpenAI/Codex di proprietà del provider
- gestione rigorosa dello schema senza parametri
- esposizione degli stati replay-invalid
- visibilità degli stati di task lunghi in pausa, bloccati e abbandonati
- continuazione autoeletta
- comportamento generico del dialetto Codex al di fuori degli hook del provider
- gating del benchmark
PR D: harness di parità
Di sua competenza:- primo pacchetto di scenari GPT-5.5 vs Opus 4.6
- documentazione della parità
- meccaniche del report di parità e del gate di rilascio
- modifiche del comportamento del runtime al di fuori di QA Lab
- simulazione di auth/proxy/DNS all’interno dell’harness
Mappatura sui sei contratti originali
| Contratto originale | Unità di merge |
|---|---|
| Correttezza del trasporto/auth del provider | PR B |
| Compatibilità di contratto/schema degli strumenti | PR C |
| Esecuzione nello stesso turno | PR A |
| Veridicità dei permessi | PR B |
| Correttezza di replay/continuazione/liveness | PR C |
| Benchmark/gate di rilascio | PR D |
Ordine di revisione
- PR A
- PR B
- PR C
- PR D
Cosa cercare
PR A
- le esecuzioni GPT-5 agiscono o falliscono in modo chiuso invece di fermarsi al commento
update_plannon appare più come avanzamento di per sé- il comportamento resta con priorità a GPT-5 e limitato a Pi incorporato
PR B
- i guasti di auth/proxy/runtime non collassano più in una gestione generica “model failed”
/elevated fullviene descritto come disponibile solo quando lo è davvero- le ragioni di blocco sono visibili sia al modello sia al runtime rivolto all’utente
PR C
- la registrazione rigorosa degli strumenti OpenAI/Codex si comporta in modo prevedibile
- gli strumenti senza parametri non falliscono i controlli rigorosi dello schema
- gli esiti di replay e Compaction preservano uno stato di liveness veritiero
PR D
- il pacchetto di scenari è comprensibile e riproducibile
- il pacchetto include una lane mutante di sicurezza del replay, non solo flussi in sola lettura
- i report sono leggibili sia dagli esseri umani sia dall’automazione
- le affermazioni di parità sono supportate da prove, non aneddotiche
qa-suite-report.md/qa-suite-summary.jsonper ogni esecuzione del modelloqa-agentic-parity-report.mdcon confronto aggregato e a livello di scenarioqa-agentic-parity-summary.jsoncon un verdetto leggibile dalla macchina
Gate di rilascio
Non affermare parità o superiorità di GPT-5.5 rispetto a Opus 4.6 finché:- PR A, PR B e PR C non sono state unite
- la PR D non esegue pulitamente il primo pacchetto di parità
- le suite di regressione sulla veridicità del runtime restano verdi
- il report di parità non mostra casi di falso successo né regressioni nel comportamento di arresto
- la PR D è responsabile del confronto basato su scenari tra GPT-5.5 e Opus 4.6
- le suite deterministiche della PR B restano responsabili delle prove su auth/proxy/DNS e sulla veridicità dell’accesso completo
Flusso rapido di merge per maintainer
Usa questo flusso quando sei pronto a unire una PR di parità e vuoi una sequenza ripetibile e a basso rischio.- Conferma che la soglia di evidenza sia soddisfatta prima del merge:
- sintomo riproducibile o test fallito
- causa radice verificata nel codice toccato
- correzione nel percorso coinvolto
- test di regressione o nota esplicita di verifica manuale
- Triage/etichettatura prima del merge:
- applica eventuali etichette
r:*di auto-chiusura quando la PR non deve essere unita - mantieni le candidate al merge senza thread bloccanti irrisolti
- applica eventuali etichette
- Convalida localmente sulla superficie toccata:
pnpm check:changedpnpm test:changedquando i test sono cambiati o la fiducia nella correzione del bug dipende dalla copertura dei test
- Unisci con il flusso standard del maintainer (processo
/landpr), quindi verifica:- comportamento di auto-chiusura degli issue collegati
- stato della CI e del post-merge su
main
- Dopo il merge, esegui una ricerca di duplicati per PR/issue aperti correlati e chiudi solo con un riferimento canonico.
Mappa obiettivo-evidenza
| Elemento del gate di completamento | Responsabile principale | Artifact di revisione |
|---|---|---|
| Nessun blocco basato solo sul piano | PR A | test di runtime agentico rigoroso e approval-turn-tool-followthrough |
| Nessun falso avanzamento o falso completamento degli strumenti | PR A + PR D | conteggio dei falsi successi di parità più dettagli del report a livello di scenario |
Nessuna falsa indicazione /elevated full | PR B | suite deterministiche di veridicità del runtime |
| I guasti di replay/liveness restano espliciti | PR C + PR D | suite lifecycle/replay più compaction-retry-mutating-tool |
| GPT-5.5 eguaglia o supera Opus 4.6 | PR D | qa-agentic-parity-report.md e qa-agentic-parity-summary.json |
Scorciatoia per i revisori: prima vs dopo
| Problema visibile all’utente prima | Segnale di revisione dopo |
|---|---|
| GPT-5.5 si fermava dopo la pianificazione | La PR A mostra un comportamento di azione-o-blocco invece di un completamento solo commentato |
| L’uso degli strumenti sembrava fragile con schemi OpenAI/Codex rigorosi | La PR C mantiene prevedibili la registrazione degli strumenti e l’invocazione senza parametri |
I suggerimenti /elevated full a volte erano fuorvianti | La PR B collega le indicazioni alla reale capability del runtime e alle ragioni di blocco |
| I task lunghi potevano sparire nell’ambiguità di replay/Compaction | La PR C emette stati espliciti di pausa, blocco, abbandono e replay-invalid |
| Le affermazioni di parità erano aneddotiche | La PR D produce un report più un verdetto JSON con la stessa copertura di scenari su entrambi i modelli |