Одиниці злиття
PR A: суворе агентне виконання
Володіє:executionContract- виконанням GPT-5-first у тому самому ході
update_planяк нетермінальним відстеженням поступу- явними заблокованими станами замість тихих зупинок лише на рівні плану
- класифікацією збоїв автентифікації/runtime
- правдивістю щодо дозволів
- переробкою replay/continuation
- бенчмаркінгом паритету
PR B: правдивість runtime
Володіє:- коректністю OAuth scope Codex
- типізованою класифікацією збоїв provider/runtime
- правдивою доступністю
/elevated fullі причинами блокування
- нормалізацією схем інструментів
- станом replay/liveness
- бенчмарк-гейтінгом
PR C: коректність виконання
Володіє:- сумісністю інструментів OpenAI/Codex, що належить provider
- обробкою суворих схем без параметрів
- відображенням replay-invalid
- видимістю станів paused, blocked і abandoned для довгих завдань
- самостійно обраним continuation
- загальною поведінкою діалекту Codex поза хуками provider
- бенчмарк-гейтінгом
PR D: каркас паритету
Володіє:- першим пакетом сценаріїв GPT-5.4 vs Opus 4.6
- документацією паритету
- механікою звіту паритету та release gate
- змінами поведінки runtime поза QA-lab
- симуляцією auth/proxy/DNS усередині каркаса
Відображення назад до початкових шести контрактів
| Початковий контракт | Одиниця злиття |
|---|---|
| Коректність транспорту/автентифікації provider | PR B |
| Сумісність контракту/схеми інструментів | PR C |
| Виконання в тому самому ході | PR A |
| Правдивість щодо дозволів | PR B |
| Коректність replay/continuation/liveness | PR C |
| Бенчмарк/release gate | PR D |
Порядок перевірки
- PR A
- PR B
- PR C
- PR D
На що звертати увагу
PR A
- запуски GPT-5 діють або безпечно завершуються з блокуванням, а не зупиняються на коментарі
update_planбільше не виглядає як поступ сам по собі- поведінка лишається GPT-5-first і обмеженою embedded-Pi
PR B
- збої auth/proxy/runtime перестають зливатися в загальну обробку “model failed”
/elevated fullописується як доступний лише тоді, коли він справді доступний- причини блокування видимі і для моделі, і для runtime, орієнтованого на користувача
PR C
- сувора реєстрація інструментів OpenAI/Codex поводиться передбачувано
- інструменти без параметрів не провалюють перевірки суворої схеми
- результати replay і Compaction зберігають правдивий стан liveness
PR D
- пакет сценаріїв зрозумілий і відтворюваний
- пакет включає lane безпеки replay зі змінами стану, а не лише read-only потоки
- звіти читабельні і для людей, і для автоматизації
- твердження про паритет підкріплені доказами, а не анекдотичні
qa-suite-report.md/qa-suite-summary.jsonдля кожного запуску моделіqa-agentic-parity-report.mdз агрегованим порівнянням і порівнянням на рівні сценаріївqa-agentic-parity-summary.jsonз машиночитаним вердиктом
Release gate
Не стверджуйте паритет або перевагу GPT-5.4 над Opus 4.6, доки:- PR A, PR B і PR C не злиті
- PR D не виконає чисто першу хвилю пакета паритету
- набори регресійних тестів правдивості runtime залишаються зеленими
- звіт про паритет не показує фальшиво-успішних випадків і регресій у поведінці зупинки
- PR D володіє порівнянням GPT-5.4 vs Opus 4.6 на основі сценаріїв
- детерміновані набори PR B і далі володіють доказами для auth/proxy/DNS і правдивості повного доступу
Відображення цілей на докази
| Елемент completion gate | Основний власник | Артефакт перевірки |
|---|---|---|
| Немає зупинок лише на плані | PR A | тести runtime strict-agentic і approval-turn-tool-followthrough |
| Немає фальшивого поступу або фальшивого завершення інструмента | PR A + PR D | кількість фальшивих успіхів паритету плюс деталі звіту на рівні сценаріїв |
Немає хибних підказок /elevated full | PR B | детерміновані набори перевірок правдивості runtime |
| Збої replay/liveness лишаються явними | PR C + PR D | набори lifecycle/replay плюс compaction-retry-mutating-tool |
| GPT-5.4 відповідає або перевершує Opus 4.6 | PR D | qa-agentic-parity-report.md і qa-agentic-parity-summary.json |
Скорочений огляд для рецензента: до vs після
| Видима користувачу проблема до | Сигнал перевірки після |
|---|---|
| GPT-5.4 зупинявся після планування | PR A показує поведінку діяти-або-блокуватись замість завершення лише коментарем |
| Використання інструментів здавалося крихким із суворими схемами OpenAI/Codex | PR C зберігає передбачуваність реєстрації інструментів і викликів без параметрів |
Підказки /elevated full іноді вводили в оману | PR B прив’язує підказки до реальних можливостей runtime і причин блокування |
| Довгі завдання могли зникати в неоднозначності replay/Compaction | PR C показує явний стан paused, blocked, abandoned і replay-invalid |
| Твердження про паритет були анекдотичними | PR D створює звіт плюс JSON-вердикт з однаковим покриттям сценаріїв для обох моделей |