Parzystość agentyczna GPT-5.5 / Codex w OpenClaw
OpenClaw już dobrze działał z modelami frontier używającymi narzędzi, ale modele w stylu GPT-5.5 i Codex nadal w kilku praktycznych aspektach wypadały słabiej:- mogły zatrzymywać się po planowaniu zamiast wykonać pracę
- mogły niepoprawnie używać ścisłych schematów narzędzi OpenAI/Codex
- mogły prosić o
/elevated full, nawet gdy pełny dostęp był niemożliwy - mogły tracić stan zadań długotrwałych podczas replayu lub Compaction
- twierdzenia o parzystości względem Claude Opus 4.6 opierały się na anegdotach zamiast na powtarzalnych scenariuszach
Co się zmieniło
PR A: wykonywanie strict-agentic
Ten wycinek dodaje opcjonalny kontrakt wykonaniastrict-agentic dla osadzonych uruchomień Pi GPT-5.
Po włączeniu OpenClaw przestaje akceptować tury zawierające wyłącznie plan jako „wystarczająco dobre” zakończenie. Jeśli model tylko mówi, co zamierza zrobić, ale faktycznie nie używa narzędzi ani nie robi postępu, OpenClaw ponawia próbę z wymuszeniem działania teraz, a następnie zamyka się bezpiecznie z jawnym stanem blokady zamiast po cichu kończyć zadanie.
To najbardziej poprawia doświadczenie GPT-5.5 w przypadku:
- krótkich follow-upów typu „ok zrób to”
- zadań programistycznych, gdzie pierwszy krok jest oczywisty
- przepływów, w których
update_planpowinno śledzić postęp zamiast być wypełniaczem tekstowym
PR B: prawdomówność runtime
Ten wycinek sprawia, że OpenClaw mówi prawdę o dwóch rzeczach:- dlaczego wywołanie dostawcy/runtime zakończyło się niepowodzeniem
- czy
/elevated fulljest faktycznie dostępne
PR C: poprawność wykonania
Ten wycinek poprawia dwa rodzaje poprawności:- zgodność schematów narzędzi OpenAI/Codex należących do dostawcy
- ujawnianie replayu i żywotności zadań długotrwałych
PR D: harness parzystości
Ten wycinek dodaje pierwszy pakiet parzystości QA-lab, dzięki któremu GPT-5.5 i Opus 4.6 można ćwiczyć na tych samych scenariuszach i porównywać przy użyciu współdzielonych dowodów. Pakiet parzystości jest warstwą dowodową. Sam z siebie nie zmienia zachowania runtime. Gdy masz już dwa artefaktyqa-suite-summary.json, wygeneruj porównanie release-gate za pomocą:
- raport Markdown czytelny dla człowieka
- werdykt JSON czytelny maszynowo
- jawny wynik bramki
pass/fail
Dlaczego to w praktyce poprawia GPT-5.5
Przed tymi pracami GPT-5.5 w OpenClaw mogło sprawiać wrażenie mniej agentycznego niż Opus w rzeczywistych sesjach programistycznych, ponieważ runtime tolerował zachowania szczególnie szkodliwe dla modeli w stylu GPT-5:- tury zawierające tylko komentarz
- tarcie schematów wokół narzędzi
- niejasny feedback uprawnień
- ciche psucie replayu lub Compaction
- „model miał dobry plan, ale się zatrzymał”
- „model albo zadziałał, albo OpenClaw ujawnił dokładny powód, dla którego nie mógł”
Przed i po dla użytkowników GPT-5.5
| Przed tym programem | Po PR A-D |
|---|---|
| GPT-5.5 mogło zatrzymać się po rozsądnym planie bez wykonania kolejnego kroku narzędziowego | PR A zamienia „tylko plan” w „działaj teraz albo pokaż stan blokady” |
| Ścisłe schematy narzędzi mogły w mylący sposób odrzucać narzędzia bez parametrów lub w kształcie OpenAI/Codex | PR C czyni rejestrację i wywoływanie narzędzi należących do dostawcy bardziej przewidywalnymi |
Wskazówki /elevated full mogły być niejasne albo błędne w zablokowanych runtime | PR B daje GPT-5.5 i użytkownikowi prawdziwe wskazówki runtime i uprawnień |
| Błędy replayu lub Compaction mogły sprawiać wrażenie, że zadanie po cichu zniknęło | PR C jawnie pokazuje wyniki paused, blocked, abandoned i replay-invalid |
| „GPT-5.5 wypada gorzej niż Opus” było głównie anegdotyczne | PR D zamienia to w ten sam pakiet scenariuszy, te same metryki i twardą bramkę pass/fail |
Architektura
Przepływ wydania
Pakiet scenariuszy
Pakiet parzystości pierwszej fali obejmuje obecnie pięć scenariuszy:approval-turn-tool-followthrough
Sprawdza, czy model nie zatrzymuje się na „zrobię to” po krótkiej aprobacie. Powinien wykonać pierwszą konkretną akcję w tej samej turze.
model-switch-tool-continuity
Sprawdza, czy praca z użyciem narzędzi pozostaje spójna na granicach przełączania modelu/runtime, zamiast resetować się do komentarza lub tracić kontekst wykonania.
source-docs-discovery-report
Sprawdza, czy model potrafi czytać źródła i dokumentację, syntetyzować ustalenia i kontynuować zadanie agentycznie, zamiast tworzyć cienkie podsumowanie i zatrzymywać się zbyt wcześnie.
image-understanding-attachment
Sprawdza, czy zadania mieszane obejmujące załączniki pozostają wykonalne i nie zapadają się do niejasnej narracji.
compaction-retry-mutating-tool
Sprawdza, czy zadanie z rzeczywistym mutującym zapisem zachowuje jawną niebezpieczność replayu zamiast po cichu wyglądać na bezpieczne dla replayu, jeśli uruchomienie przechodzi Compaction, retry lub traci stan odpowiedzi pod presją.
Macierz scenariuszy
| Scenariusz | Co testuje | Dobre zachowanie GPT-5.5 | Sygnał awarii |
|---|---|---|---|
approval-turn-tool-followthrough | Krótkie tury aprobaty po planie | Natychmiast rozpoczyna pierwszą konkretną akcję narzędzia zamiast powtarzać zamiar | follow-up tylko z planem, brak aktywności narzędzi lub tura blocked bez realnej blokady |
model-switch-tool-continuity | Przełączanie runtime/modelu przy użyciu narzędzi | Zachowuje kontekst zadania i nadal działa spójnie | reset do komentarza, utrata kontekstu narzędzi lub zatrzymanie po przełączeniu |
source-docs-discovery-report | Czytanie źródeł + synteza + działanie | Znajduje źródła, używa narzędzi i tworzy użyteczny raport bez zacięcia | cienkie podsumowanie, brak pracy narzędziowej lub zatrzymanie na niepełnej turze |
image-understanding-attachment | Agentyczna praca oparta na załączniku | Interpretuje załącznik, łączy go z narzędziami i kontynuuje zadanie | niejasna narracja, zignorowany załącznik lub brak konkretnej kolejnej akcji |
compaction-retry-mutating-tool | Mutująca praca pod presją Compaction | Wykonuje rzeczywisty zapis i utrzymuje jawną niebezpieczność replayu po skutku ubocznym | mutujący zapis następuje, ale bezpieczeństwo replayu jest sugerowane, nieobecne lub sprzeczne |
Release gate
GPT-5.5 można uznać za na poziomie parzystości lub lepsze tylko wtedy, gdy scalony runtime jednocześnie przechodzi pakiet parzystości i regresje prawdomówności runtime. Wymagane wyniki:- brak zacięcia na samym planie, gdy kolejna akcja narzędzia jest oczywista
- brak fałszywego zakończenia bez rzeczywistego wykonania
- brak błędnych wskazówek
/elevated full - brak cichego porzucenia replayu lub Compaction
- metryki pakietu parzystości co najmniej tak mocne jak uzgodniony baseline Opus 4.6
- completion rate
- unintended-stop rate
- valid-tool-call rate
- fake-success count
- PR D dowodzi zachowania GPT-5.5 vs Opus 4.6 w tych samych scenariuszach za pomocą QA-lab
- deterministyczne zestawy PR B dowodzą prawdomówności auth, proxy, DNS i
/elevated fullpoza harnessem
Macierz cel-do-dowodu
| Element bramki ukończenia | Odpowiedzialny PR | Źródło dowodu | Sygnał zaliczenia |
|---|---|---|---|
| GPT-5.5 nie zacina się już po planowaniu | PR A | approval-turn-tool-followthrough plus zestawy runtime PR A | tury aprobaty wywołują rzeczywistą pracę lub jawny stan blokady |
| GPT-5.5 nie udaje już postępu ani fałszywego zakończenia narzędzia | PR A + PR D | wyniki scenariuszy raportu parzystości i fake-success count | brak podejrzanych wyników pass i brak zakończeń zawierających tylko komentarz |
GPT-5.5 nie daje już fałszywych wskazówek /elevated full | PR B | deterministyczne zestawy prawdomówności | przyczyny blokady i wskazówki pełnego dostępu pozostają zgodne z runtime |
| Błędy replayu/żywotności pozostają jawne | PR C + PR D | zestawy lifecycle/replay PR C plus compaction-retry-mutating-tool | mutująca praca utrzymuje jawną niebezpieczność replayu zamiast po cichu znikać |
| GPT-5.5 dorównuje lub przewyższa Opus 4.6 w uzgodnionych metrykach | PR D | qa-agentic-parity-report.md i qa-agentic-parity-summary.json | to samo pokrycie scenariuszy i brak regresji w completion, zachowaniu stop lub poprawnym użyciu narzędzi |
Jak czytać werdykt parzystości
Użyj werdyktu wqa-agentic-parity-summary.json jako ostatecznej decyzji czytelnej maszynowo dla pakietu parzystości pierwszej fali.
passoznacza, że GPT-5.5 pokryło te same scenariusze co Opus 4.6 i nie zanotowało regresji w uzgodnionych zagregowanych metrykach.failoznacza, że uruchomiła się przynajmniej jedna twarda bramka: słabszy completion, gorszy unintended stop, słabsze poprawne użycie narzędzi, dowolny przypadek fake-success lub niedopasowane pokrycie scenariuszy.- „shared/base CI issue” samo w sobie nie jest wynikiem parzystości. Jeśli szum CI poza PR D blokuje uruchomienie, werdykt powinien poczekać na czyste wykonanie scalonego runtime zamiast być wyciągany z logów z epoki gałęzi.
- Prawdomówność auth, proxy, DNS i
/elevated fullnadal pochodzi z deterministycznych zestawów PR B, więc końcowe twierdzenie wydaniowe wymaga obu elementów: zaliczonego werdyktu parzystości PR D i zielonego pokrycia prawdomówności PR B.
Kto powinien włączyć strict-agentic
Użyj strict-agentic, gdy:
- od agenta oczekuje się natychmiastowego działania, gdy kolejny krok jest oczywisty
- podstawowym runtime są modele z rodziny GPT-5.5 lub Codex
- wolisz jawne stany blokady zamiast „pomocnych” odpowiedzi zawierających tylko podsumowanie
- chcesz zachować istniejące luźniejsze zachowanie
- nie używasz modeli z rodziny GPT-5
- testujesz promptty, a nie egzekwowanie przez runtime