Przejdź do głównej treści

Parzystość agentowa GPT-5.4 / Codex w OpenClaw

OpenClaw już dobrze współpracował z modelami frontier używającymi narzędzi, ale modele GPT-5.4 i w stylu Codex nadal miały słabsze wyniki w kilku praktycznych aspektach:
  • mogły zatrzymywać się po planowaniu zamiast wykonywać pracę
  • mogły nieprawidłowo używać ścisłych schematów narzędzi OpenAI/Codex
  • mogły prosić o /elevated full, nawet gdy pełny dostęp był niemożliwy
  • mogły tracić stan długotrwałych zadań podczas replay lub compaction
  • twierdzenia o parzystości względem Claude Opus 4.6 opierały się na anegdotach zamiast na powtarzalnych scenariuszach
Ten program parzystości naprawia te luki w czterech możliwych do przeglądu wycinkach.

Co się zmieniło

PR A: wykonanie strict-agentic

Ten wycinek dodaje opcjonalny kontrakt wykonania strict-agentic dla osadzonych uruchomień Pi GPT-5. Po włączeniu OpenClaw przestaje uznawać tury zawierające tylko plan za „wystarczająco dobre” zakończenie. Jeśli model tylko opisuje, co zamierza zrobić, i faktycznie nie używa narzędzi ani nie robi postępu, OpenClaw ponawia próbę z kierowaniem act-now, a następnie kończy w trybie fail-closed z jawnym stanem zablokowania zamiast po cichu kończyć zadanie. Najbardziej poprawia to doświadczenie GPT-5.4 przy:
  • krótkich follow-upach typu „ok, zrób to”
  • zadaniach programistycznych, gdzie pierwszy krok jest oczywisty
  • przepływach, w których update_plan powinno śledzić postęp, a nie być tekstem-wypełniaczem

PR B: prawdomówność runtime

Ten wycinek sprawia, że OpenClaw mówi prawdę o dwóch rzeczach:
  • dlaczego wywołanie providera/runtime się nie powiodło
  • czy /elevated full jest rzeczywiście dostępne
Oznacza to, że GPT-5.4 dostaje lepsze sygnały runtime dotyczące brakującego zakresu, błędów odświeżania auth, błędów auth HTML 403, problemów z proxy, błędów DNS lub timeout oraz zablokowanych trybów pełnego dostępu. Model rzadziej halucynuje niewłaściwe działania naprawcze albo nadal prosi o tryb uprawnień, którego runtime nie może zapewnić.

PR C: poprawność wykonania

Ten wycinek poprawia dwa rodzaje poprawności:
  • kompatybilność schematów narzędzi OpenAI/Codex należących do providera
  • uwidacznianie replay i żywotności długich zadań
Prace nad kompatybilnością narzędzi zmniejszają tarcie schematów przy ścisłej rejestracji narzędzi OpenAI/Codex, zwłaszcza wokół narzędzi bez parametrów i ścisłych oczekiwań co do obiektu głównego. Prace nad replay/żywotnością sprawiają, że długotrwałe zadania są lepiej obserwowalne, dzięki czemu stany paused, blocked i abandoned są widoczne zamiast znikać w ogólnym tekście błędu.

PR D: harness parzystości

Ten wycinek dodaje pierwszy pakiet parzystości QA-lab, dzięki któremu GPT-5.4 i Opus 4.6 można uruchamiać w tych samych scenariuszach i porównywać przy użyciu współdzielonych dowodów. Pakiet parzystości jest warstwą dowodową. Sam z siebie nie zmienia zachowania runtime. Gdy masz już dwa artefakty qa-suite-summary.json, wygeneruj porównanie bramki wydania przez:
pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/gpt54/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity
To polecenie zapisuje:
  • raport Markdown czytelny dla człowieka
  • werdykt JSON czytelny maszynowo
  • jawną bramkę wyniku pass / fail

Dlaczego to w praktyce poprawia GPT-5.4

Przed tymi pracami GPT-5.4 w OpenClaw mogło sprawiać wrażenie mniej agentowego niż Opus w rzeczywistych sesjach programistycznych, ponieważ runtime tolerował zachowania szczególnie szkodliwe dla modeli w stylu GPT-5:
  • tury zawierające wyłącznie komentarz
  • tarcie schematu wokół narzędzi
  • niejasny feedback o uprawnieniach
  • ciche uszkodzenia replay lub compaction
Celem nie jest sprawienie, by GPT-5.4 naśladował Opus. Celem jest zapewnienie GPT-5.4 kontraktu runtime, który nagradza realny postęp, dostarcza czytelniejszą semantykę narzędzi i uprawnień oraz zamienia tryby awarii w jawne stany czytelne dla ludzi i maszyn. To zmienia doświadczenie użytkownika z:
  • „model miał dobry plan, ale się zatrzymał”
na:
  • „model albo zadziałał, albo OpenClaw pokazał dokładny powód, dlaczego nie mógł”

Przed i po dla użytkowników GPT-5.4

Przed tym programemPo PR A-D
GPT-5.4 mogło zatrzymać się po sensownym planie bez wykonania następnego kroku narzędziemPR A zamienia „tylko plan” na „działaj teraz albo pokaż stan zablokowania”
Ścisłe schematy narzędzi mogły w mylący sposób odrzucać narzędzia bez parametrów albo w kształcie OpenAI/CodexPR C sprawia, że rejestracja i wywoływanie narzędzi należących do providera są bardziej przewidywalne
Wskazówki /elevated full mogły być niejasne lub błędne w zablokowanych runtimePR B daje GPT-5.4 i użytkownikowi prawdziwe wskazówki runtime i uprawnień
Błędy replay lub compaction mogły sprawiać wrażenie, że zadanie po cichu zniknęłoPR C jawnie pokazuje wyniki paused, blocked, abandoned i replay-invalid
„GPT-5.4 wypada gorzej niż Opus” było głównie anegdotycznePR D zamienia to w ten sam pakiet scenariuszy, te same metryki i twardą bramkę pass/fail

Architektura

Przepływ wydania

Pakiet scenariuszy

Pakiet parzystości pierwszej fali obecnie obejmuje pięć scenariuszy:

approval-turn-tool-followthrough

Sprawdza, czy model nie zatrzymuje się na „zrobię to” po krótkim zatwierdzeniu. Powinien wykonać pierwsze konkretne działanie w tej samej turze.

model-switch-tool-continuity

Sprawdza, czy praca z użyciem narzędzi pozostaje spójna na granicach przełączania modelu/runtime zamiast resetować się do komentarza albo tracić kontekst wykonania.

source-docs-discovery-report

Sprawdza, czy model potrafi czytać źródła i dokumentację, syntetyzować ustalenia i kontynuować zadanie agentowo zamiast tworzyć cienkie podsumowanie i zatrzymywać się zbyt wcześnie.

image-understanding-attachment

Sprawdza, czy zadania mieszane z załącznikami pozostają wykonalne i nie zapadają się w niejasną narrację.

compaction-retry-mutating-tool

Sprawdza, czy zadanie z rzeczywistym mutującym zapisem zachowuje jawną niebezpieczność replay zamiast po cichu wyglądać na bezpieczne dla replay, jeśli uruchomienie przejdzie compaction, retry albo straci stan odpowiedzi pod presją.

Macierz scenariuszy

ScenariuszCo testujeDobre zachowanie GPT-5.4Sygnał awarii
approval-turn-tool-followthroughKrótkie tury zatwierdzenia po planieNatychmiast rozpoczyna pierwsze konkretne działanie narzędziem zamiast powtarzać intencjęfollow-up tylko z planem, brak aktywności narzędzi albo tura zablokowana bez realnej blokady
model-switch-tool-continuityPrzełączanie runtime/model podczas użycia narzędziZachowuje kontekst zadania i dalej działa spójniereset do komentarza, utrata kontekstu narzędzi albo zatrzymanie po przełączeniu
source-docs-discovery-reportCzytanie źródeł + synteza + działanieZnajduje źródła, używa narzędzi i tworzy użyteczny raport bez utknięciacienkie podsumowanie, brak pracy narzędziami albo zatrzymanie w niepełnej turze
image-understanding-attachmentAgentowa praca sterowana załącznikiemInterpretuje załącznik, łączy go z narzędziami i kontynuuje zadanieniejasna narracja, zignorowany załącznik albo brak konkretnego następnego działania
compaction-retry-mutating-toolMutująca praca pod presją compactionWykonuje rzeczywisty zapis i zachowuje jawną niebezpieczność replay po skutku ubocznymmutujący zapis występuje, ale bezpieczeństwo replay jest sugerowane, pominięte albo sprzeczne

Bramka wydania

GPT-5.4 można uznać za model na poziomie parzystości lub lepszy tylko wtedy, gdy połączony runtime przechodzi jednocześnie pakiet parzystości i regresje prawdomówności runtime. Wymagane wyniki:
  • brak zatrzymania po samym planie, gdy następne działanie narzędziem jest jasne
  • brak fałszywego zakończenia bez rzeczywistego wykonania
  • brak nieprawidłowych wskazówek /elevated full
  • brak cichego porzucenia replay lub compaction
  • metryki pakietu parzystości co najmniej tak dobre jak uzgodniona baza Opus 4.6
Dla harnessu pierwszej fali bramka porównuje:
  • współczynnik ukończenia
  • współczynnik niezamierzonego zatrzymania
  • współczynnik prawidłowych wywołań narzędzi
  • liczbę fałszywych sukcesów
Dowody parzystości są celowo podzielone na dwie warstwy:
  • PR D dowodzi zachowania GPT-5.4 vs Opus 4.6 w tych samych scenariuszach przy użyciu QA-lab
  • deterministyczne pakiety PR B dowodzą prawdomówności auth, proxy, DNS i /elevated full poza harness

Macierz cel-do-dowód

Element bramki ukończeniaWłaściciel PRŹródło dowoduSygnał zaliczenia
GPT-5.4 już nie zatrzymuje się po planowaniuPR Aapproval-turn-tool-followthrough plus pakiety runtime PR Atury zatwierdzenia wywołują realną pracę albo jawny stan zablokowania
GPT-5.4 już nie udaje postępu ani fałszywego ukończenia narzędziPR A + PR Dwyniki scenariuszy raportu parzystości i liczba fałszywych sukcesówbrak podejrzanych wyników pass i brak zakończeń tylko-komentarzem
GPT-5.4 już nie podaje fałszywych wskazówek /elevated fullPR Bdeterministyczne pakiety prawdomównościpowody blokady i wskazówki pełnego dostępu pozostają zgodne z runtime
Błędy replay/żywotności pozostają jawnePR C + PR Dpakiety lifecycle/replay PR C plus compaction-retry-mutating-toolmutująca praca zachowuje jawną niebezpieczność replay zamiast po cichu znikać
GPT-5.4 dorównuje lub przewyższa Opus 4.6 w uzgodnionych metrykachPR Dqa-agentic-parity-report.md i qa-agentic-parity-summary.jsonten sam zakres scenariuszy i brak regresji w ukończeniu, zachowaniu zatrzymania lub prawidłowym użyciu narzędzi

Jak czytać werdykt parzystości

Użyj werdyktu w qa-agentic-parity-summary.json jako ostatecznej decyzji czytelnej maszynowo dla pakietu parzystości pierwszej fali.
  • pass oznacza, że GPT-5.4 objął te same scenariusze co Opus 4.6 i nie zanotował regresji na uzgodnionych zagregowanych metrykach.
  • fail oznacza, że została uruchomiona co najmniej jedna twarda bramka: słabsze ukończenie, gorsze niezamierzone zatrzymania, słabsze prawidłowe użycie narzędzi, dowolny przypadek fałszywego sukcesu albo niedopasowany zakres scenariuszy.
  • „shared/base CI issue” samo w sobie nie jest wynikiem parzystości. Jeśli szum CI poza PR D blokuje uruchomienie, werdykt powinien poczekać na czyste wykonanie połączonego runtime, zamiast być wyciągany z logów z epoki branchy.
  • Prawdomówność auth, proxy, DNS i /elevated full nadal pochodzi z deterministycznych pakietów PR B, więc końcowe twierdzenie wydania wymaga obu elementów: pozytywnego werdyktu parzystości PR D i zielonego pokrycia prawdomówności PR B.

Kto powinien włączyć strict-agentic

Używaj strict-agentic, gdy:
  • od agenta oczekuje się natychmiastowego działania, gdy następny krok jest oczywisty
  • modele GPT-5.4 lub z rodziny Codex są podstawowym runtime
  • wolisz jawne stany zablokowania zamiast „pomocnych” odpowiedzi zawierających tylko podsumowanie
Pozostaw domyślny kontrakt, gdy:
  • chcesz zachować istniejące luźniejsze zachowanie
  • nie używasz modeli z rodziny GPT-5
  • testujesz prompty, a nie egzekwowanie runtime

Powiązane