Przejdź do głównej treści

Parzystość agentyczna GPT-5.5 / Codex w OpenClaw

OpenClaw już dobrze działał z modelami frontier używającymi narzędzi, ale modele w stylu GPT-5.5 i Codex nadal w kilku praktycznych aspektach wypadały słabiej:
  • mogły zatrzymywać się po planowaniu zamiast wykonać pracę
  • mogły niepoprawnie używać ścisłych schematów narzędzi OpenAI/Codex
  • mogły prosić o /elevated full, nawet gdy pełny dostęp był niemożliwy
  • mogły tracić stan zadań długotrwałych podczas replayu lub Compaction
  • twierdzenia o parzystości względem Claude Opus 4.6 opierały się na anegdotach zamiast na powtarzalnych scenariuszach
Ten program parzystości zamyka te luki w czterech dających się przejrzeć wycinkach.

Co się zmieniło

PR A: wykonywanie strict-agentic

Ten wycinek dodaje opcjonalny kontrakt wykonania strict-agentic dla osadzonych uruchomień Pi GPT-5. Po włączeniu OpenClaw przestaje akceptować tury zawierające wyłącznie plan jako „wystarczająco dobre” zakończenie. Jeśli model tylko mówi, co zamierza zrobić, ale faktycznie nie używa narzędzi ani nie robi postępu, OpenClaw ponawia próbę z wymuszeniem działania teraz, a następnie zamyka się bezpiecznie z jawnym stanem blokady zamiast po cichu kończyć zadanie. To najbardziej poprawia doświadczenie GPT-5.5 w przypadku:
  • krótkich follow-upów typu „ok zrób to”
  • zadań programistycznych, gdzie pierwszy krok jest oczywisty
  • przepływów, w których update_plan powinno śledzić postęp zamiast być wypełniaczem tekstowym

PR B: prawdomówność runtime

Ten wycinek sprawia, że OpenClaw mówi prawdę o dwóch rzeczach:
  • dlaczego wywołanie dostawcy/runtime zakończyło się niepowodzeniem
  • czy /elevated full jest faktycznie dostępne
To oznacza, że GPT-5.5 dostaje lepsze sygnały runtime dla brakującego zakresu, błędów odświeżania auth, błędów auth HTML 403, problemów z proxy, błędów DNS lub timeoutów oraz zablokowanych trybów pełnego dostępu. Model ma mniejszą skłonność do halucynowania błędnej metody naprawy albo ciągłego proszenia o tryb uprawnień, którego runtime nie może zapewnić.

PR C: poprawność wykonania

Ten wycinek poprawia dwa rodzaje poprawności:
  • zgodność schematów narzędzi OpenAI/Codex należących do dostawcy
  • ujawnianie replayu i żywotności zadań długotrwałych
Prace nad zgodnością narzędzi zmniejszają tarcie schematów przy ścisłej rejestracji narzędzi OpenAI/Codex, zwłaszcza wokół narzędzi bez parametrów i ścisłych oczekiwań co do obiektu głównego. Prace nad replayem/żywotnością zwiększają obserwowalność zadań długotrwałych, dzięki czemu stany wstrzymane, zablokowane i porzucone są widoczne zamiast ginąć w ogólnym tekście o błędzie.

PR D: harness parzystości

Ten wycinek dodaje pierwszy pakiet parzystości QA-lab, dzięki któremu GPT-5.5 i Opus 4.6 można ćwiczyć na tych samych scenariuszach i porównywać przy użyciu współdzielonych dowodów. Pakiet parzystości jest warstwą dowodową. Sam z siebie nie zmienia zachowania runtime. Gdy masz już dwa artefakty qa-suite-summary.json, wygeneruj porównanie release-gate za pomocą:
pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity
To polecenie zapisuje:
  • raport Markdown czytelny dla człowieka
  • werdykt JSON czytelny maszynowo
  • jawny wynik bramki pass / fail

Dlaczego to w praktyce poprawia GPT-5.5

Przed tymi pracami GPT-5.5 w OpenClaw mogło sprawiać wrażenie mniej agentycznego niż Opus w rzeczywistych sesjach programistycznych, ponieważ runtime tolerował zachowania szczególnie szkodliwe dla modeli w stylu GPT-5:
  • tury zawierające tylko komentarz
  • tarcie schematów wokół narzędzi
  • niejasny feedback uprawnień
  • ciche psucie replayu lub Compaction
Celem nie jest sprawienie, by GPT-5.5 imitował Opus. Celem jest zapewnienie GPT-5.5 kontraktu runtime, który nagradza rzeczywisty postęp, dostarcza czystszej semantyki narzędzi i uprawnień oraz zamienia tryby awarii w jawne stany czytelne zarówno dla maszyn, jak i ludzi. To zmienia doświadczenie użytkownika z:
  • „model miał dobry plan, ale się zatrzymał”
na:
  • „model albo zadziałał, albo OpenClaw ujawnił dokładny powód, dla którego nie mógł”

Przed i po dla użytkowników GPT-5.5

Przed tym programemPo PR A-D
GPT-5.5 mogło zatrzymać się po rozsądnym planie bez wykonania kolejnego kroku narzędziowegoPR A zamienia „tylko plan” w „działaj teraz albo pokaż stan blokady”
Ścisłe schematy narzędzi mogły w mylący sposób odrzucać narzędzia bez parametrów lub w kształcie OpenAI/CodexPR C czyni rejestrację i wywoływanie narzędzi należących do dostawcy bardziej przewidywalnymi
Wskazówki /elevated full mogły być niejasne albo błędne w zablokowanych runtimePR B daje GPT-5.5 i użytkownikowi prawdziwe wskazówki runtime i uprawnień
Błędy replayu lub Compaction mogły sprawiać wrażenie, że zadanie po cichu zniknęłoPR C jawnie pokazuje wyniki paused, blocked, abandoned i replay-invalid
„GPT-5.5 wypada gorzej niż Opus” było głównie anegdotycznePR D zamienia to w ten sam pakiet scenariuszy, te same metryki i twardą bramkę pass/fail

Architektura

Przepływ wydania

Pakiet scenariuszy

Pakiet parzystości pierwszej fali obejmuje obecnie pięć scenariuszy:

approval-turn-tool-followthrough

Sprawdza, czy model nie zatrzymuje się na „zrobię to” po krótkiej aprobacie. Powinien wykonać pierwszą konkretną akcję w tej samej turze.

model-switch-tool-continuity

Sprawdza, czy praca z użyciem narzędzi pozostaje spójna na granicach przełączania modelu/runtime, zamiast resetować się do komentarza lub tracić kontekst wykonania.

source-docs-discovery-report

Sprawdza, czy model potrafi czytać źródła i dokumentację, syntetyzować ustalenia i kontynuować zadanie agentycznie, zamiast tworzyć cienkie podsumowanie i zatrzymywać się zbyt wcześnie.

image-understanding-attachment

Sprawdza, czy zadania mieszane obejmujące załączniki pozostają wykonalne i nie zapadają się do niejasnej narracji.

compaction-retry-mutating-tool

Sprawdza, czy zadanie z rzeczywistym mutującym zapisem zachowuje jawną niebezpieczność replayu zamiast po cichu wyglądać na bezpieczne dla replayu, jeśli uruchomienie przechodzi Compaction, retry lub traci stan odpowiedzi pod presją.

Macierz scenariuszy

ScenariuszCo testujeDobre zachowanie GPT-5.5Sygnał awarii
approval-turn-tool-followthroughKrótkie tury aprobaty po planieNatychmiast rozpoczyna pierwszą konkretną akcję narzędzia zamiast powtarzać zamiarfollow-up tylko z planem, brak aktywności narzędzi lub tura blocked bez realnej blokady
model-switch-tool-continuityPrzełączanie runtime/modelu przy użyciu narzędziZachowuje kontekst zadania i nadal działa spójniereset do komentarza, utrata kontekstu narzędzi lub zatrzymanie po przełączeniu
source-docs-discovery-reportCzytanie źródeł + synteza + działanieZnajduje źródła, używa narzędzi i tworzy użyteczny raport bez zacięciacienkie podsumowanie, brak pracy narzędziowej lub zatrzymanie na niepełnej turze
image-understanding-attachmentAgentyczna praca oparta na załącznikuInterpretuje załącznik, łączy go z narzędziami i kontynuuje zadanieniejasna narracja, zignorowany załącznik lub brak konkretnej kolejnej akcji
compaction-retry-mutating-toolMutująca praca pod presją CompactionWykonuje rzeczywisty zapis i utrzymuje jawną niebezpieczność replayu po skutku ubocznymmutujący zapis następuje, ale bezpieczeństwo replayu jest sugerowane, nieobecne lub sprzeczne

Release gate

GPT-5.5 można uznać za na poziomie parzystości lub lepsze tylko wtedy, gdy scalony runtime jednocześnie przechodzi pakiet parzystości i regresje prawdomówności runtime. Wymagane wyniki:
  • brak zacięcia na samym planie, gdy kolejna akcja narzędzia jest oczywista
  • brak fałszywego zakończenia bez rzeczywistego wykonania
  • brak błędnych wskazówek /elevated full
  • brak cichego porzucenia replayu lub Compaction
  • metryki pakietu parzystości co najmniej tak mocne jak uzgodniony baseline Opus 4.6
Dla harnessu pierwszej fali bramka porównuje:
  • completion rate
  • unintended-stop rate
  • valid-tool-call rate
  • fake-success count
Dowody parzystości są celowo rozdzielone na dwie warstwy:
  • PR D dowodzi zachowania GPT-5.5 vs Opus 4.6 w tych samych scenariuszach za pomocą QA-lab
  • deterministyczne zestawy PR B dowodzą prawdomówności auth, proxy, DNS i /elevated full poza harnessem

Macierz cel-do-dowodu

Element bramki ukończeniaOdpowiedzialny PRŹródło dowoduSygnał zaliczenia
GPT-5.5 nie zacina się już po planowaniuPR Aapproval-turn-tool-followthrough plus zestawy runtime PR Atury aprobaty wywołują rzeczywistą pracę lub jawny stan blokady
GPT-5.5 nie udaje już postępu ani fałszywego zakończenia narzędziaPR A + PR Dwyniki scenariuszy raportu parzystości i fake-success countbrak podejrzanych wyników pass i brak zakończeń zawierających tylko komentarz
GPT-5.5 nie daje już fałszywych wskazówek /elevated fullPR Bdeterministyczne zestawy prawdomównościprzyczyny blokady i wskazówki pełnego dostępu pozostają zgodne z runtime
Błędy replayu/żywotności pozostają jawnePR C + PR Dzestawy lifecycle/replay PR C plus compaction-retry-mutating-toolmutująca praca utrzymuje jawną niebezpieczność replayu zamiast po cichu znikać
GPT-5.5 dorównuje lub przewyższa Opus 4.6 w uzgodnionych metrykachPR Dqa-agentic-parity-report.md i qa-agentic-parity-summary.jsonto samo pokrycie scenariuszy i brak regresji w completion, zachowaniu stop lub poprawnym użyciu narzędzi

Jak czytać werdykt parzystości

Użyj werdyktu w qa-agentic-parity-summary.json jako ostatecznej decyzji czytelnej maszynowo dla pakietu parzystości pierwszej fali.
  • pass oznacza, że GPT-5.5 pokryło te same scenariusze co Opus 4.6 i nie zanotowało regresji w uzgodnionych zagregowanych metrykach.
  • fail oznacza, że uruchomiła się przynajmniej jedna twarda bramka: słabszy completion, gorszy unintended stop, słabsze poprawne użycie narzędzi, dowolny przypadek fake-success lub niedopasowane pokrycie scenariuszy.
  • „shared/base CI issue” samo w sobie nie jest wynikiem parzystości. Jeśli szum CI poza PR D blokuje uruchomienie, werdykt powinien poczekać na czyste wykonanie scalonego runtime zamiast być wyciągany z logów z epoki gałęzi.
  • Prawdomówność auth, proxy, DNS i /elevated full nadal pochodzi z deterministycznych zestawów PR B, więc końcowe twierdzenie wydaniowe wymaga obu elementów: zaliczonego werdyktu parzystości PR D i zielonego pokrycia prawdomówności PR B.

Kto powinien włączyć strict-agentic

Użyj strict-agentic, gdy:
  • od agenta oczekuje się natychmiastowego działania, gdy kolejny krok jest oczywisty
  • podstawowym runtime są modele z rodziny GPT-5.5 lub Codex
  • wolisz jawne stany blokady zamiast „pomocnych” odpowiedzi zawierających tylko podsumowanie
Pozostaw domyślny kontrakt, gdy:
  • chcesz zachować istniejące luźniejsze zachowanie
  • nie używasz modeli z rodziny GPT-5
  • testujesz promptty, a nie egzekwowanie przez runtime

Powiązane