메인 콘텐츠로 건너뛰기

OpenClaw에서의 GPT-5.5 / Codex 에이전트형 동등성

OpenClaw는 이미 도구를 사용하는 프런티어 모델과 잘 작동했지만, GPT-5.5와 Codex 스타일 모델은 여전히 몇 가지 실질적인 측면에서 성능이 부족했습니다:
  • 작업을 수행하는 대신 계획만 세우고 멈출 수 있었습니다
  • strict OpenAI/Codex 도구 스키마를 잘못 사용할 수 있었습니다
  • 전체 액세스가 불가능한 경우에도 /elevated full을 요청할 수 있었습니다
  • replay 또는 Compaction 중 장기 실행 작업 상태를 잃을 수 있었습니다
  • Claude Opus 4.6과의 동등성 주장은 반복 가능한 시나리오가 아닌 일화에 기반해 있었습니다
이 동등성 프로그램은 검토 가능한 네 개의 슬라이스로 이러한 격차를 해결합니다.

변경된 내용

PR A: strict-agentic 실행

이 슬라이스는 임베디드 Pi GPT-5 실행을 위한 옵트인 strict-agentic 실행 계약을 추가합니다. 활성화되면 OpenClaw는 더 이상 계획만 있는 턴을 “충분히 괜찮은” 완료로 받아들이지 않습니다. 모델이 단지 무엇을 하려는지만 말하고 실제로 도구를 사용하거나 진전을 보이지 않으면, OpenClaw는 즉시 행동하라는 steer와 함께 재시도한 다음 작업을 조용히 끝내는 대신 명시적인 차단 상태로 fail-closed 처리합니다. 이 변경은 다음 상황에서 GPT-5.5 경험을 특히 개선합니다:
  • 짧은 “ok do it” 후속 요청
  • 첫 단계가 명확한 코드 작업
  • update_plan이 채우기용 텍스트가 아니라 진행 상황 추적이어야 하는 흐름

PR B: 런타임 진실성

이 슬라이스는 OpenClaw가 두 가지에 대해 사실대로 말하도록 만듭니다:
  • 제공업체/런타임 호출이 실패한 이유
  • /elevated full이 실제로 사용 가능한지 여부
즉, GPT-5.5는 누락된 scope, 인증 갱신 실패, HTML 403 인증 실패, 프록시 문제, DNS 또는 타임아웃 실패, 차단된 전체 액세스 모드에 대해 더 나은 런타임 신호를 받게 됩니다. 모델은 잘못된 해결책을 환각하거나 런타임이 제공할 수 없는 권한 모드를 계속 요청할 가능성이 줄어듭니다.

PR C: 실행 정확성

이 슬라이스는 두 가지 유형의 정확성을 개선합니다:
  • 제공업체 소유 OpenAI/Codex 도구 스키마 호환성
  • replay 및 장기 작업 활성 상태 노출
도구 호환성 작업은 특히 매개변수가 없는 도구와 strict object-root 기대치를 중심으로 strict OpenAI/Codex 도구 등록의 스키마 마찰을 줄입니다. replay/활성 상태 작업은 장기 실행 작업을 더 잘 관찰할 수 있게 만들어, 일시 중지됨, 차단됨, 버려짐 상태가 일반적인 실패 텍스트 속으로 사라지지 않고 보이도록 합니다.

PR D: 동등성 harness

이 슬라이스는 GPT-5.5와 Opus 4.6을 동일한 시나리오로 실행하고 공유된 증거를 사용해 비교할 수 있도록 첫 번째 QA-lab 동등성 팩을 추가합니다. 동등성 팩은 증명 계층입니다. 자체적으로 런타임 동작을 변경하지는 않습니다. 두 개의 qa-suite-summary.json 아티팩트가 준비되면, 다음 명령으로 릴리스 게이트 비교를 생성하세요:
pnpm openclaw qa parity-report \
  --repo-root . \
  --candidate-summary .artifacts/qa-e2e/gpt55/qa-suite-summary.json \
  --baseline-summary .artifacts/qa-e2e/opus46/qa-suite-summary.json \
  --output-dir .artifacts/qa-e2e/parity
이 명령은 다음을 기록합니다:
  • 사람이 읽을 수 있는 Markdown 보고서
  • 기계가 읽을 수 있는 JSON 판정
  • 명시적인 pass / fail 게이트 결과

이것이 실제로 GPT-5.5를 개선하는 이유

이 작업 이전에는 OpenClaw의 GPT-5.5가 실제 코딩 세션에서 Opus보다 덜 에이전트형으로 느껴질 수 있었습니다. 런타임이 GPT-5 스타일 모델에 특히 해로운 동작을 허용했기 때문입니다:
  • 설명만 하는 턴
  • 도구 주변의 스키마 마찰
  • 모호한 권한 피드백
  • 조용한 replay 또는 Compaction 손상
목표는 GPT-5.5가 Opus를 흉내 내게 만드는 것이 아닙니다. 목표는 실제 진전을 보상하고, 더 깔끔한 도구 및 권한 의미 체계를 제공하며, 실패 모드를 명시적인 기계 및 사람이 읽을 수 있는 상태로 바꾸는 런타임 계약을 GPT-5.5에 제공하는 것입니다. 이로써 사용자 경험이 다음과 같이 바뀝니다:
  • “모델이 좋은 계획을 세웠지만 멈췄다”
에서
  • “모델이 실제로 행동했거나, 그렇지 못한 정확한 이유를 OpenClaw가 표시했다”
로 바뀝니다.

GPT-5.5 사용자 관점의 전후 비교

이 프로그램 이전PR A-D 이후
GPT-5.5는 타당한 계획을 세운 뒤 다음 도구 단계를 수행하지 않고 멈출 수 있었습니다PR A는 “계획만”을 “즉시 행동하거나 차단 상태를 표시”로 바꿉니다
strict 도구 스키마는 매개변수가 없는 도구나 OpenAI/Codex 형태의 도구를 혼란스럽게 거부할 수 있었습니다PR C는 제공업체 소유 도구 등록 및 호출을 더 예측 가능하게 만듭니다
/elevated full 안내가 차단된 런타임에서 모호하거나 잘못될 수 있었습니다PR B는 GPT-5.5와 사용자에게 사실에 기반한 런타임 및 권한 힌트를 제공합니다
replay 또는 Compaction 실패는 작업이 조용히 사라진 것처럼 느껴질 수 있었습니다PR C는 일시 중지, 차단, 버려짐, replay-invalid 결과를 명시적으로 표시합니다
“GPT-5.5가 Opus보다 나쁘게 느껴진다”는 평가는 대부분 일화에 불과했습니다PR D는 이를 동일한 시나리오 팩, 동일한 메트릭, 강제적인 pass/fail 게이트로 바꿉니다

아키텍처

릴리스 흐름

시나리오 팩

현재 첫 번째 동등성 팩은 다섯 가지 시나리오를 다룹니다:

approval-turn-tool-followthrough

짧은 승인 후 모델이 “그렇게 하겠습니다”에서 멈추지 않는지 확인합니다. 같은 턴에서 첫 번째 구체적인 동작을 수행해야 합니다.

model-switch-tool-continuity

도구를 사용하는 작업이 모델/런타임 전환 경계에서도 일관성을 유지하는지, 설명으로 되돌아가거나 실행 컨텍스트를 잃지 않는지 확인합니다.

source-docs-discovery-report

모델이 소스와 문서를 읽고, 결과를 종합하고, 얇은 요약만 내놓고 일찍 멈추는 대신 에이전트형으로 작업을 계속할 수 있는지 확인합니다.

image-understanding-attachment

첨부 파일이 포함된 혼합 모드 작업이 계속 실행 가능하게 유지되고 모호한 서술로 무너지지 않는지 확인합니다.

compaction-retry-mutating-tool

실제 변경 쓰기가 포함된 작업이 Compaction, 재시도 또는 압박 상황에서 응답 상태를 잃더라도 replay 안전한 것처럼 조용히 보이지 않고 replay 불안전성을 명시적으로 유지하는지 확인합니다.

시나리오 매트릭스

시나리오테스트 내용바람직한 GPT-5.5 동작실패 신호
approval-turn-tool-followthrough계획 이후의 짧은 승인 턴의도를 다시 말하는 대신 즉시 첫 번째 구체적인 도구 동작을 시작함계획만 있는 후속 턴, 도구 활동 없음, 또는 실제 차단 요인 없는 차단된 턴
model-switch-tool-continuity도구 사용 중 런타임/모델 전환작업 컨텍스트를 유지하고 일관되게 계속 행동함설명으로 초기화됨, 도구 컨텍스트 상실, 또는 전환 후 중단
source-docs-discovery-report소스 읽기 + 종합 + 동작소스를 찾고 도구를 사용하며 멈추지 않고 유용한 보고서를 생성함얇은 요약, 누락된 도구 작업, 또는 미완료 턴 중단
image-understanding-attachment첨부 파일 기반 에이전트형 작업첨부 파일을 해석하고 도구와 연결하며 작업을 계속함모호한 서술, 첨부 파일 무시, 또는 구체적인 다음 동작 없음
compaction-retry-mutating-toolCompaction 압박 하에서의 변경 작업실제 쓰기를 수행하고 부작용 이후에도 replay 불안전성을 명시적으로 유지함변경 쓰기는 발생했지만 replay 안전성이 암시되거나 누락되거나 모순됨

릴리스 게이트

GPT-5.5는 병합된 런타임이 동등성 팩과 런타임 진실성 회귀를 동시에 통과할 때만 동등하거나 더 낫다고 간주할 수 있습니다. 필수 결과:
  • 다음 도구 동작이 명확할 때 계획만 세우고 멈추지 않을 것
  • 실제 실행 없이 완료된 것처럼 보이지 않을 것
  • 잘못된 /elevated full 안내가 없을 것
  • 조용한 replay 또는 Compaction 중단이 없을 것
  • 동의된 Opus 4.6 기준선과 최소한 동일한 수준의 동등성 팩 메트릭을 가질 것
첫 번째 harness에서 게이트는 다음을 비교합니다:
  • 완료율
  • 의도치 않은 중단율
  • 유효한 도구 호출 비율
  • 가짜 성공 수
동등성 증거는 의도적으로 두 계층으로 나뉩니다:
  • PR D는 QA-lab을 통해 동일 시나리오에서 GPT-5.5 대 Opus 4.6 동작을 증명합니다
  • PR B의 결정적 스위트는 harness 밖에서 인증, 프록시, DNS, /elevated full 진실성을 증명합니다

목표-증거 매트릭스

완료 게이트 항목담당 PR증거 소스통과 신호
GPT-5.5가 더 이상 계획 후 멈추지 않음PR Aapproval-turn-tool-followthrough 및 PR A 런타임 스위트승인 턴이 실제 작업 또는 명시적인 차단 상태를 유발함
GPT-5.5가 더 이상 진전이나 도구 완료를 가장하지 않음PR A + PR D동등성 보고서 시나리오 결과 및 가짜 성공 수수상한 통과 결과가 없고 설명만 있는 완료가 없음
GPT-5.5가 더 이상 잘못된 /elevated full 안내를 하지 않음PR B결정적 진실성 스위트차단 이유와 전체 액세스 힌트가 런타임에 맞게 정확하게 유지됨
Replay/활성 상태 실패가 계속 명시적으로 유지됨PR C + PR DPR C 수명 주기/replay 스위트 및 compaction-retry-mutating-tool변경 작업이 조용히 사라지는 대신 replay 불안전성을 명시적으로 유지함
GPT-5.5가 합의된 메트릭에서 Opus 4.6과 같거나 더 나음PR Dqa-agentic-parity-report.mdqa-agentic-parity-summary.json동일한 시나리오 범위를 갖고 완료, 중단 동작, 유효한 도구 사용에서 회귀가 없음

동등성 판정 읽는 방법

첫 번째 동등성 팩의 최종 기계 판독 결정으로 qa-agentic-parity-summary.json의 판정을 사용하세요.
  • pass는 GPT-5.5가 Opus 4.6과 동일한 시나리오를 다뤘고 합의된 집계 메트릭에서 회귀하지 않았음을 의미합니다.
  • fail은 하나 이상의 하드 게이트가 작동했음을 의미합니다: 더 약한 완료율, 더 나쁜 의도치 않은 중단, 더 약한 유효 도구 사용, 가짜 성공 사례 발생, 또는 일치하지 않는 시나리오 범위.
  • “shared/base CI issue”는 그 자체로 동등성 결과가 아닙니다. PR D 외부의 CI 노이즈가 실행을 막는 경우, 판정은 브랜치 시기의 로그에서 추론하는 대신 병합된 런타임의 깨끗한 실행을 기다려야 합니다.
  • 인증, 프록시, DNS, /elevated full 진실성은 여전히 PR B의 결정적 스위트에서 나옵니다. 따라서 최종 릴리스 주장에는 두 가지가 모두 필요합니다: 통과한 PR D 동등성 판정과 초록불인 PR B 진실성 범위.

strict-agentic를 활성화해야 하는 사람

다음과 같은 경우 strict-agentic를 사용하세요:
  • 다음 단계가 명확할 때 에이전트가 즉시 행동해야 하는 경우
  • GPT-5.5 또는 Codex 계열 모델이 기본 런타임인 경우
  • “도움이 되는” 요약 전용 응답보다 명시적인 차단 상태를 선호하는 경우
다음과 같은 경우 기본 계약을 유지하세요:
  • 기존의 더 느슨한 동작을 원하는 경우
  • GPT-5 계열 모델을 사용하지 않는 경우
  • 런타임 강제 적용보다 프롬프트를 테스트하는 경우

관련