OpenClaw에서의 GPT-5.5 / Codex 에이전트형 동등성
OpenClaw는 이미 도구를 사용하는 프런티어 모델과 잘 작동했지만, GPT-5.5와 Codex 스타일 모델은 여전히 몇 가지 실질적인 측면에서 성능이 부족했습니다:- 작업을 수행하는 대신 계획만 세우고 멈출 수 있었습니다
- strict OpenAI/Codex 도구 스키마를 잘못 사용할 수 있었습니다
- 전체 액세스가 불가능한 경우에도
/elevated full을 요청할 수 있었습니다 - replay 또는 Compaction 중 장기 실행 작업 상태를 잃을 수 있었습니다
- Claude Opus 4.6과의 동등성 주장은 반복 가능한 시나리오가 아닌 일화에 기반해 있었습니다
변경된 내용
PR A: strict-agentic 실행
이 슬라이스는 임베디드 Pi GPT-5 실행을 위한 옵트인strict-agentic 실행 계약을 추가합니다.
활성화되면 OpenClaw는 더 이상 계획만 있는 턴을 “충분히 괜찮은” 완료로 받아들이지 않습니다. 모델이 단지 무엇을 하려는지만 말하고 실제로 도구를 사용하거나 진전을 보이지 않으면, OpenClaw는 즉시 행동하라는 steer와 함께 재시도한 다음 작업을 조용히 끝내는 대신 명시적인 차단 상태로 fail-closed 처리합니다.
이 변경은 다음 상황에서 GPT-5.5 경험을 특히 개선합니다:
- 짧은 “ok do it” 후속 요청
- 첫 단계가 명확한 코드 작업
update_plan이 채우기용 텍스트가 아니라 진행 상황 추적이어야 하는 흐름
PR B: 런타임 진실성
이 슬라이스는 OpenClaw가 두 가지에 대해 사실대로 말하도록 만듭니다:- 제공업체/런타임 호출이 실패한 이유
/elevated full이 실제로 사용 가능한지 여부
PR C: 실행 정확성
이 슬라이스는 두 가지 유형의 정확성을 개선합니다:- 제공업체 소유 OpenAI/Codex 도구 스키마 호환성
- replay 및 장기 작업 활성 상태 노출
PR D: 동등성 harness
이 슬라이스는 GPT-5.5와 Opus 4.6을 동일한 시나리오로 실행하고 공유된 증거를 사용해 비교할 수 있도록 첫 번째 QA-lab 동등성 팩을 추가합니다. 동등성 팩은 증명 계층입니다. 자체적으로 런타임 동작을 변경하지는 않습니다. 두 개의qa-suite-summary.json 아티팩트가 준비되면, 다음 명령으로 릴리스 게이트 비교를 생성하세요:
- 사람이 읽을 수 있는 Markdown 보고서
- 기계가 읽을 수 있는 JSON 판정
- 명시적인
pass/fail게이트 결과
이것이 실제로 GPT-5.5를 개선하는 이유
이 작업 이전에는 OpenClaw의 GPT-5.5가 실제 코딩 세션에서 Opus보다 덜 에이전트형으로 느껴질 수 있었습니다. 런타임이 GPT-5 스타일 모델에 특히 해로운 동작을 허용했기 때문입니다:- 설명만 하는 턴
- 도구 주변의 스키마 마찰
- 모호한 권한 피드백
- 조용한 replay 또는 Compaction 손상
- “모델이 좋은 계획을 세웠지만 멈췄다”
- “모델이 실제로 행동했거나, 그렇지 못한 정확한 이유를 OpenClaw가 표시했다”
GPT-5.5 사용자 관점의 전후 비교
| 이 프로그램 이전 | PR A-D 이후 |
|---|---|
| GPT-5.5는 타당한 계획을 세운 뒤 다음 도구 단계를 수행하지 않고 멈출 수 있었습니다 | PR A는 “계획만”을 “즉시 행동하거나 차단 상태를 표시”로 바꿉니다 |
| strict 도구 스키마는 매개변수가 없는 도구나 OpenAI/Codex 형태의 도구를 혼란스럽게 거부할 수 있었습니다 | PR C는 제공업체 소유 도구 등록 및 호출을 더 예측 가능하게 만듭니다 |
/elevated full 안내가 차단된 런타임에서 모호하거나 잘못될 수 있었습니다 | PR B는 GPT-5.5와 사용자에게 사실에 기반한 런타임 및 권한 힌트를 제공합니다 |
| replay 또는 Compaction 실패는 작업이 조용히 사라진 것처럼 느껴질 수 있었습니다 | PR C는 일시 중지, 차단, 버려짐, replay-invalid 결과를 명시적으로 표시합니다 |
| “GPT-5.5가 Opus보다 나쁘게 느껴진다”는 평가는 대부분 일화에 불과했습니다 | PR D는 이를 동일한 시나리오 팩, 동일한 메트릭, 강제적인 pass/fail 게이트로 바꿉니다 |
아키텍처
릴리스 흐름
시나리오 팩
현재 첫 번째 동등성 팩은 다섯 가지 시나리오를 다룹니다:approval-turn-tool-followthrough
짧은 승인 후 모델이 “그렇게 하겠습니다”에서 멈추지 않는지 확인합니다. 같은 턴에서 첫 번째 구체적인 동작을 수행해야 합니다.
model-switch-tool-continuity
도구를 사용하는 작업이 모델/런타임 전환 경계에서도 일관성을 유지하는지, 설명으로 되돌아가거나 실행 컨텍스트를 잃지 않는지 확인합니다.
source-docs-discovery-report
모델이 소스와 문서를 읽고, 결과를 종합하고, 얇은 요약만 내놓고 일찍 멈추는 대신 에이전트형으로 작업을 계속할 수 있는지 확인합니다.
image-understanding-attachment
첨부 파일이 포함된 혼합 모드 작업이 계속 실행 가능하게 유지되고 모호한 서술로 무너지지 않는지 확인합니다.
compaction-retry-mutating-tool
실제 변경 쓰기가 포함된 작업이 Compaction, 재시도 또는 압박 상황에서 응답 상태를 잃더라도 replay 안전한 것처럼 조용히 보이지 않고 replay 불안전성을 명시적으로 유지하는지 확인합니다.
시나리오 매트릭스
| 시나리오 | 테스트 내용 | 바람직한 GPT-5.5 동작 | 실패 신호 |
|---|---|---|---|
approval-turn-tool-followthrough | 계획 이후의 짧은 승인 턴 | 의도를 다시 말하는 대신 즉시 첫 번째 구체적인 도구 동작을 시작함 | 계획만 있는 후속 턴, 도구 활동 없음, 또는 실제 차단 요인 없는 차단된 턴 |
model-switch-tool-continuity | 도구 사용 중 런타임/모델 전환 | 작업 컨텍스트를 유지하고 일관되게 계속 행동함 | 설명으로 초기화됨, 도구 컨텍스트 상실, 또는 전환 후 중단 |
source-docs-discovery-report | 소스 읽기 + 종합 + 동작 | 소스를 찾고 도구를 사용하며 멈추지 않고 유용한 보고서를 생성함 | 얇은 요약, 누락된 도구 작업, 또는 미완료 턴 중단 |
image-understanding-attachment | 첨부 파일 기반 에이전트형 작업 | 첨부 파일을 해석하고 도구와 연결하며 작업을 계속함 | 모호한 서술, 첨부 파일 무시, 또는 구체적인 다음 동작 없음 |
compaction-retry-mutating-tool | Compaction 압박 하에서의 변경 작업 | 실제 쓰기를 수행하고 부작용 이후에도 replay 불안전성을 명시적으로 유지함 | 변경 쓰기는 발생했지만 replay 안전성이 암시되거나 누락되거나 모순됨 |
릴리스 게이트
GPT-5.5는 병합된 런타임이 동등성 팩과 런타임 진실성 회귀를 동시에 통과할 때만 동등하거나 더 낫다고 간주할 수 있습니다. 필수 결과:- 다음 도구 동작이 명확할 때 계획만 세우고 멈추지 않을 것
- 실제 실행 없이 완료된 것처럼 보이지 않을 것
- 잘못된
/elevated full안내가 없을 것 - 조용한 replay 또는 Compaction 중단이 없을 것
- 동의된 Opus 4.6 기준선과 최소한 동일한 수준의 동등성 팩 메트릭을 가질 것
- 완료율
- 의도치 않은 중단율
- 유효한 도구 호출 비율
- 가짜 성공 수
- PR D는 QA-lab을 통해 동일 시나리오에서 GPT-5.5 대 Opus 4.6 동작을 증명합니다
- PR B의 결정적 스위트는 harness 밖에서 인증, 프록시, DNS,
/elevated full진실성을 증명합니다
목표-증거 매트릭스
| 완료 게이트 항목 | 담당 PR | 증거 소스 | 통과 신호 |
|---|---|---|---|
| GPT-5.5가 더 이상 계획 후 멈추지 않음 | PR A | approval-turn-tool-followthrough 및 PR A 런타임 스위트 | 승인 턴이 실제 작업 또는 명시적인 차단 상태를 유발함 |
| GPT-5.5가 더 이상 진전이나 도구 완료를 가장하지 않음 | PR A + PR D | 동등성 보고서 시나리오 결과 및 가짜 성공 수 | 수상한 통과 결과가 없고 설명만 있는 완료가 없음 |
GPT-5.5가 더 이상 잘못된 /elevated full 안내를 하지 않음 | PR B | 결정적 진실성 스위트 | 차단 이유와 전체 액세스 힌트가 런타임에 맞게 정확하게 유지됨 |
| Replay/활성 상태 실패가 계속 명시적으로 유지됨 | PR C + PR D | PR C 수명 주기/replay 스위트 및 compaction-retry-mutating-tool | 변경 작업이 조용히 사라지는 대신 replay 불안전성을 명시적으로 유지함 |
| GPT-5.5가 합의된 메트릭에서 Opus 4.6과 같거나 더 나음 | PR D | qa-agentic-parity-report.md 및 qa-agentic-parity-summary.json | 동일한 시나리오 범위를 갖고 완료, 중단 동작, 유효한 도구 사용에서 회귀가 없음 |
동등성 판정 읽는 방법
첫 번째 동등성 팩의 최종 기계 판독 결정으로qa-agentic-parity-summary.json의 판정을 사용하세요.
pass는 GPT-5.5가 Opus 4.6과 동일한 시나리오를 다뤘고 합의된 집계 메트릭에서 회귀하지 않았음을 의미합니다.fail은 하나 이상의 하드 게이트가 작동했음을 의미합니다: 더 약한 완료율, 더 나쁜 의도치 않은 중단, 더 약한 유효 도구 사용, 가짜 성공 사례 발생, 또는 일치하지 않는 시나리오 범위.- “shared/base CI issue”는 그 자체로 동등성 결과가 아닙니다. PR D 외부의 CI 노이즈가 실행을 막는 경우, 판정은 브랜치 시기의 로그에서 추론하는 대신 병합된 런타임의 깨끗한 실행을 기다려야 합니다.
- 인증, 프록시, DNS,
/elevated full진실성은 여전히 PR B의 결정적 스위트에서 나옵니다. 따라서 최종 릴리스 주장에는 두 가지가 모두 필요합니다: 통과한 PR D 동등성 판정과 초록불인 PR B 진실성 범위.
strict-agentic를 활성화해야 하는 사람
다음과 같은 경우 strict-agentic를 사용하세요:
- 다음 단계가 명확할 때 에이전트가 즉시 행동해야 하는 경우
- GPT-5.5 또는 Codex 계열 모델이 기본 런타임인 경우
- “도움이 되는” 요약 전용 응답보다 명시적인 차단 상태를 선호하는 경우
- 기존의 더 느슨한 동작을 원하는 경우
- GPT-5 계열 모델을 사용하지 않는 경우
- 런타임 강제 적용보다 프롬프트를 테스트하는 경우