Saltar al contenido principal
Esta nota explica cómo revisar el programa de paridad GPT-5.4 / Codex como cuatro unidades de fusión sin perder la arquitectura original de seis contratos.

Unidades de fusión

PR A: ejecución estrictamente agéntica

Se encarga de:
  • executionContract
  • continuación en el mismo turno con prioridad GPT-5
  • update_plan como seguimiento de progreso no terminal
  • estados bloqueados explícitos en lugar de detenciones silenciosas solo de plan
No se encarga de:
  • clasificación de fallos de autenticación/tiempo de ejecución
  • veracidad de permisos
  • rediseño de repetición/continuación
  • evaluación comparativa de paridad

PR B: veracidad del tiempo de ejecución

Se encarga de:
  • corrección de alcances de OAuth de Codex
  • clasificación tipada de fallos de proveedor/tiempo de ejecución
  • disponibilidad veraz de /elevated full y motivos de bloqueo
No se encarga de:
  • normalización del esquema de herramientas
  • estado de repetición/vivacidad
  • filtros de evaluación comparativa

PR C: corrección de ejecución

Se encarga de:
  • compatibilidad de herramientas OpenAI/Codex propiedad del proveedor
  • manejo estricto de esquemas sin parámetros
  • exposición de repetición no válida
  • visibilidad del estado de tareas largas pausadas, bloqueadas y abandonadas
No se encarga de:
  • continuación autoelegida
  • comportamiento genérico del dialecto Codex fuera de los hooks del proveedor
  • filtros de evaluación comparativa

PR D: harness de paridad

Se encarga de:
  • primer paquete de escenarios GPT-5.4 vs Opus 4.6
  • documentación de paridad
  • mecánica de informe de paridad y filtro de liberación
No se encarga de:
  • cambios de comportamiento en tiempo de ejecución fuera de QA-lab
  • simulación de autenticación/proxy/DNS dentro del harness

Relación con los seis contratos originales

Contrato originalUnidad de fusión
Corrección del transporte/autenticación del proveedorPR B
Compatibilidad de contrato/esquema de herramientasPR C
Ejecución en el mismo turnoPR A
Veracidad de permisosPR B
Corrección de repetición/continuación/vivacidadPR C
Evaluación comparativa/filtro de liberaciónPR D

Orden de revisión

  1. PR A
  2. PR B
  3. PR C
  4. PR D
PR D es la capa de prueba. No debe ser la razón por la que se retrasen los PR de corrección del tiempo de ejecución.

Qué buscar

PR A

  • las ejecuciones de GPT-5 actúan o fallan de forma segura en lugar de detenerse en comentarios
  • update_plan ya no parece progreso por sí solo
  • el comportamiento sigue teniendo prioridad GPT-5 y está limitado a Pi incrustado

PR B

  • los fallos de autenticación/proxy/tiempo de ejecución dejan de colapsar en un manejo genérico de “model failed”
  • /elevated full solo se describe como disponible cuando realmente lo está
  • los motivos de bloqueo son visibles tanto para el modelo como para el tiempo de ejecución orientado al usuario

PR C

  • el registro estricto de herramientas OpenAI/Codex se comporta de forma predecible
  • las herramientas sin parámetros no fallan en las comprobaciones estrictas del esquema
  • los resultados de repetición y Compaction conservan un estado de vivacidad veraz

PR D

  • el paquete de escenarios es comprensible y reproducible
  • el paquete incluye una vía de seguridad de repetición con mutación, no solo flujos de solo lectura
  • los informes son legibles por humanos y por automatización
  • las afirmaciones de paridad están respaldadas por evidencias, no por anécdotas
Artefactos esperados de PR D:
  • qa-suite-report.md / qa-suite-summary.json para cada ejecución de modelo
  • qa-agentic-parity-report.md con comparación agregada y por escenario
  • qa-agentic-parity-summary.json con un veredicto legible por máquina

Filtro de liberación

No afirmes paridad ni superioridad de GPT-5.4 sobre Opus 4.6 hasta que:
  • PR A, PR B y PR C estén fusionados
  • PR D ejecute limpiamente el primer paquete de paridad
  • los paquetes de regresión de veracidad del tiempo de ejecución sigan en verde
  • el informe de paridad no muestre casos de falso éxito ni regresión en el comportamiento de parada
El harness de paridad no es la única fuente de evidencia. Mantén explícita esta división en la revisión:
  • PR D se encarga de la comparación por escenarios GPT-5.4 vs Opus 4.6
  • los paquetes deterministas de PR B siguen siendo responsables de la evidencia de autenticación/proxy/DNS y veracidad de acceso completo

Mapa de objetivo a evidencia

Elemento del filtro de finalizaciónResponsable principalArtefacto de revisión
Sin bloqueos solo de planPR Apruebas de tiempo de ejecución estrictamente agéntico y approval-turn-tool-followthrough
Sin progreso falso ni finalización falsa de herramientasPR A + PR Drecuento de falso éxito de paridad más detalles del informe por escenario
Sin orientación falsa de /elevated fullPR Bpaquetes deterministas de veracidad del tiempo de ejecución
Los fallos de repetición/vivacidad siguen siendo explícitosPR C + PR Dpaquetes de ciclo de vida/repetición más compaction-retry-mutating-tool
GPT-5.4 iguala o supera a Opus 4.6PR Dqa-agentic-parity-report.md y qa-agentic-parity-summary.json

Abreviatura para revisores: antes vs después

Problema visible para el usuario antesSeñal de revisión después
GPT-5.4 se detenía después de planificarPR A muestra comportamiento de actuar o bloquearse en lugar de finalización solo con comentarios
El uso de herramientas parecía frágil con esquemas estrictos OpenAI/CodexPR C mantiene predecibles el registro de herramientas y la invocación sin parámetros
Las pistas de /elevated full a veces eran engañosasPR B vincula la orientación a la capacidad real de tiempo de ejecución y a los motivos de bloqueo
Las tareas largas podían desaparecer en la ambigüedad de repetición/CompactionPR C emite estados explícitos de pausa, bloqueo, abandono y repetición no válida
Las afirmaciones de paridad eran anecdóticasPR D produce un informe más un veredicto JSON con la misma cobertura de escenarios en ambos modelos

Relacionado