extensions/qa-channel: canal de mensajes sintético con superficies de MD, canal, hilo, reacción, edición y eliminación.extensions/qa-lab: interfaz de depuración y bus de QA para observar la transcripción, inyectar mensajes entrantes y exportar un informe en Markdown.qa/: recursos semilla respaldados por el repositorio para la tarea inicial y los escenarios base de QA.
- Izquierda: panel de Gateway (Control UI) con el agente.
- Derecha: QA Lab, mostrando la transcripción estilo Slack y el plan del escenario.
qa:lab:up:fast mantiene los servicios de Docker sobre una imagen precompilada y monta por bind
extensions/qa-lab/web/dist dentro del contenedor qa-lab. qa:lab:watch
recompila ese paquete cuando hay cambios, y el navegador se recarga automáticamente cuando cambia el hash de recursos de QA Lab.
Para una línea de smoke de Matrix con transporte real, ejecuta:
qa-channel en la configuración hija. Escribe los artefactos del informe estructurado y
un registro combinado de stdout/stderr en el directorio de salida de QA de Matrix seleccionado. Para
capturar también la salida externa de compilación/lanzamiento de scripts/run-node.mjs, establece
OPENCLAW_RUN_NODE_OUTPUT_LOG=<path> en un archivo de registro local al repositorio.
Para una línea de smoke de Telegram con transporte real, ejecuta:
OPENCLAW_QA_TELEGRAM_GROUP_ID,
OPENCLAW_QA_TELEGRAM_DRIVER_BOT_TOKEN y
OPENCLAW_QA_TELEGRAM_SUT_BOT_TOKEN, además de dos bots distintos en el mismo
grupo privado. El bot SUT debe tener un nombre de usuario de Telegram, y la observación
bot a bot funciona mejor cuando ambos bots tienen habilitado el modo de comunicación bot a bot
en @BotFather.
El comando termina con un código distinto de cero cuando falla cualquier escenario. Usa --allow-failures cuando
quieras artefactos sin un código de salida de fallo.
El informe y el resumen de Telegram incluyen RTT por respuesta desde la solicitud de envío
del mensaje del controlador hasta la respuesta observada del SUT, empezando por el canario.
Para una línea de smoke de Discord con transporte real, ejecuta:
OPENCLAW_QA_DISCORD_GUILD_ID, OPENCLAW_QA_DISCORD_CHANNEL_ID,
OPENCLAW_QA_DISCORD_DRIVER_BOT_TOKEN, OPENCLAW_QA_DISCORD_SUT_BOT_TOKEN
y OPENCLAW_QA_DISCORD_SUT_APPLICATION_ID cuando se usan credenciales de entorno.
La línea verifica el manejo de menciones de canal y comprueba que el bot SUT haya
registrado el comando nativo /help en Discord.
El comando termina con un código distinto de cero cuando falla cualquier escenario. Usa --allow-failures cuando
quieras artefactos sin un código de salida de fallo.
Las líneas de transporte en vivo ahora comparten un contrato más pequeño en lugar de que cada una invente
su propia forma de lista de escenarios:
qa-channel sigue siendo la suite amplia y sintética de comportamiento del producto y no forma parte
de la matriz de cobertura de transporte en vivo.
| Línea | Canario | Restricción por mención | Bloqueo por allowlist | Respuesta de nivel superior | Reanudación tras reinicio | Seguimiento de hilo | Aislamiento de hilo | Observación de reacciones | Comando help | Registro de comandos nativos |
|---|---|---|---|---|---|---|---|---|---|---|
| Matrix | x | x | x | x | x | x | x | x | ||
| Telegram | x | x | x | |||||||
| Discord | x | x | x |
qa-channel como la suite amplia de comportamiento del producto, mientras que Matrix,
Telegram y futuros transportes en vivo comparten una lista de verificación explícita de contrato de transporte.
Para una línea de VM Linux desechable sin introducir Docker en la ruta de QA, ejecuta:
qa suite y luego copia el informe y el resumen normales de QA
de vuelta a .artifacts/qa-e2e/... en el host.
Reutiliza el mismo comportamiento de selección de escenarios que qa suite en el host.
Las ejecuciones de suite en host y Multipass ejecutan varios escenarios seleccionados en paralelo
con workers de gateway aislados de forma predeterminada. qa-channel usa por defecto una concurrencia
de 4, limitada por el recuento de escenarios seleccionados. Usa --concurrency <count> para ajustar
el número de workers, o --concurrency 1 para ejecución en serie.
El comando termina con un código distinto de cero cuando falla cualquier escenario. Usa --allow-failures cuando
quieras artefactos sin un código de salida de fallo.
Las ejecuciones en vivo reenvían las entradas de autenticación de QA compatibles que son prácticas para el
invitado: claves de proveedor basadas en entorno, la ruta de configuración del proveedor en vivo de QA y
CODEX_HOME cuando está presente. Mantén --output-dir bajo la raíz del repositorio para que el invitado
pueda escribir de vuelta a través del espacio de trabajo montado.
Semillas respaldadas por el repositorio
Los recursos semilla viven enqa/:
qa/scenarios/index.mdqa/scenarios/<theme>/*.md
qa-lab debe seguir siendo un ejecutor genérico de Markdown. Cada archivo Markdown de escenario
es la fuente de verdad para una ejecución de prueba y debe definir:
- metadatos del escenario
- metadatos opcionales de categoría, capacidad, línea y riesgo
- referencias de documentación y código
- requisitos opcionales de Plugin
- parche opcional de configuración de gateway
- el
qa-flowejecutable
qa-flow puede seguir siendo genérica
y transversal. Por ejemplo, los escenarios Markdown pueden combinar ayudantes del lado del transporte
con ayudantes del lado del navegador que controlan la Control UI integrada a través del
seam browser.request de Gateway sin añadir un ejecutor de casos especiales.
Los archivos de escenario deben agruparse por capacidad del producto en lugar de por carpeta
del árbol de código fuente. Mantén estables los IDs de escenario cuando se muevan archivos; usa docsRefs y codeRefs
para la trazabilidad de implementación.
La lista base debe seguir siendo lo suficientemente amplia como para cubrir:
- chat de MD y de canal
- comportamiento de hilos
- ciclo de vida de acciones de mensaje
- devoluciones de llamada de Cron
- recuperación de memoria
- cambio de modelo
- transferencia a subagente
- lectura de repositorio y lectura de documentación
- una tarea pequeña de compilación como Lobster Invaders
Líneas mock de proveedor
qa suite tiene dos líneas mock de proveedor locales:
mock-openaies el mock de OpenClaw consciente del escenario. Sigue siendo la línea mock determinista predeterminada para QA respaldado por repositorio y controles de paridad.aimockinicia un servidor de proveedor respaldado por AIMock para cobertura experimental de protocolo, fixtures, grabación/reproducción y caos. Es aditivo y no reemplaza al despachador de escenariosmock-openai.
extensions/qa-lab/src/providers/.
Cada proveedor es propietario de sus valores predeterminados, el inicio de su servidor local, la configuración
del modelo de gateway, las necesidades de preparación de perfiles de autenticación y los indicadores de capacidad en vivo/mock. El código compartido de suite y gateway debe enrutar a través del registro de proveedores en lugar de ramificarse según los nombres de proveedor.
Adaptadores de transporte
qa-lab es propietario de un seam de transporte genérico para escenarios Markdown de QA.
qa-channel es el primer adaptador en ese seam, pero el objetivo del diseño es más amplio:
canales futuros, reales o sintéticos, deben conectarse al mismo ejecutor de suite
en lugar de añadir un ejecutor de QA específico de transporte.
A nivel de arquitectura, la división es:
qa-labes propietario de la ejecución genérica de escenarios, la concurrencia de workers, la escritura de artefactos y los informes.- el adaptador de transporte es propietario de la configuración de gateway, disponibilidad, observación de entrada y salida, acciones de transporte y estado de transporte normalizado.
- los archivos Markdown de escenario bajo
qa/scenarios/definen la ejecución de prueba;qa-labproporciona la superficie reutilizable del entorno de ejecución que los ejecuta.
Informes
qa-lab exporta un informe de protocolo en Markdown a partir de la cronología observada del bus.
El informe debe responder:
- Qué funcionó
- Qué falló
- Qué siguió bloqueado
- Qué escenarios de seguimiento merece la pena añadir
SOUL.md y luego ejecutar turnos ordinarios de usuario
como chat, ayuda sobre el espacio de trabajo y pequeñas tareas sobre archivos. No se debe decir al
modelo candidato que está siendo evaluado. El comando conserva cada transcripción completa,
registra estadísticas básicas de ejecución y luego pide a los modelos juez en modo rápido con
razonamiento xhigh, donde sea compatible, que clasifiquen las ejecuciones por naturalidad, estilo y humor.
Usa --blind-judge-models al comparar proveedores: el prompt del juez sigue recibiendo
cada transcripción y estado de ejecución, pero las referencias candidatas se reemplazan por
etiquetas neutrales como candidate-01; el informe vuelve a asignar las clasificaciones a las referencias reales después
del análisis.
Las ejecuciones candidatas usan por defecto thinking high, con medium para GPT-5.4 y xhigh
para referencias de evaluación antiguas de OpenAI que lo admiten. Sobrescribe un candidato específico inline con
--model provider/model,thinking=<level>. --thinking <level> sigue configurando un respaldo global, y la forma antigua --model-thinking <provider/model=level> se conserva por compatibilidad.
Las referencias candidatas de OpenAI usan por defecto el modo rápido para aprovechar el procesamiento prioritario donde
el proveedor lo admita. Añade ,fast, ,no-fast o ,fast=false inline cuando un
candidato o juez concreto necesite una sobrescritura. Pasa --fast solo cuando quieras
forzar el modo rápido para todos los modelos candidatos. Las duraciones de candidatos y jueces
se registran en el informe para análisis comparativo, pero los prompts de los jueces indican explícitamente
que no clasifiquen por velocidad.
Tanto las ejecuciones de modelos candidatos como las de jueces usan por defecto una concurrencia de 16. Reduce
--concurrency o --judge-concurrency cuando los límites del proveedor o la presión del gateway local
hagan que una ejecución sea demasiado ruidosa.
Cuando no se pasa ningún --model candidato, la evaluación de carácter usa por defecto
openai/gpt-5.4, openai/gpt-5.2, openai/gpt-5, anthropic/claude-opus-4-6,
anthropic/claude-sonnet-4-6, zai/glm-5.1,
moonshot/kimi-k2.5 y
google/gemini-3.1-pro-preview cuando no se pasa --model.
Cuando no se pasa --judge-model, los jueces usan por defecto
openai/gpt-5.4,thinking=xhigh,fast y
anthropic/claude-opus-4-6,thinking=high.