Fundamentals

Pack de benchmarks pour agent personnel

Le pack Personal Agent Benchmark est un petit pack de scénarios QA adossé à un dépôt pour les workflows d’assistant personnel local. Ce n’est pas un benchmark de modèle générique et il ne nécessite pas de nouvel exécuteur. Le pack réutilise la pile QA privée décrite dans la vue d’ensemble QA, le canal QA synthétique, ainsi que le catalogue YAML qa/scenarios existant.

Le premier pack est volontairement restreint :

faux rappels personnels via distribution Cron locale
routage de faux messages directs et de réponses de fils via qa-channel
rappel de fausses préférences depuis les fichiers de mémoire temporaires de l’espace de travail QA
fausses vérifications de secrets sans réémission
suivi sûr d’outil fondé sur une lecture après un court tour de type approbation
comportement d’arrêt sur refus d’approbation pour une demande sensible de lecture locale
rapport d’état de tâche étayé par des preuves qui garde séparés les états en attente, bloqués et terminés
artefacts de diagnostic partageables en sécurité qui conservent un état utile tout en omettant le contenu personnel brut
déclarations d’achèvement étayées par des preuves qui évitent les faux progrès avant l’existence de preuves locales
récupération après échec qui signale un état partiel et garde des limites de nouvelle tentative claires

Scénarios

Les métadonnées lisibles par machine du pack se trouvent dans extensions/qa-lab/src/scenario-packs.ts. Exécutez le pack avec --pack personal-agent :

bash

OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \  --provider-mode mock-openai \  --pack personal-agent \  --concurrency 1

--pack est additif avec les indicateurs --scenario répétés. Les scénarios explicites s’exécutent d’abord, puis les scénarios du pack s’exécutent dans l’ordre de QA_PERSONAL_AGENT_SCENARIO_IDS, avec les doublons supprimés.

Le pack est conçu pour qa-channel avec mock-openai ou une autre voie de fournisseur QA locale. Il ne doit pas être dirigé vers des services de discussion en direct ni de vrais comptes personnels.

Modèle de confidentialité

Les scénarios utilisent uniquement de faux utilisateurs, de fausses préférences, de faux secrets et l’espace de travail Gateway QA temporaire créé par la suite. Ils ne doivent ni lire ni écrire la mémoire, les sessions, les identifiants, les agents de lancement, les configurations globales ou l’état Gateway en direct de vrais utilisateurs OpenClaw.

Les artefacts restent dans le répertoire d’artefacts existant de la suite QA et doivent être traités comme une sortie de test. Les vérifications de caviardage utilisent de faux marqueurs afin que les échecs soient sûrs à inspecter et à consigner dans les issues.

Étendre le pack

Ajoutez de nouveaux cas .yaml sous qa/scenarios/personal/, puis ajoutez l’identifiant de scénario à QA_PERSONAL_AGENT_SCENARIO_IDS. Gardez chaque cas petit, local, déterministe dans mock-openai, et centré sur un seul comportement d’assistant personnel.

Bons candidats de suivi :

vérifications d’export de trajectoire caviardée
vérifications de workflow Plugin local uniquement

Évitez d’ajouter un nouvel exécuteur, Plugin, dépendance, transport en direct ou juge de modèle tant que le catalogue de scénarios ne contient pas assez de cas stables pour justifier cette surface.

Was this useful?

Pack de benchmarks pour agent personnel

Scénarios

Modèle de confidentialité

Étendre le pack

On this page

Molty