Fundamentals

Пакет бенчмарків персонального агента

Пакет Personal Agent Benchmark Pack — це невеликий підкріплений репозиторієм пакет QA-сценаріїв для локальних робочих процесів персонального асистента. Це не загальний бенчмарк моделей, і він не потребує нового runner. Пакет повторно використовує приватний QA-стек, описаний в огляді QA, синтетичний QA channel і наявний YAML-каталог qa/scenarios.

Перший пакет навмисно вузький:

фейкові персональні нагадування через локальну доставку cron
фейкова маршрутизація DM і відповідей у тредах через qa-channel
фейкове пригадування налаштувань із тимчасових файлів памʼяті QA-робочого простору
фейкові перевірки секретів без повторення
безпечне виконання інструмента з підкріпленням читанням після короткого кроку в стилі затвердження
поведінка зупинки після відхилення затвердження для чутливого локального запиту на читання
звітування про стан завдання з підтвердженням доказами, яке розділяє pending, blocked і done
безпечні для поширення діагностичні артефакти, що зберігають корисний стан, але пропускають необроблений персональний вміст
твердження про завершення з підтвердженням доказами, які уникають фейкового прогресу до появи локальних доказів
відновлення після збоїв, яке повідомляє частковий стан і чітко зберігає межі повторних спроб

Сценарії

Машинно-читані метадані пакета розміщені в extensions/qa-lab/src/scenario-packs.ts. Запустіть пакет із --pack personal-agent:

bash

OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \  --provider-mode mock-openai \  --pack personal-agent \  --concurrency 1

--pack додається до повторюваних прапорців --scenario. Явно вказані сценарії запускаються першими, потім сценарії пакета виконуються в порядку QA_PERSONAL_AGENT_SCENARIO_IDS з вилученням дублікатів.

Пакет призначений для qa-channel з mock-openai або іншим локальним QA provider lane. Його не слід спрямовувати на живі чат-сервіси чи справжні персональні облікові записи.

Модель приватності

Сценарії використовують лише фейкових користувачів, фейкові налаштування, фейкові секрети та тимчасовий QA-робочий простір Gateway, створений suite. Вони не повинні читати або записувати справжню памʼять користувача OpenClaw, сесії, облікові дані, launch agents, глобальні конфіги або живий стан gateway.

Артефакти залишаються в наявному каталозі артефактів QA suite і мають розглядатися як тестовий вивід. Перевірки редагування використовують фейкові маркери, тому збої безпечно переглядати й додавати до issues.

Розширення пакета

Додавайте нові випадки .yaml у qa/scenarios/personal/, потім додайте ідентифікатор сценарію до QA_PERSONAL_AGENT_SCENARIO_IDS. Тримайте кожен випадок малим, локальним, детермінованим у mock-openai і зосередженим на одній поведінці персонального асистента.

Хороші кандидати для подальшої роботи:

перевірки експорту відредагованої траєкторії
перевірки робочих процесів plugin лише локально

Уникайте додавання нового runner, plugin, залежності, живого транспорту або model judge, доки каталог сценаріїв не матиме достатньо стабільних випадків, щоб виправдати таку поверхню.

Was this useful?

Пакет бенчмарків персонального агента

Сценарії

Модель приватності

Розширення пакета

On this page

Molty