Fundamentals
Пакет бенчмарків персонального агента
Пакет Personal Agent Benchmark Pack — це невеликий підкріплений репозиторієм пакет QA-сценаріїв для
локальних робочих процесів персонального асистента. Це не загальний бенчмарк моделей, і він
не потребує нового runner. Пакет повторно використовує приватний QA-стек, описаний в
огляді QA, синтетичний
QA channel і наявний YAML-каталог qa/scenarios.
Перший пакет навмисно вузький:
- фейкові персональні нагадування через локальну доставку cron
- фейкова маршрутизація DM і відповідей у тредах через
qa-channel - фейкове пригадування налаштувань із тимчасових файлів памʼяті QA-робочого простору
- фейкові перевірки секретів без повторення
- безпечне виконання інструмента з підкріпленням читанням після короткого кроку в стилі затвердження
- поведінка зупинки після відхилення затвердження для чутливого локального запиту на читання
- звітування про стан завдання з підтвердженням доказами, яке розділяє pending, blocked і done
- безпечні для поширення діагностичні артефакти, що зберігають корисний стан, але пропускають необроблений персональний вміст
- твердження про завершення з підтвердженням доказами, які уникають фейкового прогресу до появи локальних доказів
- відновлення після збоїв, яке повідомляє частковий стан і чітко зберігає межі повторних спроб
Сценарії
Машинно-читані метадані пакета розміщені в
extensions/qa-lab/src/scenario-packs.ts. Запустіть пакет із
--pack personal-agent:
OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \ --provider-mode mock-openai \ --pack personal-agent \ --concurrency 1--pack додається до повторюваних прапорців --scenario. Явно вказані сценарії запускаються
першими, потім сценарії пакета виконуються в порядку QA_PERSONAL_AGENT_SCENARIO_IDS з
вилученням дублікатів.
Пакет призначений для qa-channel з mock-openai або іншим локальним QA
provider lane. Його не слід спрямовувати на живі чат-сервіси чи справжні персональні
облікові записи.
Модель приватності
Сценарії використовують лише фейкових користувачів, фейкові налаштування, фейкові секрети та тимчасовий QA-робочий простір Gateway, створений suite. Вони не повинні читати або записувати справжню памʼять користувача OpenClaw, сесії, облікові дані, launch agents, глобальні конфіги або живий стан gateway.
Артефакти залишаються в наявному каталозі артефактів QA suite і мають розглядатися як тестовий вивід. Перевірки редагування використовують фейкові маркери, тому збої безпечно переглядати й додавати до issues.
Розширення пакета
Додавайте нові випадки .yaml у qa/scenarios/personal/, потім додайте ідентифікатор сценарію
до QA_PERSONAL_AGENT_SCENARIO_IDS. Тримайте кожен випадок малим, локальним, детермінованим
у mock-openai і зосередженим на одній поведінці персонального асистента.
Хороші кандидати для подальшої роботи:
- перевірки експорту відредагованої траєкторії
- перевірки робочих процесів plugin лише локально
Уникайте додавання нового runner, plugin, залежності, живого транспорту або model judge, доки каталог сценаріїв не матиме достатньо стабільних випадків, щоб виправдати таку поверхню.