Fundamentals

Пакет бенчмарків персонального агента

Пакет Personal Agent Benchmark Pack — це невеликий підкріплений репозиторієм пакет QA-сценаріїв для локальних робочих процесів персонального асистента. Це не загальний бенчмарк моделей, і він не потребує нового runner. Пакет повторно використовує приватний QA-стек, описаний в огляді QA, синтетичний QA channel і наявний YAML-каталог qa/scenarios.

Перший пакет навмисно вузький:

  • фейкові персональні нагадування через локальну доставку cron
  • фейкова маршрутизація DM і відповідей у тредах через qa-channel
  • фейкове пригадування налаштувань із тимчасових файлів памʼяті QA-робочого простору
  • фейкові перевірки секретів без повторення
  • безпечне виконання інструмента з підкріпленням читанням після короткого кроку в стилі затвердження
  • поведінка зупинки після відхилення затвердження для чутливого локального запиту на читання
  • звітування про стан завдання з підтвердженням доказами, яке розділяє pending, blocked і done
  • безпечні для поширення діагностичні артефакти, що зберігають корисний стан, але пропускають необроблений персональний вміст
  • твердження про завершення з підтвердженням доказами, які уникають фейкового прогресу до появи локальних доказів
  • відновлення після збоїв, яке повідомляє частковий стан і чітко зберігає межі повторних спроб

Сценарії

Машинно-читані метадані пакета розміщені в extensions/qa-lab/src/scenario-packs.ts. Запустіть пакет із --pack personal-agent:

bash
OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \  --provider-mode mock-openai \  --pack personal-agent \  --concurrency 1

--pack додається до повторюваних прапорців --scenario. Явно вказані сценарії запускаються першими, потім сценарії пакета виконуються в порядку QA_PERSONAL_AGENT_SCENARIO_IDS з вилученням дублікатів.

Пакет призначений для qa-channel з mock-openai або іншим локальним QA provider lane. Його не слід спрямовувати на живі чат-сервіси чи справжні персональні облікові записи.

Модель приватності

Сценарії використовують лише фейкових користувачів, фейкові налаштування, фейкові секрети та тимчасовий QA-робочий простір Gateway, створений suite. Вони не повинні читати або записувати справжню памʼять користувача OpenClaw, сесії, облікові дані, launch agents, глобальні конфіги або живий стан gateway.

Артефакти залишаються в наявному каталозі артефактів QA suite і мають розглядатися як тестовий вивід. Перевірки редагування використовують фейкові маркери, тому збої безпечно переглядати й додавати до issues.

Розширення пакета

Додавайте нові випадки .yaml у qa/scenarios/personal/, потім додайте ідентифікатор сценарію до QA_PERSONAL_AGENT_SCENARIO_IDS. Тримайте кожен випадок малим, локальним, детермінованим у mock-openai і зосередженим на одній поведінці персонального асистента.

Хороші кандидати для подальшої роботи:

  • перевірки експорту відредагованої траєкторії
  • перевірки робочих процесів plugin лише локально

Уникайте додавання нового runner, plugin, залежності, живого транспорту або model judge, доки каталог сценаріїв не матиме достатньо стабільних випадків, щоб виправдати таку поверхню.

Was this useful?
On this page

On this page