Fundamentals
個人エージェントのベンチマークパック
Personal Agent Benchmark Pack は、ローカルのパーソナルアシスタントワークフロー向けの小さな repo-backed QA シナリオパックです。汎用的なモデルベンチマークではなく、新しいランナーも必要ありません。このパックは、QA 概要、合成 QA チャネル、既存の qa/scenarios YAML カタログで説明されているプライベート QA スタックを再利用します。
最初のパックは意図的に範囲を絞っています。
- ローカル cron 配信による偽の個人リマインダー
qa-channelによる偽の DM とスレッド返信ルーティング- 一時 QA ワークスペースのメモリファイルからの偽の設定リコール
- 偽のシークレットをエコーしないチェック
- 短い承認形式のターン後の、安全な読み取りに裏付けられたツールのフォロースルー
- 機密性の高いローカル読み取りリクエストに対する承認拒否時の停止動作
- pending、blocked、done を分離したままにする、証拠に裏付けられたタスクステータス報告
- 生の個人コンテンツを省略しつつ有用なステータスを保持する、共有しても安全な診断アーティファクト
- ローカル証拠が存在する前の偽の進捗を避ける、証拠に裏付けられた完了主張
- 部分的なステータスを報告し、リトライ境界を明確に保つ障害復旧
シナリオ
機械可読なパックメタデータは
extensions/qa-lab/src/scenario-packs.ts にあります。--pack personal-agent でパックを実行します。
OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \ --provider-mode mock-openai \ --pack personal-agent \ --concurrency 1--pack は繰り返し指定した --scenario フラグに追加されます。明示的なシナリオが先に実行され、その後、重複を削除したうえで QA_PERSONAL_AGENT_SCENARIO_IDS の順序でパックシナリオが実行されます。
このパックは、mock-openai または別のローカル QA プロバイダーレーンと併用する qa-channel 向けに設計されています。ライブチャットサービスや実際の個人アカウントを対象にしてはいけません。
プライバシーモデル
シナリオは、偽のユーザー、偽の設定、偽のシークレット、スイートによって作成される一時 QA gateway ワークスペースのみを使用します。実際の OpenClaw ユーザーメモリ、セッション、認証情報、launch agent、グローバル設定、ライブ gateway 状態を読み書きしてはいけません。
アーティファクトは既存の QA スイートアーティファクトディレクトリ配下に残り、テスト出力として扱う必要があります。編集チェックは偽のマーカーを使用するため、失敗しても安全に調査して issue に記録できます。
パックの拡張
qa/scenarios/personal/ 配下に新しい .yaml ケースを追加し、そのシナリオ ID を QA_PERSONAL_AGENT_SCENARIO_IDS に追加します。各ケースは小さく、ローカルで、mock-openai において決定的で、1 つのパーソナルアシスタント動作に集中させてください。
有力なフォローアップ候補:
- 編集済み trajectory エクスポートのチェック
- ローカル専用 Plugin ワークフローのチェック
シナリオカタログに、その surface を正当化できるだけの安定したケースが十分に揃うまでは、新しいランナー、Plugin、依存関係、ライブ transport、モデル judge を追加しないでください。