Fundamentals

Pakiet benchmarków osobistego agenta

Personal Agent Benchmark Pack to mały, wspierany przez repozytorium pakiet scenariuszy QA dla lokalnych przepływów pracy osobistego asystenta. Nie jest to ogólny benchmark modeli i nie wymaga nowego runnera. Pakiet ponownie używa prywatnego stosu QA opisanego w omówieniu QA, syntetycznego kanału QA oraz istniejącego katalogu YAML qa/scenarios.

Pierwszy pakiet jest celowo wąski:

fikcyjne osobiste przypomnienia przez lokalne dostarczanie cron
fikcyjne trasowanie DM i odpowiedzi w wątkach przez qa-channel
fikcyjne przywoływanie preferencji z tymczasowych plików pamięci obszaru roboczego QA
fikcyjne kontrole braku echa sekretów
bezpieczna kontynuacja użycia narzędzia oparta na odczycie po krótkiej turze w stylu zatwierdzenia
zachowanie zatrzymania po odmowie zatwierdzenia dla wrażliwego lokalnego żądania odczytu
raportowanie statusu zadania oparte na dowodach, które oddziela oczekujące, zablokowane i ukończone
artefakty diagnostyczne bezpieczne do udostępniania, które zachowują przydatny status, pomijając surową treść osobistą
deklaracje ukończenia oparte na dowodach, które unikają fałszywego postępu przed pojawieniem się lokalnych dowodów
odzyskiwanie po awarii, które raportuje częściowy status i utrzymuje jasne granice ponownych prób

Scenariusze

Metadane pakietu czytelne maszynowo znajdują się w extensions/qa-lab/src/scenario-packs.ts. Uruchom pakiet z --pack personal-agent:

bash

OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \  --provider-mode mock-openai \  --pack personal-agent \  --concurrency 1

--pack działa addytywnie z powtórzonymi flagami --scenario. Jawnie wskazane scenariusze uruchamiają się najpierw, a potem scenariusze pakietu uruchamiają się w kolejności QA_PERSONAL_AGENT_SCENARIO_IDS z usuniętymi duplikatami.

Pakiet jest zaprojektowany dla qa-channel z mock-openai albo inną lokalną ścieżką dostawcy QA. Nie należy kierować go do usług czatu na żywo ani prawdziwych kont osobistych.

Model Prywatności

Scenariusze używają tylko fikcyjnych użytkowników, fikcyjnych preferencji, fikcyjnych sekretów i tymczasowego obszaru roboczego Gateway QA tworzonego przez zestaw. Nie mogą odczytywać ani zapisywać prawdziwej pamięci użytkownika OpenClaw, sesji, poświadczeń, agentów uruchamiania, konfiguracji globalnych ani stanu Gateway na żywo.

Artefakty pozostają w istniejącym katalogu artefaktów zestawu QA i należy je traktować jak wynik testów. Kontrole redakcji używają fikcyjnych markerów, więc awarie można bezpiecznie sprawdzać i zgłaszać w issue.

Rozszerzanie Pakietu

Dodaj nowe przypadki .yaml w qa/scenarios/personal/, a następnie dodaj identyfikator scenariusza do QA_PERSONAL_AGENT_SCENARIO_IDS. Każdy przypadek powinien być mały, lokalny, deterministyczny w mock-openai i skupiony na jednym zachowaniu osobistego asystenta.

Dobre kandydatury do dalszych prac:

kontrole eksportu trajektorii z redakcją
kontrole przepływów pracy Plugin wyłącznie lokalnych

Unikaj dodawania nowego runnera, Plugin, zależności, transportu na żywo lub sędziego modelu, dopóki katalog scenariuszy nie będzie miał wystarczająco wielu stabilnych przypadków, aby uzasadnić taką powierzchnię.

Was this useful?

Pakiet benchmarków osobistego agenta

Scenariusze

Model Prywatności

Rozszerzanie Pakietu

On this page

Molty