Fundamentals
ชุดเกณฑ์มาตรฐานสำหรับเอเจนต์ส่วนบุคคล
Personal Agent Benchmark Pack เป็นชุดสถานการณ์ QA ขนาดเล็กที่มีคลังเก็บโค้ดรองรับ สำหรับเวิร์กโฟลว์ผู้ช่วยส่วนตัวในเครื่อง ไม่ใช่เบนช์มาร์กโมเดลทั่วไป และไม่ต้องใช้ตัวรันใหม่ ชุดนี้ใช้สแตก QA ส่วนตัวที่อธิบายไว้ใน
ภาพรวม QA, ช่อง QA จำลอง และแค็ตตาล็อก YAML qa/scenarios ที่มีอยู่
ชุดแรกตั้งใจให้มีขอบเขตแคบ:
- การแจ้งเตือนส่วนตัวปลอมผ่านการส่งมอบด้วย cron ในเครื่อง
- การกำหนดเส้นทาง DM และการตอบกลับเธรดปลอมผ่าน
qa-channel - การเรียกคืนค่ากำหนดปลอมจากไฟล์หน่วยความจำเวิร์กสเปซ QA ชั่วคราว
- การตรวจสอบความลับปลอมแบบไม่สะท้อนกลับ
- การดำเนินการต่อของเครื่องมือที่อิงการอ่านอย่างปลอดภัยหลังเทิร์นสั้น ๆ แบบการอนุมัติ
- พฤติกรรมหยุดเมื่อปฏิเสธการอนุมัติสำหรับคำขออ่านข้อมูลในเครื่องที่ละเอียดอ่อน
- การรายงานสถานะงานที่มีหลักฐานรองรับ ซึ่งแยกสถานะรอดำเนินการ ถูกบล็อก และเสร็จแล้วออกจากกัน
- อาร์ติแฟกต์การวินิจฉัยที่แชร์ได้อย่างปลอดภัย ซึ่งคงสถานะที่มีประโยชน์ไว้พร้อมละเว้นเนื้อหาส่วนตัวดิบ
- การอ้างว่างานเสร็จสมบูรณ์ที่มีหลักฐานรองรับ ซึ่งหลีกเลี่ยงความคืบหน้าปลอมก่อนมีหลักฐานในเครื่อง
- การกู้คืนจากความล้มเหลวที่รายงานสถานะบางส่วนและทำให้ขอบเขตการลองใหม่ชัดเจน
สถานการณ์
เมทาดาทาของชุดที่เครื่องอ่านได้อยู่ใน
extensions/qa-lab/src/scenario-packs.ts เรียกใช้ชุดด้วย
--pack personal-agent:
OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \ --provider-mode mock-openai \ --pack personal-agent \ --concurrency 1--pack เพิ่มเติมร่วมกับแฟล็ก --scenario ที่ซ้ำได้ สถานการณ์ที่ระบุชัดเจนจะทำงานก่อน จากนั้นสถานการณ์ในชุดจะทำงานตามลำดับ QA_PERSONAL_AGENT_SCENARIO_IDS พร้อมลบรายการซ้ำออก
ชุดนี้ออกแบบมาสำหรับ qa-channel กับ mock-openai หรือเลนผู้ให้บริการ QA ในเครื่องอื่น ไม่ควรชี้ไปยังบริการแชตจริงหรือบัญชีส่วนตัวจริง
โมเดลความเป็นส่วนตัว
สถานการณ์ใช้เฉพาะผู้ใช้ปลอม ค่ากำหนดปลอม ความลับปลอม และเวิร์กสเปซ Gateway QA ชั่วคราวที่ชุดทดสอบสร้างขึ้นเท่านั้น ต้องไม่อ่านหรือเขียนหน่วยความจำผู้ใช้ OpenClaw จริง เซสชัน ข้อมูลประจำตัว launch agents การกำหนดค่าส่วนกลาง หรือสถานะ Gateway สด
อาร์ติแฟกต์จะอยู่ภายใต้ไดเรกทอรีอาร์ติแฟกต์ของชุด QA ที่มีอยู่ และควรถูกปฏิบัติเหมือนเอาต์พุตการทดสอบ การตรวจสอบการปกปิดใช้เครื่องหมายปลอม ดังนั้นความล้มเหลวจึงปลอดภัยต่อการตรวจสอบและบันทึกใน issue
การขยายชุดนี้
เพิ่มเคส .yaml ใหม่ภายใต้ qa/scenarios/personal/ จากนั้นเพิ่มรหัสสถานการณ์ลงใน QA_PERSONAL_AGENT_SCENARIO_IDS ให้แต่ละเคสมีขนาดเล็ก อยู่ในเครื่อง กำหนดผลได้ใน mock-openai และมุ่งเน้นพฤติกรรมผู้ช่วยส่วนตัวหนึ่งอย่าง
ตัวเลือกที่เหมาะสำหรับการต่อยอด:
- การตรวจสอบการส่งออกเส้นทางการทำงานที่ปกปิดแล้ว
- การตรวจสอบเวิร์กโฟลว์ Plugin เฉพาะในเครื่อง
หลีกเลี่ยงการเพิ่มตัวรัน Plugin ดีเพนเดนซี การขนส่งสด หรือผู้ตัดสินโมเดลใหม่ จนกว่าแค็ตตาล็อกสถานการณ์จะมีเคสที่เสถียรมากพอให้คุ้มค่ากับพื้นผิวนั้น