Fundamentals

ชุดเกณฑ์มาตรฐานสำหรับเอเจนต์ส่วนบุคคล

Personal Agent Benchmark Pack เป็นชุดสถานการณ์ QA ขนาดเล็กที่มีคลังเก็บโค้ดรองรับ สำหรับเวิร์กโฟลว์ผู้ช่วยส่วนตัวในเครื่อง ไม่ใช่เบนช์มาร์กโมเดลทั่วไป และไม่ต้องใช้ตัวรันใหม่ ชุดนี้ใช้สแตก QA ส่วนตัวที่อธิบายไว้ใน ภาพรวม QA, ช่อง QA จำลอง และแค็ตตาล็อก YAML qa/scenarios ที่มีอยู่

ชุดแรกตั้งใจให้มีขอบเขตแคบ:

  • การแจ้งเตือนส่วนตัวปลอมผ่านการส่งมอบด้วย cron ในเครื่อง
  • การกำหนดเส้นทาง DM และการตอบกลับเธรดปลอมผ่าน qa-channel
  • การเรียกคืนค่ากำหนดปลอมจากไฟล์หน่วยความจำเวิร์กสเปซ QA ชั่วคราว
  • การตรวจสอบความลับปลอมแบบไม่สะท้อนกลับ
  • การดำเนินการต่อของเครื่องมือที่อิงการอ่านอย่างปลอดภัยหลังเทิร์นสั้น ๆ แบบการอนุมัติ
  • พฤติกรรมหยุดเมื่อปฏิเสธการอนุมัติสำหรับคำขออ่านข้อมูลในเครื่องที่ละเอียดอ่อน
  • การรายงานสถานะงานที่มีหลักฐานรองรับ ซึ่งแยกสถานะรอดำเนินการ ถูกบล็อก และเสร็จแล้วออกจากกัน
  • อาร์ติแฟกต์การวินิจฉัยที่แชร์ได้อย่างปลอดภัย ซึ่งคงสถานะที่มีประโยชน์ไว้พร้อมละเว้นเนื้อหาส่วนตัวดิบ
  • การอ้างว่างานเสร็จสมบูรณ์ที่มีหลักฐานรองรับ ซึ่งหลีกเลี่ยงความคืบหน้าปลอมก่อนมีหลักฐานในเครื่อง
  • การกู้คืนจากความล้มเหลวที่รายงานสถานะบางส่วนและทำให้ขอบเขตการลองใหม่ชัดเจน

สถานการณ์

เมทาดาทาของชุดที่เครื่องอ่านได้อยู่ใน extensions/qa-lab/src/scenario-packs.ts เรียกใช้ชุดด้วย --pack personal-agent:

bash
OPENCLAW_ENABLE_PRIVATE_QA_CLI=1 pnpm openclaw qa suite \  --provider-mode mock-openai \  --pack personal-agent \  --concurrency 1

--pack เพิ่มเติมร่วมกับแฟล็ก --scenario ที่ซ้ำได้ สถานการณ์ที่ระบุชัดเจนจะทำงานก่อน จากนั้นสถานการณ์ในชุดจะทำงานตามลำดับ QA_PERSONAL_AGENT_SCENARIO_IDS พร้อมลบรายการซ้ำออก

ชุดนี้ออกแบบมาสำหรับ qa-channel กับ mock-openai หรือเลนผู้ให้บริการ QA ในเครื่องอื่น ไม่ควรชี้ไปยังบริการแชตจริงหรือบัญชีส่วนตัวจริง

โมเดลความเป็นส่วนตัว

สถานการณ์ใช้เฉพาะผู้ใช้ปลอม ค่ากำหนดปลอม ความลับปลอม และเวิร์กสเปซ Gateway QA ชั่วคราวที่ชุดทดสอบสร้างขึ้นเท่านั้น ต้องไม่อ่านหรือเขียนหน่วยความจำผู้ใช้ OpenClaw จริง เซสชัน ข้อมูลประจำตัว launch agents การกำหนดค่าส่วนกลาง หรือสถานะ Gateway สด

อาร์ติแฟกต์จะอยู่ภายใต้ไดเรกทอรีอาร์ติแฟกต์ของชุด QA ที่มีอยู่ และควรถูกปฏิบัติเหมือนเอาต์พุตการทดสอบ การตรวจสอบการปกปิดใช้เครื่องหมายปลอม ดังนั้นความล้มเหลวจึงปลอดภัยต่อการตรวจสอบและบันทึกใน issue

การขยายชุดนี้

เพิ่มเคส .yaml ใหม่ภายใต้ qa/scenarios/personal/ จากนั้นเพิ่มรหัสสถานการณ์ลงใน QA_PERSONAL_AGENT_SCENARIO_IDS ให้แต่ละเคสมีขนาดเล็ก อยู่ในเครื่อง กำหนดผลได้ใน mock-openai และมุ่งเน้นพฤติกรรมผู้ช่วยส่วนตัวหนึ่งอย่าง

ตัวเลือกที่เหมาะสำหรับการต่อยอด:

  • การตรวจสอบการส่งออกเส้นทางการทำงานที่ปกปิดแล้ว
  • การตรวจสอบเวิร์กโฟลว์ Plugin เฉพาะในเครื่อง

หลีกเลี่ยงการเพิ่มตัวรัน Plugin ดีเพนเดนซี การขนส่งสด หรือผู้ตัดสินโมเดลใหม่ จนกว่าแค็ตตาล็อกสถานการณ์จะมีเคสที่เสถียรมากพอให้คุ้มค่ากับพื้นผิวนั้น

Was this useful?
On this page

On this page