Bài giảng liên quan: Bài 09. Ngăn agent tuyên bố hoàn thành quá sớm · Bài 10. Chỉ testing end-to-end mới là xác minh thực sự Tệp mẫu: templates/
Dự án 05. Để Agent Xác minh Công việc của Chính nó
Bạn Làm Gì
Triển khai phân tách vai trò — một generator thực hiện, một evaluator review, và tùy chọn một planner. Chạy ba lần để đo lường tác động của mỗi vai trò được thêm vào.
Chọn một tính năng nâng cấp thực chất (hội thoại đa lượt, thiết kế lại citation panel, hoặc lọc tài liệu) và giữ nó nhất quán qua tất cả các lần chạy.
Dùng project có sẵn trong repo
Đường dẫn repo: projects/project-05/
| Thư mục | Nội dung | So sánh gì |
|---|---|---|
starter/ | Ứng dụng dựa trên Project 04 trước khi nâng cấp lịch sử hội thoại. | Điểm bắt đầu nếu muốn chạy lại ba biến thể. |
solution/single-role/ | Một agent tự lập kế hoạch, triển khai và tự đánh giá. | Điểm số và lỗi trong evaluator-rubric.md. |
solution/gen-eval/ | Generator + evaluator, có bằng chứng sửa đổi. | Điểm số và revision notes trong evaluator-rubric.md. |
solution/plan-gen-eval/ | Planner + generator + evaluator với sprint contract. | sprint-contract.md và bằng chứng điểm cao hơn trong evaluator-rubric.md. |
Công cụ
- Claude Code hoặc Codex
- Git
- Node.js + Electron
Cơ chế Harness
Tự xác minh + Q&A có grounding + hoàn thành dựa trên bằng chứng