Skip to content

English Version →

관련 강의: 강의 09. 에이전트가 섣불리 완료를 선언하지 않도록 막기 · 강의 10. 완전한 파이프라인 실행만이 진정한 검증으로 인정됩니다 템플릿 파일: templates/

프로젝트 05. 에이전트가 자신의 작업을 검증하도록 만들기

해야 할 일

역할 분리(role separation)를 구현합니다. 구현을 담당하는 생성자(generator), 검토를 담당하는 평가자(evaluator), 그리고 선택적으로 플래너(planner)를 만듭니다. 각 역할이 추가될 때마다 효과를 측정하기 위해 세 번 실행합니다.

에이전트가 구현과 검증을 동시에 담당하면 자신의 오류를 스스로 발견하기 어렵습니다. 독립된 평가자 역할을 분리하면 환각(hallucination)과 섣부른 완료 선언을 방지하고, 근거 기반(grounded) Q&A의 정확도를 높일 수 있습니다.

실질적인 기능 업그레이드(멀티턴 대화, 인용 패널 재설계, 또는 문서 필터링)를 선택하고 모든 실행에서 동일하게 유지합니다.

저장소에 포함된 프로젝트 사용하기

저장소 경로: projects/project-05/

디렉터리내용비교할 것
starter/Project 04 기반 앱이며 대화 기록 업그레이드 전 상태입니다.세 변형을 다시 실행할 때의 시작점.
solution/single-role/한 에이전트가 계획, 구현, 자기 평가를 모두 수행합니다.evaluator-rubric.md의 점수와 결함.
solution/gen-eval/generator + evaluator 구조이며 수정 증거가 있습니다.evaluator-rubric.md의 점수와 revision notes.
solution/plan-gen-eval/planner + generator + evaluator와 sprint contract가 있습니다.sprint-contract.mdevaluator-rubric.md의 높은 평가 증거.

도구

  • Claude Code 또는 Codex
  • Git
  • Node.js + Electron

하네스 메커니즘

자기 검증(self-verification) + 근거 기반 Q&A + 증거 기반 완료(evidence-based completion)