Skip to content

中文版本 →

関連講義: 講義 09. エージェントの早すぎる完了宣言を止める · 講義 10. フルパイプライン実行だけが本当の検証である テンプレートファイル: templates/

プロジェクト 05. エージェントに自分の作業を検証させる

やること

役割分離を実装します。実装する generator、レビューする evaluator、必要に応じて planner を用意します。役割を追加するたびに効果を測るため、3 回実行します。

複数ターン会話、引用パネルの再設計、ドキュメントフィルタリングなど、実質的な機能改善を 1 つ選び、すべての実行で同じ対象を使います。

リポジトリ内のプロジェクトを使う

リポジトリ内のパス: projects/project-05/

ディレクトリ含まれるもの比較すること
starter/Project 04 ベースのアプリで、会話履歴アップグレード前の状態です。3 つの変種を自分で再実行する出発点。
solution/single-role/1 つのエージェントが計画・実装・自己評価を行います。evaluator-rubric.md のスコアと欠陥。
solution/gen-eval/generator + evaluator で修正証拠があります。evaluator-rubric.md のスコアと revision notes。
solution/plan-gen-eval/planner + generator + evaluator と sprint contract があります。sprint-contract.mdevaluator-rubric.md の高い評価証拠。

ツール

  • Claude Code または Codex
  • Git
  • Node.js + Electron

Harness メカニズム

自己検証 + 根拠付き Q&A + 証拠に基づく完了判定