関連講義: 講義 11. エージェントのランタイムを観測可能にする · 講義 12. すべてのセッション終了時にきれいな引き継ぎを残すテンプレートファイル: templates/

プロジェクト 06. 完全なエージェント harness を構築する（総合課題）

やること

これは総合プロジェクトです。最初の 5 つのプロジェクトで学んだすべてを組み合わせ、完全なベンチマークを実行し、その後クリーンアップを行って品質が維持可能かを検証します。

ドキュメントインポート、インデックス、引用付き Q&A、ランタイム観測性、読みやすく再開可能なリポジトリ状態を含む、固定された複数機能タスクセットを使います。まず弱い harness のベースラインで実行し、次に最も強い harness で実行し、その後クリーンアップして再実行します。最後に harness の ablation 実験を行い、コンポーネントを 1 つずつ外して、どれが本当に重要かを確認します。

リポジトリ内のプロジェクトを使う

リポジトリ内のパス: projects/project-06/

ディレクトリ	含まれるもの	比較すること
`starter/`	プロダクトはほぼ完成していますが、harness は意図的に弱められています。基本的な `AGENTS.md` のみで、`feature_list.json`、`session-handoff.md`、clean-state checklist、benchmark/cleanup scripts はありません。	弱い harness baseline の手動観察。
`solution/`	完全な harness: `AGENTS.md`, `CLAUDE.md`, `feature_list.json`, `init.sh`, `session-handoff.md`, `clean-state-checklist.md`, quality/evaluator docs, scripts。	`projects/project-06/solution/scripts/benchmark.sh` と `projects/project-06/solution/scripts/cleanup-scanner.sh` を実行し、quality evidence を比較します。

ツール

Claude Code または Codex
Git
Node.js + Electron
品質ドキュメントテンプレート
評価ルーブリック
最初の 5 プロジェクトで積み上げたすべての harness コンポーネント

Harness メカニズム

完全な harness: すべてのメカニズム + 観測性 + ablation study

プロジェクト 06. 完全なエージェント harness を構築する（総合課題） ​

やること ​

リポジトリ内のプロジェクトを使う ​

ツール ​

Harness メカニズム ​

プロジェクト 06. 完全なエージェント harness を構築する（総合課題）

やること

リポジトリ内のプロジェクトを使う

ツール

Harness メカニズム