Skip to content

中文版本 →

関連講義: 講義 11. エージェントのランタイムを観測可能にする · 講義 12. すべてのセッション終了時にきれいな引き継ぎを残す テンプレートファイル: templates/

プロジェクト 06. 完全なエージェント harness を構築する(総合課題)

やること

これは総合プロジェクトです。最初の 5 つのプロジェクトで学んだすべてを組み合わせ、完全なベンチマークを実行し、その後クリーンアップを行って品質が維持可能かを検証します。

ドキュメントインポート、インデックス、引用付き Q&A、ランタイム観測性、読みやすく再開可能なリポジトリ状態を含む、固定された複数機能タスクセットを使います。まず弱い harness のベースラインで実行し、次に最も強い harness で実行し、その後クリーンアップして再実行します。最後に harness の ablation 実験を行い、コンポーネントを 1 つずつ外して、どれが本当に重要かを確認します。

リポジトリ内のプロジェクトを使う

リポジトリ内のパス: projects/project-06/

ディレクトリ含まれるもの比較すること
starter/プロダクトはほぼ完成していますが、harness は意図的に弱められています。基本的な AGENTS.md のみで、feature_list.jsonsession-handoff.md、clean-state checklist、benchmark/cleanup scripts はありません。弱い harness baseline の手動観察。
solution/完全な harness: AGENTS.md, CLAUDE.md, feature_list.json, init.sh, session-handoff.md, clean-state-checklist.md, quality/evaluator docs, scripts。projects/project-06/solution/scripts/benchmark.shprojects/project-06/solution/scripts/cleanup-scanner.sh を実行し、quality evidence を比較します。

ツール

  • Claude Code または Codex
  • Git
  • Node.js + Electron
  • 品質ドキュメントテンプレート
  • 評価ルーブリック
  • 最初の 5 プロジェクトで積み上げたすべての harness コンポーネント

Harness メカニズム

完全な harness: すべてのメカニズム + 観測性 + ablation study