Связанные лекции: Лекция 09. Не давайте агентам объявлять победу слишком рано · Лекция 10. Только полный прогон пайплайна считается настоящей верификацией Файлы шаблонов: templates/
Проект 05. Заставьте агента самостоятельно проверять свою работу
Что вы делаете
Реализуйте разделение ролей — генератор, который пишет код, evaluator, который ревьюит, и опционально планировщик. Запустите трижды, чтобы измерить эффект каждой добавленной роли.
Выберите содержательную фичу-апгрейд (многоходовой диалог, редизайн панели цитирования или фильтрация документов) и удерживайте её одинаковой во всех запусках.
Используйте проект из репозитория
Путь: projects/project-05/
| Каталог | Что внутри | Что сравнивать |
|---|---|---|
starter/ | Приложение на базе Project 04 до добавления истории диалога. | Стартовая точка для повторного запуска трёх вариантов. |
solution/single-role/ | Один агент планирует, реализует и сам себя оценивает. | Оценка и дефекты в evaluator-rubric.md. |
solution/gen-eval/ | Generator + evaluator с доказательствами правок. | Оценка и заметки ревизии в evaluator-rubric.md. |
solution/plan-gen-eval/ | Planner + generator + evaluator со sprint contract. | sprint-contract.md и более высокая оценка в evaluator-rubric.md. |
Инструменты
- Claude Code или Codex
- Git
- Node.js + Electron
Механизм harness
Самопроверка + Q&A с обоснованием + завершение по доказательствам